기하중앙값
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
기하 중앙값은 m개의 점 집합에서 각 점까지의 유클리드 거리의 합을 최소화하는 점 y로 정의된다. 1차원 공간에서 중앙값과 동일하며, 유클리드 닮음 변환에 대해 공변성을 갖는다. 기하 중앙값은 파괴점이 0.5이며, 특수한 경우로 세 점 또는 네 점의 위치에 따라 기하 중앙값의 위치가 결정된다. 기하 중앙값은 닫힌 형식의 해를 구하기 어렵지만, Weiszfeld 알고리즘과 같은 반복 절차를 통해 근사값을 계산할 수 있다. 유클리드 공간에서 리만 다양체로 일반화될 수 있으며, 프레셰 평균을 정의하는 데 사용되는 아이디어를 활용한다.
주어진 ''m''개의 점 집합 (각 )에 대해, 기하중앙값은 ''L''2 거리의 합을 최소화하는 점 으로 정의된다.
점의 개수가 적은 몇 가지 특수한 경우 기하중앙값을 찾는 방법은 비교적 간단하다.
2. 정의
:
여기서 arg min은 위 식의 합을 최소화하는 인자 의 값을 의미한다. 즉, 기하중앙값은 ''n''차원 유클리드 공간에서 주어진 모든 점 까지의 유클리드 거리의 총합이 가장 작아지는 점 를 찾는 문제이다.
3. 특성
4. 특수한 경우
4. 1. 3개의 점
세 점이 공선점이 아니라 삼각형을 이루는 경우, 기하중앙값은 다음과 같이 결정된다.
세 점이 공선점, 즉 한 직선 위에 놓여 있는 경우에는, 기하중앙값은 세 점 중에서 다른 두 점 사이에 있는 점이 된다. 이는 1차원에서의 중앙값 개념과 같다.[4]
4. 2. 4개의 점
4개의 공면점의 경우, 4개의 점 중 하나가 나머지 세 점으로 이루어진 삼각형 안에 있으면, 기하중앙값은 그 점이다. 그렇지 않으면, 네 점은 볼록 사변형을 형성하고, 기하중앙값은 사변형의 대각선이 교차하는 점이다. 네 개의 공면점의 기하중앙값은 네 점의 고유한 라돈 점과 같다.[6]
5. 계산
기하 중앙값은 개념적으로 이해하기 쉽지만, 실제로 계산하는 것은 간단하지 않다. 각 점까지 거리의 제곱의 합을 최소화하는 무게 중심이나 질량 중심은 각 점의 좌표를 평균 내는 간단한 공식으로 구할 수 있다. 하지만 기하 중앙값의 경우, 일반적으로 명시적 공식이나 산술 연산과 ''k''제곱근만 사용하는 정확한 알고리즘은 존재하지 않는 것으로 알려져 있다. 따라서 이 계산 모델에서는 기하 중앙값에 대한 수치적 또는 기호적 근사만이 가능하다.[7]
그러나 기하 중앙값의 근사값은 반복적인 절차를 통해 계산할 수 있다. 이러한 절차는 각 단계에서 더 정확한 근사값을 생성한다. 이 방법은 각 샘플 점까지의 거리가 볼록 함수이고, 볼록 함수의 합 역시 볼록 함수라는 성질을 이용한다. 따라서 각 단계에서 거리의 합을 줄여나가는 방식은 지역 최적해에 빠지지 않고 전역 최적해에 수렴할 수 있다.
이러한 접근 방식 중 대표적인 것은 '''Weiszfeld 알고리즘'''으로, 이는 Endre Weiszfeld의 연구[8]에 기반하며 반복 재가중 최소 제곱 방법의 한 형태이다. 이 알고리즘은 현재 추정치 ''y''''k''에서 각 샘플 점 ''x''''i''까지의 거리에 반비례하는 가중치를 설정하고, 이 가중치를 적용한 샘플들의 가중 평균을 새로운 추정치 ''y''''k''+1로 계산한다. 수식은 다음과 같다.
:
이 방법은 대부분의 초기 위치에서 수렴하지만, 추정치가 주어진 샘플 점 중 하나와 일치하게 되면 수렴하지 못할 수 있다. 이러한 경우를 처리하여 모든 초기점에 대해 수렴하도록 알고리즘을 수정할 수 있다.[3]
Bose, Maheshwari, Morin은 2003년에 이 문제에 대한 근사 최적해를 찾는 더 정교한 기하학적 최적화 절차를 제시했다. Cohen, Lee, Miller, Pachocki는 2016년에 거의 선형 시간 안에 임의의 정밀도로 기하 중앙값을 계산하는 방법을 보여주었다.
또한, 기하 중앙값 문제는 2차 콘 프로그래밍 문제로 공식화될 수 있다.
:
이 문제는 일반적인 최적화 솔버를 사용하여 다항 시간 안에 해결할 수 있다.
6. 일반화
기하 중앙값은 유클리드 공간뿐만 아니라 더 일반적인 리만 다양체, 심지어 거리 공간으로까지 확장될 수 있다. 이는 리만 다양체에서 프레셰 평균을 정의할 때 사용하는 아이디어와 같다.[9]
을 거리 함수 를 갖는 리만 다양체라고 하자. 을 합이 1인 개의 가중치라 하고, 을 에서 관측된 개의 값이라고 하자. 이때, 데이터 점들의 가중 기하 중앙값 (또는 가중 프레셰 중앙값)은 다음 수식으로 정의된다.
:
만약 모든 가중치 가 같다면, 을 간단히 기하 중앙값이라고 부른다.
7. 같이 볼 문헌
- 메도이드
- 기하 중앙값 절대 편차
참조
[1]
학술
Drezner, Klamroth, Schöbel, Wesolowsky, 2002
[2]
서적
Geometric Methods and Optimization Problems
Springer
1999
[3]
학술
Vardi, Zhang, 2000
[4]
학술
Haldane, 1948
[5]
학술
Lopuhaä, Rousseeuw, 1991
[6]
학술
Cieslik, 2006; Plastria, 2006
[7]
학술
Bajaj, 1986; Bajaj, 1988
[8]
학술
Weiszfeld, 1937; Kuhn, 1973; Chandrasekaran, Tamir, 1989
[9]
Conference
Robust statistics on Riemannian manifolds via the geometric median
https://ieeexplore.i[...]
IEEE
2008-06-23
[10]
학술
Haldane, 1948
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com