맨위로가기

기하중앙값

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

기하 중앙값은 m개의 점 집합에서 각 점까지의 유클리드 거리의 합을 최소화하는 점 y로 정의된다. 1차원 공간에서 중앙값과 동일하며, 유클리드 닮음 변환에 대해 공변성을 갖는다. 기하 중앙값은 파괴점이 0.5이며, 특수한 경우로 세 점 또는 네 점의 위치에 따라 기하 중앙값의 위치가 결정된다. 기하 중앙값은 닫힌 형식의 해를 구하기 어렵지만, Weiszfeld 알고리즘과 같은 반복 절차를 통해 근사값을 계산할 수 있다. 유클리드 공간에서 리만 다양체로 일반화될 수 있으며, 프레셰 평균을 정의하는 데 사용되는 아이디어를 활용한다.

2. 정의

주어진 ''m''개의 점 집합 \mathbb{X}^m = x_1, x_2, \dots, x_m\, (각 x_i \in \mathbb{R}^n)에 대해, 기하중앙값은 ''L''2 거리의 합을 최소화하는 점 y \in \mathbb{R}^n으로 정의된다.

:\underset{y \in \mathbb{R}^n}{\operatorname{arg\,min}} \sum_{i=1}^m \left \| x_i-y \right \|_2

여기서 arg min은 위 식의 합을 최소화하는 인자 y의 값을 의미한다. 즉, 기하중앙값은 ''n''차원 유클리드 공간에서 주어진 모든 점 x_i까지의 유클리드 거리의 총합이 가장 작아지는 점 y를 찾는 문제이다.

3. 특성


  • 1차원 공간에서 기하 중앙값은 중앙값과 일치한다. 이는 1차원 중앙값 역시 각 점까지의 거리 합을 최소화하는 지점이기 때문이다. 다만, 점의 개수 ''n''이 홀수일 때는 정렬된 점들 중 정확히 가운데 위치한 점 p_{(n+1)/2}이 기하 중앙값이 되지만, ''n''이 짝수일 때는 가운데 두 점 p_{n/2}p_{(n/2)+1} 사이의 선분 위의 어떤 점도 기하 중앙값이 될 수 있어 유일하게 결정되지 않는다.
  • 점들이 공선점이 아닌 경우, 기하 중앙값은 '''유일'''하게 결정된다.
  • 기하 중앙값은 이동이나 회전과 같은 유클리드 닮음 변환에 대해 공변성을 가진다. 즉, 주어진 점들의 기하 중앙값을 구한 뒤 변환하거나, 점들을 먼저 변환한 뒤 기하 중앙값을 구해도 결과는 같다. 이는 기하 중앙값이 점들 사이의 거리에만 의존하며, 점들을 나타내는 직교 좌표계의 선택과는 무관하기 때문이다. 이와 달리, 다변량 데이터 집합에 대한 성분별 중앙값은 일반적으로 회전에 대해 불변하지 않으며 좌표계 선택에 따라 결과가 달라질 수 있다.
  • 기하 중앙값의 파괴점은 0.5이다. 이는 전체 데이터 중 최대 절반까지의 점들이 임의의 값으로 손상될 수 있더라도, 기하 중앙값은 여전히 손상되지 않은 데이터 위치에 대한 강건 추정량을 제공할 수 있음을 의미한다.

4. 특수한 경우

점의 개수가 적은 몇 가지 특수한 경우 기하중앙값을 찾는 방법은 비교적 간단하다.


  • '''3개의 점:''' 공선점이 아닌 세 점으로 이루어진 삼각형의 경우, 각도 조건에 따라 기하중앙값이 꼭짓점 중 하나가 되거나 삼각형 내부의 페르마 점이 된다.[4] 세 점이 공선점이라면 중앙에 위치한 점이 기하중앙값이다.
  • '''4개의 점:''' 공면점인 네 점의 경우, 점들의 배치에 따라 기하중앙값이 결정된다. 한 점이 나머지 세 점으로 이루어진 삼각형 내부에 있다면 그 점이 기하중앙값이고, 그렇지 않아 볼록 사변형을 이룬다면 대각선의 교점이 기하중앙값이 된다. 이는 네 점의 라돈 점과 같다.[6]

4. 1. 3개의 점

세 점이 공선점이 아니라 삼각형을 이루는 경우, 기하중앙값은 다음과 같이 결정된다.

  • 삼각형의 한 각의 크기가 120° 이상이면, 기하중앙값은 바로 그 각의 꼭짓점이 된다.
  • 만약 삼각형의 모든 각이 120°보다 작다면, 기하중앙값은 삼각형 내부에 위치한다. 이 점은 세 꼭짓점 각각의 쌍과 연결했을 때 이루는 각도가 모두 120°가 되는 특별한 점이다.[10][4] 이 점을 삼각형의 페르마 점이라고 부른다.


세 점이 공선점, 즉 한 직선 위에 놓여 있는 경우에는, 기하중앙값은 세 점 중에서 다른 두 점 사이에 있는 점이 된다. 이는 1차원에서의 중앙값 개념과 같다.[4]

4. 2. 4개의 점

4개의 공면점의 경우, 4개의 점 중 하나가 나머지 세 점으로 이루어진 삼각형 안에 있으면, 기하중앙값은 그 점이다. 그렇지 않으면, 네 점은 볼록 사변형을 형성하고, 기하중앙값은 사변형의 대각선이 교차하는 점이다. 네 개의 공면점의 기하중앙값은 네 점의 고유한 라돈 점과 같다.[6]

5. 계산

기하 중앙값은 개념적으로 이해하기 쉽지만, 실제로 계산하는 것은 간단하지 않다. 각 점까지 거리의 제곱의 합을 최소화하는 무게 중심이나 질량 중심은 각 점의 좌표를 평균 내는 간단한 공식으로 구할 수 있다. 하지만 기하 중앙값의 경우, 일반적으로 명시적 공식이나 산술 연산과 ''k''제곱근만 사용하는 정확한 알고리즘은 존재하지 않는 것으로 알려져 있다. 따라서 이 계산 모델에서는 기하 중앙값에 대한 수치적 또는 기호적 근사만이 가능하다.[7]

그러나 기하 중앙값의 근사값은 반복적인 절차를 통해 계산할 수 있다. 이러한 절차는 각 단계에서 더 정확한 근사값을 생성한다. 이 방법은 각 샘플 점까지의 거리가 볼록 함수이고, 볼록 함수의 합 역시 볼록 함수라는 성질을 이용한다. 따라서 각 단계에서 거리의 합을 줄여나가는 방식은 지역 최적해에 빠지지 않고 전역 최적해에 수렴할 수 있다.

이러한 접근 방식 중 대표적인 것은 '''Weiszfeld 알고리즘'''으로, 이는 Endre Weiszfeld의 연구[8]에 기반하며 반복 재가중 최소 제곱 방법의 한 형태이다. 이 알고리즘은 현재 추정치 ''y''''k''에서 각 샘플 점 ''x''''i''까지의 거리에 반비례하는 가중치를 설정하고, 이 가중치를 적용한 샘플들의 가중 평균을 새로운 추정치 ''y''''k''+1로 계산한다. 수식은 다음과 같다.

:\left. y_{k+1}=\left( \sum_{i=1}^m \frac{x_i}{\| x_i - y_k \|} \right) \right/ \left( \sum_{i=1}^m \frac{1}{\| x_i - y_k \|} \right).

이 방법은 대부분의 초기 위치에서 수렴하지만, 추정치가 주어진 샘플 점 중 하나와 일치하게 되면 수렴하지 못할 수 있다. 이러한 경우를 처리하여 모든 초기점에 대해 수렴하도록 알고리즘을 수정할 수 있다.[3]

Bose, Maheshwari, Morin은 2003년에 이 문제에 대한 근사 최적해를 찾는 더 정교한 기하학적 최적화 절차를 제시했다. Cohen, Lee, Miller, Pachocki는 2016년에 거의 선형 시간 안에 임의의 정밀도로 기하 중앙값을 계산하는 방법을 보여주었다.

또한, 기하 중앙값 문제는 2차 콘 프로그래밍 문제로 공식화될 수 있다.

: \underset{y \in \mathbb{R}^n, \ s \in \mathbb{R}^m}{\min} \ \sum_{i=1}^m s_i \text{ subject to } s_i \geq \left \| x_i-y \right \|_2 \text{ for } i=1, \ldots, m,

이 문제는 일반적인 최적화 솔버를 사용하여 다항 시간 안에 해결할 수 있다.

6. 일반화

기하 중앙값은 유클리드 공간뿐만 아니라 더 일반적인 리만 다양체, 심지어 거리 공간으로까지 확장될 수 있다. 이는 리만 다양체에서 프레셰 평균을 정의할 때 사용하는 아이디어와 같다.[9]

M을 거리 함수 d(\cdot, \cdot)를 갖는 리만 다양체라고 하자. w_1, \ldots, w_n을 합이 1인 n개의 가중치라 하고, x_1, \ldots, x_nM에서 관측된 n개의 값이라고 하자. 이때, 데이터 점들의 가중 기하 중앙값 m(또는 가중 프레셰 중앙값)은 다음 수식으로 정의된다.

: m = \underset{x \in M}{\operatorname{arg\,min}} \sum_{i=1}^n w_i d(x,x_i)

만약 모든 가중치 w_i가 같다면, m을 간단히 기하 중앙값이라고 부른다.

7. 같이 볼 문헌

참조

[1] 학술 Drezner, Klamroth, Schöbel, Wesolowsky, 2002
[2] 서적 Geometric Methods and Optimization Problems Springer 1999
[3] 학술 Vardi, Zhang, 2000
[4] 학술 Haldane, 1948
[5] 학술 Lopuhaä, Rousseeuw, 1991
[6] 학술 Cieslik, 2006; Plastria, 2006
[7] 학술 Bajaj, 1986; Bajaj, 1988
[8] 학술 Weiszfeld, 1937; Kuhn, 1973; Chandrasekaran, Tamir, 1989
[9] Conference Robust statistics on Riemannian manifolds via the geometric median https://ieeexplore.i[...] IEEE 2008-06-23
[10] 학술 Haldane, 1948



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com