맨위로가기

마할라노비스 거리

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

마할라노비스 거리는 확률 분포와 점 사이의 거리 또는 두 점 사이의 거리를 나타내는 척도이다. 평균과 공분산 행렬을 사용하여 계산되며, 변수 간의 상관 관계를 고려하고 데이터의 분산을 정규화하여 유클리드 거리와 구별된다. 클러스터 분석, 통계적 분류, 이상치 탐지 등 다양한 분야에서 활용되며, 정규 분포와의 관계를 통해 확률 밀도를 결정하는 데 사용될 수 있다. 또한 레버리지 통계량과 관련이 있으며, 생태 틈새 모델링, 금융 시장 분석, 품질 공학 등 다양한 응용 분야에서 활용된다.

더 읽어볼만한 페이지

  • 다변량 통계 - 독립 성분 분석
    독립 성분 분석(ICA)은 데이터가 통계적으로 독립적인 성분들의 혼합이라는 가정하에, 데이터에서 독립적인 성분들을 찾아내는 통계적 계산 방법으로, 다양한 알고리즘 개발을 거쳐 블라인드 신호 분리, 뇌파 분석, 얼굴 인식 등 여러 분야에 응용된다.
  • 다변량 통계 - 비음수 행렬 분해
    비음수 행렬 분해(NMF)는 음수가 아닌 두 행렬의 곱으로 행렬을 분해하는 차원 축소 기법으로, 데이터의 잠재적 구조 파악, 해석 용이성, 객체 인식에 유용한 특징 추출 등의 장점으로 텍스트 마이닝, 스펙트럼 데이터 분석, 생물정보학 등 다양한 분야에서 활용된다.
  • 거리 - 민코프스키 거리
    민코프스키 거리는 n차원 공간에서 두 점 사이의 거리를 정의하는 일반화된 방법으로, p값에 따라 맨해튼 거리, 유클리드 거리, 체비셰프 거리 등을 포함하며, 기계 학습에서 데이터 유사성 비교에 활용된다.
  • 거리 - 맨해튼 거리
    맨해튼 거리는 좌표축에 평행하게 측정한 거리 차이의 절댓값 합으로, 택시 기하학이라고도 불리며, 체스 룩의 이동이나 격자 도시 이동 거리 측정에 활용된다.
마할라노비스 거리
개요
이름마할라노비스 거리
유형통계적 거리 측정
창시자프라산타 찬드라 마할라노비스
창시 년도1927년 (인종 혼합 분석), 1936년 (일반화된 거리)
정의
수식 (두 벡터 간의 거리)'d(x, y) = √((x - y)ᵀ S⁻¹ (x - y))'
수식 (두 벡터 간의 거리) 설명x와 y는 두 벡터 (데이터 포인트)
S는 공분산 행렬
수식 (벡터와 분포 간의 거리)'d(x, μ) = √((x - μ)ᵀ S⁻¹ (x - μ))'
수식 (벡터와 분포 간의 거리) 설명x는 벡터 (데이터 포인트)
μ는 분포의 평균 벡터
S는 공분산 행렬
특징
척도 불변성데이터의 척도에 영향을 받지 않음
상관관계 고려변수 간의 상관관계를 고려
활용
군집 분석군집 분석에서 이상점 탐지 및 분류
분류분류
데이터 마이닝데이터 마이닝
의료진단의료진단
유전자 거리 분석유전자 유전체 거리 분석
정보 검색정보 검색에서 텍스트 주제 또는 저자 식별
거시경제거시경제 지표 평가
참고 자료
관련 논문마할라노비스, P.C. (1936). 통계에서의 일반화된 거리
관련 서적아시아 협회의 저널 및 절차 26권
캘커타 앵글로-인디언의 인류학적 관찰 - 남성 키 분석
벵골 인종 혼합 분석
과학과 문화 (1935-36) 1권

2. 정의

마할라노비스 거리는 점과 분포 사이의 거리를 측정하는 방법 중 하나로, 데이터의 분산과 변수 간 상관관계를 모두 고려한다.[6] 이 거리는 인도의 통계학자 프라산타 찬드라 마할라노비스가 1936년에 제안하였다.

S가 양의 반정부호 행렬이므로, S^{-1}도 그러하며, 따라서 제곱근은 항상 정의된다. 마할라노비스 거리는 백색화 변환 후의 유클리드 거리와 같으며,[8] 샘플의 아핀 스팬의 모든 전체 랭크 아핀 변환 하에서 보존된다.

실제로, 분포 Q는 일반적으로 알려지지 않은 기본 분포에서 추출된 일련의 독립적이고 동일하게 분포된 샘플의 표본 분포이며, 따라서 \mu는 표본 평균이고, S는 표본의 공분산 행렬이다. 샘플의 아핀 스팬이 전체 \R^N이 아닌 경우, 샘플을 먼저 \R^n으로 직교 투영하여 마할라노비스 거리를 계산할 수 있다.

2. 1. 공식

확률 분포 Q\R^N에 주어지고, 평균 \vec{\mu} = (\mu_1, \mu_2, \mu_3, \dots , \mu_N)^\mathsf{T} 및 양의 준정부호 공분산 행렬 S를 가질 때, 점 \vec{x} = (x_1, x_2, x_3, \dots, x_N )^\mathsf{T}Q 사이의 마할라노비스 거리는 다음과 같다.[6]

:d_M(\vec{x}, Q) = \sqrt{(\vec{x} - \vec{\mu})^\mathsf{T} S^{-1} (\vec{x} - \vec{\mu})}.

\R^N의 두 점 \vec{x}\vec{y}가 주어졌을 때, Q에 대한 두 점 사이의 마할라노비스 거리는 다음과 같다.

: d_M(\vec{x} ,\vec{y}; Q) = \sqrt{(\vec{x} - \vec{y})^\mathsf{T} S^{-1} (\vec{x} - \vec{y})}.

이는 d_M(\vec{x}, Q) = d_M(\vec{x},\vec{\mu}; Q)임을 의미한다.

스펙트럼 정리에 의해, S^{-1}는 어떤 실수 N\times N 행렬에 대해 S^{-1} = W^T W로 분해될 수 있으며, 이는 다음과 같은 등가 정의를 제공한다.

:d_M(\vec{x}, \vec{y}; Q) = \|W(\vec{x} - \vec{y})\|

여기서 \|\cdot\|는 유클리드 노름이다. 즉, 마할라노비스 거리는 백색화 변환 후의 유클리드 거리이다.[8]

어떤 집단 내의 점이 다변량 벡터 ( x_1, x_2, x_3, \dots, x_p )^{\intercal}로 표시될 때, 해당 집단의 변수별 평균을 세로 벡터로 \mu = ( \mu_1, \mu_2, \mu_3, \dots , \mu_p )^{\intercal}로 표시하고, 집단의 공분산 행렬(각 변수 간의 공분산을 배열한 행렬)을 \Sigma로 하면, 어떤 점 x = ( x_1, x_2, x_3, \dots, x_p )^{\intercal}로부터의 집단으로의 마할라노비스 거리는 다음과 같이 정의된다.

:D_M(x) = \sqrt{(x - \mu)^{\intercal} \Sigma^{-1} (x-\mu)}

제곱근 내부는 세로 벡터의 전치와 행렬 및 세로 벡터의 곱이며, 스칼라량(양의 이차 형식)으로 양수이다.

마할라노비스 거리는 또한, 공분산 행렬이 \Sigma로 동일한 확률 분포를 따르는 두 개의 확률 변수 벡터, \vec{x} \vec{y} 사이의 간격 지표로도 정의할 수 있다.

: d(\vec{x},\vec{y})=\sqrt{(\vec{x}-\vec{y})^{\intercal} \Sigma^{-1} (\vec{x}-\vec{y})}

공분산 행렬이 대각 행렬이면(상이한 변수에 상관 관계가 없다는 의미), 마할라노비스 거리는 "정규화 유클리드 거리"라고 불린다.

: d(\vec{x},\vec{y})=\sqrt{\sum_{i=1}^p {(x_i - y_i)^2 \over \sigma_i^2}}

여기서 \sigma_i x_i의 집합에서의 표준 편차이다. 또한 공분산 행렬이 단위 행렬이면, 마할라노비스 거리는 유클리드 거리와 일치한다.

2. 2. 직관적 설명

''N''차원 유클리드 공간에서 주어진 집합에 속하는 테스트 지점의 확률을 추정하는 문제를 생각해 보자. 여기서 우리는 해당 집합에 확실히 속하는 샘플 지점들을 가지고 있다. 우선 샘플 지점들의 중심 또는 질량 중심을 찾는다. 직관적으로, 질문 대상 지점이 이 질량 중심에 가까울수록 해당 집합에 속할 가능성이 더 높다.

그러나 집합의 분포 범위도 고려해야 한다. 간단한 방법은 질량 중심으로부터 샘플 지점의 거리에 대한 표준 편차를 추정하는 것이다. 테스트 지점과 질량 중심 사이의 거리가 1 표준 편차 미만이면 테스트 지점이 해당 집합에 속할 가능성이 매우 높다고 볼 수 있다. 거리가 멀수록 테스트 지점이 해당 집합에 속하지 않을 가능성이 더 높다.

이러한 직관은 테스트 지점과 집합 사이의 정규화된 거리를 \frac{\lVert x - \mu\rVert_2}{\sigma} (test point영어 - sample mean영어)/standard deviation영어)로 정의하여 정량화할 수 있다. 이를 정규 분포에 대입하면 테스트 지점이 해당 집합에 속할 확률을 얻을 수 있다.

하지만 위 방법은 샘플 지점이 질량 중심 주변에 구형으로 분포되어 있다고 가정한다. 만약 분포가 비구형, 예를 들어 타원형이라면, 테스트 지점이 해당 집합에 속할 확률은 질량 중심으로부터의 거리뿐만 아니라 방향에 따라서도 달라진다. 타원의 짧은 축 방향에서는 테스트 지점이 더 가까워야 하고, 긴 축 방향에서는 더 멀리 떨어져 있어도 된다.

이를 수학적으로 표현하면, 샘플의 공분산 행렬을 이용하여 집합의 확률 분포를 가장 잘 나타내는 타원을 추정할 수 있다. 마할라노비스 거리는 테스트 지점의 중심으로부터의 거리를 테스트 지점 방향의 타원 폭으로 나눈 값이다.

3. 특징

마할라노비스 거리는 변수 간의 상관 관계를 고려하고, 척도 수준에 의존하지 않는다는 점에서 유클리드 거리와 구별된다. 다변량 분석에서 새로운 표본과 기존 표본 간의 유사성을 파악하는 데 유용하다.[6]

4. 정규 분포와의 관계

정규 분포에서 관측값 \vec{x}의 확률 밀도는 마할라노비스 거리 d에 의해 고유하게 결정된다.[6]

:

\begin{align}

\Pr[\vec x] \,d\vec x & = \frac 1 {\sqrt{\det(2\pi \mathbf{S})}} \exp \left(-\frac{(\vec x - \vec \mu)^\mathsf{T} \mathbf{S}^{-1} (\vec x - \vec \mu)} 2 \right) \,d\vec{x} \\[6pt]

& = \frac{1}{\sqrt{\det(2\pi \mathbf{S})}} \exp\left( -\frac{d^2} 2 \right) \,d\vec x.

\end{align}



여기서 d^2는 자유도 n (정규 분포의 차원 수)의 카이제곱 분포를 따른다. 예를 들어, 2차원 정규 분포에서 특정 마할라노비스 거리 d가 임계값 t보다 작을 확률은 1 - e^{-t^2/2}이다. 특정 확률 p를 얻기 위한 임계값은 2차원의 경우 t = \sqrt{-2\ln(1 - p)}로 계산한다. 다른 차원의 경우에는 누적 카이제곱 분포를 참조해야 한다.[6]

정규 분포에서 마할라노비스 거리가 1보다 작은 영역(거리 1인 타원체 내부 영역)은 확률 분포가 오목인 영역이다.[6]

마할라노비스 거리는 정규 분포에서 음의 로그 우도의 제곱근에 비례한다(최솟값이 0이 되도록 상수를 더한 후).[6]

일반적으로 분산 S=1 및 평균 \mu = 0을 갖는 정규(가우시안) 확률 변수 X가 주어지면, 다른 모든 정규 확률 변수 R(평균 \mu_1 및 분산 S_1)은 R = \mu_1 + \sqrt{S_1}X라는 식으로 X를 사용하여 정의할 수 있다. 반대로, 임의의 정규 확률 변수에서 정규화된 확률 변수를 복구하기 위해 X = (R - \mu_1)/\sqrt{S_1} 을 풀 수 있다. 양변을 제곱하고 제곱근을 취하면 다음과 같이 마할라노비스 거리와 매우 유사한 지표에 대한 방정식을 얻는다.[6]

D = \sqrt{X^2} = \sqrt{(R - \mu_1)^2/S_1} = \sqrt{(R - \mu_1) S_1^{-1} (R - \mu_1) }.

결과 크기는 항상 음수가 아니며 데이터의 평균으로부터의 거리에 따라 달라지는데, 이는 데이터에 대한 모델을 정의하려고 할 때 편리한 속성이다.[6]

5. 레버리지와의 관계

마할라노비스 거리는 레버리지 통계량 h와 밀접하게 관련되어 있지만, 다른 척도를 갖는다.

:D^2 = (N - 1) \left(h - \tfrac 1 N \right).

다변량 데이터 집합의 무게 중심에서 목표 지점까지의 마할라노비스 거리는 해당 지점의 지렛대비에 (N-1)을 곱한 값과 같다 (여기서 N은 데이터 집합의 점 개수).

6. 응용

마할라노비스 거리는 클러스터 분석 및 분류 기술에 널리 사용된다. 이는 다변량 통계 검정에 사용되는 호텔링의 T-제곱 분포와 지도 분류에 사용되는 피셔의 선형 판별 분석과 밀접한 관련이 있다.[12]

마할라노비스 거리와 레버리지는 선형 회귀 모델 개발 등에서 이상치를 탐지하는 데 자주 사용된다. 또한 다변량 이상치를 결정하는 데도 사용된다.

생태 틈새 모델링에도 사용되었는데,[13][14] 이는 마할라노비스 거리의 볼록 타원 형태가 기본 틈새의 개념과 잘 연결되기 때문이다. 금융 분야에서는 금융 시장의 비정상적인 행동에 대한 통계적 척도인 "난기류 지수"를 계산하는 데 사용된다.[15]

6. 1. 통계적 분류

마할라노비스 거리는 클러스터 분석 및 분류 기술에 널리 사용된다. 특정 점을 ''N''개의 클래스 중 하나로 분류하려면, 먼저 각 클래스의 공분산 행렬을 추정해야 하며, 일반적으로 각 클래스에 속하는 것으로 알려진 샘플을 기반으로 한다. 그런 다음 테스트 샘플이 주어지면 각 클래스에 대한 마할라노비스 거리를 계산하고, 마할라노비스 거리가 최소인 클래스에 해당 테스트 점이 속하는 것으로 분류한다.[12]

6. 2. 이상치 탐지

마할라노비스 거리와 레버리지는 선형 회귀 모델 개발 등에서 이상치를 탐지하는 데 자주 사용된다.[12] 샘플 모집단의 나머지 점들로부터 더 큰 마할라노비스 거리를 갖는 점은 회귀 방정식의 기울기 또는 계수에 더 큰 영향을 미치므로 레버리지가 높다고 한다.[12] 마할라노비스 거리는 다변량 이상치를 결정하는 데도 사용된다. 회귀 기술을 사용하여 샘플 모집단 내의 특정 사례가 두 개 이상의 변수 점수를 조합하여 이상치인지 여부를 결정할 수 있다. 정규 분포의 경우에도 점이 어떤 변수에 대해서도 단변량 이상치가 아니더라도 다변량 이상치일 수 있다. 이 때문에 마할라노비스 거리는 개별적으로 차원을 확인하는 것보다 더 민감한 척도가 된다.

6. 3. 기타 응용

마할라노비스 거리는 금융 분야에서 금융 시장의 비정상적인 행동에 대한 통계적 척도인 "난기류 지수"를 계산하는 데 사용된다.[15]

또한 생태 틈새 모델링에도 사용되었는데,[13][14] 이는 마할라노비스 거리의 볼록 타원 형태가 기본 틈새의 개념과 잘 연결되기 때문이다.

품질 공학 분야에서는 다구치 겐이치가 마할라노비스 거리를 응용한 MTS(마할라노비스-다구치 시스템), MT법이 있다. 처음에는 마할라노비스 거리를 SN비로 평가하려는 기법을 지칭했지만, 발전하여 마할라노비스 거리를 사용하지 않는 기법에도 이 이름이 사용되는 경우가 있다. 한편, 다구치 겐이치는 직교화를 사용하고 있기 때문에, 마할라노비스-다구치-슈미트법이라고 불리기를 희망하고 있다.[18]

7. 소프트웨어 구현

R, Python 등 다양한 프로그래밍 언어 및 통계 패키지에서 마할라노비스 거리 계산 기능을 제공한다.

언어/프로그램함수참고
줄리아mahalanobis(x, y, Q)[https://github.com/JuliaStats/Distances.jl#distance-type-hierarchy]
MATLABmahal(x, y)[https://de.mathworks.com/help/stats/mahal.html]
Rmahalanobis(x, center, cov, inverted = FALSE, ...)[https://stat.ethz.ch/R-manual/R-devel/library/stats/html/mahalanobis.html]
SciPy (Python)mahalanobis(u, v, VI)[https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.mahalanobis.html]


참조

[1] 학술지 Reprint of: Mahalanobis, P.C. (1936) "On the Generalised Distance in Statistics." https://doi.org/10.1[...] 2018-12-01
[2] 서적 Journal and Procedings Of The Asiatic Society Of Bengal Vol-xxvi https://archive.org/[...] Asiatic Society Of Bengal Calcutta 1933
[3] 서적 Anthropological Observations on the Anglo-Indians of Culcutta---Analysis of Male Stature http://archive.org/d[...] 1922
[4] 학술지 Analysis of race mixture in Bengal https://archive.org/[...] 1927
[5] 서적 Science And Culture (1935-36) Vol. 1 https://archive.org/[...] Indian Science News Association 1935
[6] 학술지 The Mahalanobis distance
[7] 학술지 Multivariate outliers and decompositions of Mahalanobis distance
[8] 학술지 Optimal Whitening and Decorrelation https://doi.org/10.1[...] 2018-10-02
[9] 학술지 Minimum covariance determinant https://onlinelibrar[...] 2010
[10] 학술지 Minimum volume ellipsoid https://onlinelibrar[...] 2009
[11] 학술지 Mahalanobis distances for ecological niche modelling and outlier detection: implications of sample size, error, and bias for selecting and parameterising a multivariate location and scatter method 2021-05-11
[12] 서적 Discriminant Analysis and Statistical Pattern Recognition '{{google books |pla[...] John Wiley & Sons 2004-08-04
[13] 학술지 Mahalanobis distances and ecological niche modelling: correcting a chi-squared probability error 2019-04-02
[14] 학술지 Assessment of alternative approaches for bioclimatic modeling with special emphasis on the Mahalanobis distance 2003
[15] 학술지 Skulls, Financial Turbulence, and Risk Management https://www.tandfonl[...] 2019-04-02
[16] 웹사이트 Portfolio Optimizer https://portfolioopt[...] 2022-04-23
[17] 문서 Mahalanobis(1936)
[18] 문서 田口(1999)p.190-200
[19] 저널 인용 On the generalised distance in statistics http://library.isica[...] 2016-09-27
[20] 문서 Analysis of race mixture in Bengal



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com