공분산 행렬

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 정의
- 2.1. 명칭 및 표기
3. 성질
4. 분포의 매개변수로서의 공분산 행렬
5. 선형 연산자로서의 공분산 행렬
6. 공분산 행렬의 조건
7. 복소 확률 벡터
8. 추정
9. 응용
참조

1. 개요

공분산 행렬은 확률 변수들의 공분산을 나타내는 행렬로, 각 항목은 두 확률 변수 간의 공분산을 의미한다. 이 행렬은 랜덤 벡터의 각 요소가 유한한 분산과 기댓값을 가질 때 정의되며, 분산의 고차원적 일반화로 볼 수 있다. 공분산 행렬은 자기상관 행렬, 상관 행렬과 연관되며, 양의 반정부호 행렬이자 대칭 행렬이다. 다변량 정규 분포의 확률 밀도 함수를 표현하는 데 사용되며, 주성분 분석, 금융 경제학, 진화 전략 등 다양한 분야에서 활용된다. 특히, 데이터 행렬을 사용하여 공분산 행렬을 추정할 수 있으며, 2차원 적외선 분광법과 같은 응용 분야에서도 활용된다.

더 읽어볼만한 페이지

통계량 - 제곱평균제곱근
제곱평균제곱근(RMS)은 값들의 크기를 나타내는 통계량으로, 이산 데이터의 경우 각 값의 제곱의 평균의 제곱근, 연속 함수의 경우 함수 제곱의 적분 평균의 제곱근으로 정의되며, 전기공학, 물리학 등 다양한 분야에서 활용되고 표준편차와 밀접한 관련이 있다.
통계량 - 최빈값
최빈값은 데이터 집합에서 가장 자주 나타나는 값으로, 확률 분포의 중심 경향을 나타내는 척도이며 이상치에 둔감하고 명목형 데이터에도 적용 가능하다.
행렬 - 스핀 (물리학)
스핀은 양자역학적 각운동량으로, 양자화된 값을 가지며 자기 쌍극자 모멘트를 유발하여 다양한 분야에 응용되고 스핀트로닉스 기술 발전에 기여하지만, 전자의 스핀 기원은 아직 완전히 밝혀지지 않았다.
행렬 - 파울리 행렬
파울리 행렬은 양자역학에서 스핀을 나타내는 데 사용되는 에르미트 행렬이자 유니타리 행렬로, 행렬식은 -1이고 대각합은 0이며, 리 대수의 생성원이자 파울리 벡터로 정의되어 다양한 물리학 분야에서 활용된다.
수학 - 회귀 분석
회귀 분석은 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링하고 분석하는 통계적 기법으로, 최소 제곱법 개발 이후 골턴의 연구로 '회귀' 용어가 도입되어 다양한 분야에서 예측 및 인과 관계 분석에 활용된다.
수학 - 수학적 최적화
수학적 최적화는 주어진 집합에서 실수 또는 정수 변수를 갖는 함수의 최댓값이나 최솟값을 찾는 문제로, 변수 종류, 제약 조건, 목적 함수 개수에 따라 다양한 분야로 나뉘며 여러 학문 분야에서 활용된다.

공분산 행렬
개요
유형	실수 값
기호	Σ Cov
정의	E[(X - E[X])(Y - E[Y])ᵀ]
특징
차원	n × n (정사각 행렬)
대칭성	대칭 행렬
부호	양의 준정부호 행렬
관련 개념	공분산 상관 관계 정규 분포 주성분 분석
정의
설명	확률변수 벡터의 성분들의 공분산을 모아 놓은 행렬
성질
설명	대각 성분은 각 변수의 분산, 비대각 성분은 변수 쌍의 공분산을 나타냄
활용
설명	데이터 분석, 통계 모델링, 머신러닝 등 다양한 분야에서 활용

2. 정의

랜덤 벡터 $\mathbf{X} = (X_1, X_2, \dots, X_n)^\mathsf{T}$ 가 주어졌을 때, 각 확률 변수 $X_i$ 가 유한한 기댓값과 분산을 가진다고 하자. 이때 $\mathbf{X}$ 의 공분산 행렬(covariance matrix) $\Sigma$ (또는 $\operatorname{K}_{\mathbf{X}\mathbf{X}}$ )는 다음과 같이 정의된다.^[1]

: $\Sigma = \operatorname{K}_{\mathbf{X}\mathbf{X}} = \operatorname{E} \left[ (\mathbf{X} - \operatorname{E}[\mathbf{X}]) (\mathbf{X} - \operatorname{E}[\mathbf{X}])^\mathsf{T} \right]$

여기서 $\operatorname{E}[\mathbf{X}]$ 는 벡터 $\mathbf{X}$ 의 기댓값 벡터, 즉 각 성분의 기댓값 $\mu_i = \operatorname{E}[X_i]$ 을 모은 벡터 $(\mu_1, \mu_2, \dots, \mu_n)^\mathsf{T}$ 이다. 이 정의는 스칼라 값을 가지는 확률 변수 $X$ 의 분산 정의인 $\sigma^2 = \operatorname{var}(X) = \operatorname{E}[(X-\mu)^2]$ (단, $\mu = \operatorname{E}[X]$ )를 고차원으로 확장한 것으로 볼 수 있다.

공분산 행렬의 각 성분은 두 확률 변수 간의 공분산을 나타내며, 특히 대각 성분은 각 확률 변수의 분산이다.

2. 1. 명칭 및 표기

이 문서 전체에서 굵은 글꼴의 첨자 없는

\mathbf{X}

와

\mathbf{Y}

는 랜덤 벡터를 나타내고, 로마자 첨자

X_i

와

Y_i

는 스칼라 확률 변수를 나타낸다.

열 벡터

\mathbf{X} = (X_1, X_2, \dots, X_n)^\mathsf{T}

의 각 항목이 유한한 분산과 기댓값을 갖는 확률 변수일 때, 공분산 행렬

\operatorname{K}_{\mathbf{X}\mathbf{X}}

는

(i,j)

번째 항목이 공분산^[1]인 행렬이다.

\operatorname{K}_{X_i X_j} = \operatorname{cov}[X_i, X_j] = \operatorname{E}[(X_i - \operatorname{E}[X_i])(X_j - \operatorname{E}[X_j])]

여기서 연산자

\operatorname{E}

는 해당 인수의 기댓값(평균)을 나타낸다.

명칭은 다양하다. 일부 통계학자들은 확률론자인 윌리엄 펠러(William Feller)의 책 ''확률 이론과 그 응용 입문''(An Introduction to Probability Theory and Its Applications^eng)을 따라,^[2] 행렬

\operatorname{K}_{\mathbf{X}\mathbf{X}}

를 확률 변수 벡터

\mathbf{X}

의 '''분산'''이라고 부른다. 이는 1차원 분산의 고차원적 일반화이기 때문이다. 다른 학자들은 이를 '''공분산 행렬'''이라고 부르는데, 벡터

\mathbf{X}

의 스칼라 성분 간의 공분산 행렬이기 때문이다.

\operatorname{var}(\mathbf{X})=\operatorname{cov}(\mathbf{X},\mathbf{X})=\operatorname{E}\left[(\mathbf{X} - \operatorname{E} [\mathbf{X}])(\mathbf{X} - \operatorname{E} [\mathbf{X}])^\mathsf{T}\right].

두 가지 형태 모두 매우 일반적이며, 이들 사이에는 모호함이 없다. 행렬

\operatorname{K}_{\mathbf{X}\mathbf{X}}

는 대각선 항이 실제로 분산이므로 '''분산-공분산 행렬'''이라고도 불린다. 즉, 공분산 행렬

\Sigma

는 다음과 같이 나타낼 수 있다.

:

\Sigma= \begin{bmatrix}\mathrm{E}[(X_1 - \mu_1)(X_1 - \mu_1)] & \mathrm{E}[(X_1 - \mu_1)(X_2 - \mu_2)] & \cdots & \mathrm{E}[(X_1 - \mu_1)(X_n - \mu_n)] \\ \\\mathrm{E}[(X_2 - \mu_2)(X_1 - \mu_1)] & \mathrm{E}[(X_2 - \mu_2)(X_2 - \mu_2)] & \cdots & \mathrm{E}[(X_2 - \mu_2)(X_n - \mu_n)] \\ \\\vdots & \vdots & \ddots & \vdots \\ \\\mathrm{E}[(X_n - \mu_n)(X_1 - \mu_1)] & \mathrm{E}[(X_n - \mu_n)(X_2 - \mu_2)] & \cdots & \mathrm{E}[(X_n - \mu_n)(X_n - \mu_n)]\end{bmatrix}

여기서

\mu_i = \mathrm{E}(X_i)

는 벡터

\mathbf{X}

의

i

번째 요소의 기댓값이다.

한편, 두 벡터

\mathbf{X}

와

\mathbf{Y}

''사이''의 교차 공분산 행렬은 다음과 같이 표기한다.

\operatorname{cov}(\mathbf{X},\mathbf{Y})=\operatorname{K}_{\mathbf{X}\mathbf{Y}}=\operatorname{E}\left[(\mathbf{X} - \operatorname{E}[\mathbf{X}])(\mathbf{Y} - \operatorname{E}[\mathbf{Y}])^\mathsf{T}\right].

공분산 행렬의 역행렬

\Sigma^{-1}

는 '''역공분산 행렬'''(inverse covariance matrix^eng) 또는 '''정밀도 행렬'''(precision matrix^eng)이라고 불린다.^[14]

3. 성질

열 벡터 $\mathbf{X} = (X_1, X_2, \dots, X_n)^\mathsf{T}$ 의 각 확률 변수 $X_i$ 가 유한한 분산과 기댓값을 가질 때, 공분산 행렬 $\operatorname{K}_{\mathbf{X}\mathbf{X}}$ 는 $(i,j)$ 성분이 공분산 $\operatorname{cov}[X_i, X_j]$ 인 행렬이다.^[1]

'''자기상관 행렬과의 관계'''

공분산 행렬 $\operatorname{K}_{\mathbf{X}\mathbf{X}}$ 는 자기상관 행렬 $\operatorname{R}_{\mathbf{X}\mathbf{X}} = \operatorname{E}[\mathbf{X} \mathbf{X}^\mathsf{T}]$ 와 다음과 같은 관계를 가진다.

$\operatorname{K}_{\mathbf{X}\mathbf{X}} = \operatorname{E}[(\mathbf{X} - \operatorname{E}[\mathbf{X}])(\mathbf{X} - \operatorname{E}[\mathbf{X}])^\mathsf{T}] = \operatorname{R}_{\mathbf{X}\mathbf{X}} - \operatorname{E}[\mathbf{X}] \operatorname{E}[\mathbf{X}]^\mathsf{T}$

'''상관 행렬과의 관계'''

공분산 행렬과 밀접하게 관련된 것은 무작위 벡터 $\mathbf{X}$ 의 각 성분 간의 피어슨 상관 계수를 모아놓은 상관 행렬이다. 상관 행렬 $\operatorname{corr}(\mathbf{X})$ 는 공분산 행렬 $\operatorname{K}_{\mathbf{X}\mathbf{X}}$ 를 각 변수의 표준 편차로 정규화하여 얻을 수 있다.

$\operatorname{corr}(\mathbf{X}) = \big(\operatorname{diag}(\operatorname{K}_{\mathbf{X}\mathbf{X}})\big)^{-\frac{1}{2}} \, \operatorname{K}_{\mathbf{X}\mathbf{X}} \, \big(\operatorname{diag}(\operatorname{K}_{\mathbf{X}\mathbf{X}})\big)^{-\frac{1}{2}}$

여기서 $\operatorname{diag}(\operatorname{K}_{\mathbf{X}\mathbf{X}})$ 는 $\operatorname{K}_{\mathbf{X}\mathbf{X}}$ 의 대각 성분만을 모은 대각 행렬이다 (즉, 각 $X_i$ 의 분산 $\sigma^2(X_i)$ 을 대각 성분으로 가지는 행렬).

이는 각 확률 변수를 표준화한 $X_i/\sigma(X_i)$ 들의 공분산 행렬과 같다.

$\operatorname{corr}(\mathbf{X})= \begin{bmatrix}1 & \frac{\operatorname{E}[(X_1 - \mu_1)(X_2 - \mu_2)]}{\sigma(X_1)\sigma(X_2)} & \cdots & \frac{\operatorname{E}[(X_1 - \mu_1)(X_n - \mu_n)]}{\sigma(X_1)\sigma(X_n)} \\ \\\frac{\operatorname{E}[(X_2 - \mu_2)(X_1 - \mu_1)]}{\sigma(X_2)\sigma(X_1)} & 1 & \cdots & \frac{\operatorname{E}[(X_2 - \mu_2)(X_n - \mu_n)]}{\sigma(X_2)\sigma(X_n)} \\ \\\vdots & \vdots & \ddots & \vdots \\ \\\frac{\operatorname{E}[(X_n - \mu_n)(X_1 - \mu_1)]}{\sigma(X_n)\sigma(X_1)} & \frac{\operatorname{E}[(X_n - \mu_n)(X_2 - \mu_2)]}{\sigma(X_n)\sigma(X_2)} & \cdots & 1\end{bmatrix}.$

상관 행렬의 대각 성분은 항상 1이며, 비대각 성분은 -1과 +1 사이의 값을 가진다.

'''역행렬'''

공분산 행렬 $\operatorname{K}_{\mathbf{X}\mathbf{X}}$ 의 역행렬 $\operatorname{K}_{\mathbf{X}\mathbf{X}}^{-1}$ 은 '''역공분산 행렬''' 또는 '''정밀도 행렬'''이라고 불린다.^[3]^[14] 정밀도 행렬은 부분 상관 관계와 부분 분산을 사용하여 표현될 수도 있다.

'''기본 성질'''

$\operatorname{K}_{\mathbf{X}\mathbf{X}}=\operatorname{E} \left[ \left( \mathbf{X} - \operatorname{E}[\mathbf{X}] \right) \left( \mathbf{X} - \operatorname{E}[\mathbf{X}] \right)^\mathsf{T} \right]$ 이고 $\boldsymbol{\mu}_\mathbf{X} = \operatorname{E}[\textbf{X}]$ 일 때, 다음과 같은 기본 성질이 성립한다.^[4]

# $\operatorname{K}_{\mathbf{X}\mathbf{X}} = \operatorname{E}(\mathbf{X X^\mathsf{T}}) - \boldsymbol{\mu}_\mathbf{X}\boldsymbol{\mu}_\mathbf{X}^\mathsf{T}$

# $\operatorname{K}_{\mathbf{X}\mathbf{X}} \,$ 는 양의 준정부호 행렬이다. 즉, 모든 벡터 $\mathbf{a} \in \mathbb{R}^n$ 에 대해 $\mathbf{a}^\mathsf{T} \operatorname{K}_{\mathbf{X}\mathbf{X}} \mathbf{a} \ge 0$ 이다.

# $\operatorname{K}_{\mathbf{X}\mathbf{X}} \,$ 는 대칭 행렬이다. 즉, $\operatorname{K}_{\mathbf{X}\mathbf{X}}^\mathsf{T} = \operatorname{K}_{\mathbf{X}\mathbf{X}}$ 이다.

# 임의의 상수 $m \times n$ 행렬 $\mathbf{A}$ 와 상수 $m \times 1$ 벡터 $\mathbf{a}$ 에 대해, $\operatorname{K}_{\mathbf{A X} + \mathbf{a}} = \mathbf{A}\, \operatorname{K}_{\mathbf{X}\mathbf{X}}\, \mathbf{A}^\mathsf{T}$ 이다.

# 확률 벡터 $\mathbf{X}$ , $\mathbf{Y}$ 에 대해, $\operatorname{cov}(\mathbf{X},\mathbf{Y}) = \operatorname{cov}(\mathbf{Y},\mathbf{X})^\mathsf{T}$ 이다.

# 확률 벡터 $\mathbf{X}_1$ , $\mathbf{X}_2$ , $\mathbf{Y}$ 에 대해, $\operatorname{cov}(\mathbf{X}_1 + \mathbf{X}_2,\mathbf{Y}) = \operatorname{cov}(\mathbf{X}_1,\mathbf{Y}) + \operatorname{cov}(\mathbf{X}_2, \mathbf{Y})$ 이다.

# 만약 $\mathbf{X}$ , $\mathbf{Y}$ 가 같은 차원의 확률 벡터이면, $\operatorname{K}_{\mathbf{X} + \mathbf{Y}} = \operatorname{K}_{\mathbf{X}\mathbf{X}} + \operatorname{cov}(\mathbf{X},\mathbf{Y}) + \operatorname{cov}(\mathbf{Y}, \mathbf{X}) + \operatorname{K}_{\mathbf{Y}\mathbf{Y}}$ 이다. 여기서 $\operatorname{cov}(\mathbf{X}, \mathbf{Y})$ 는 $\mathbf{X}$ 와 $\mathbf{Y}$ 의 교차 공분산 행렬이다.

# 임의의 행렬 $\mathbf{A}$ , $\mathbf{B}$ 에 대해, $\operatorname{cov}(\mathbf{AX}, \mathbf{B}^\mathsf{T}\mathbf{Y}) = \mathbf{A}\, \operatorname{cov}(\mathbf{X}, \mathbf{Y}) \,\mathbf{B}$ 이다.

# 만약 $\mathbf{X}$ 와 $\mathbf{Y}$ 가 독립이라면, 교차 공분산 행렬 $\operatorname{cov}(\mathbf{X}, \mathbf{Y}) = 0$ 이다.

'''블록 행렬'''

두 확률 벡터 $\mathbf{X}$ 와 $\mathbf{Y}$ 의 결합 평균 $\boldsymbol\mu$ 와 결합 공분산 행렬 $\boldsymbol\Sigma$ 는 다음과 같이 블록 형태로 나타낼 수 있다.

$\boldsymbol\mu=\begin{bmatrix}\boldsymbol{\mu}_\mathbf{X} \\\boldsymbol{\mu}_\mathbf{Y}\end{bmatrix}, \qquad\boldsymbol\Sigma=\begin{bmatrix}\operatorname{K}_\mathbf{XX} & \operatorname{K}_\mathbf{XY} \\\operatorname{K}_\mathbf{YX} & \operatorname{K}_\mathbf{YY}\end{bmatrix}$

여기서 $\operatorname{K}_\mathbf{XX} = \operatorname{var}(\mathbf{X})$ , $\operatorname{K}_\mathbf{YY} = \operatorname{var}(\mathbf{Y})$ , $\operatorname{K}_\mathbf{XY} = \operatorname{cov}(\mathbf{X}, \mathbf{Y})$ , $\operatorname{K}_\mathbf{YX} = \operatorname{cov}(\mathbf{Y}, \mathbf{X}) = \operatorname{K}_\mathbf{XY}^\mathsf{T}$ 이다.

$\operatorname{K}_\mathbf{XX}$ 와 $\operatorname{K}_\mathbf{YY}$ 는 각각 $\mathbf{X}$ 와 $\mathbf{Y}$ 의 주변 분포에 대한 공분산 행렬이다.

만약 $\mathbf{X}$ 와 $\mathbf{Y}$ 가 다변량 정규 분포 $\mathcal{N}(\boldsymbol\mu, \boldsymbol\Sigma)$ 를 따른다면, $\mathbf{X}$ 가 주어졌을 때 $\mathbf{Y}$ 의 조건부 분포는 다음과 같다.^[5]

$\mathbf{Y} \mid \mathbf{X} \sim\ \mathcal{N}(\boldsymbol{\mu}_\mathbf{Y|X}, \operatorname{K}_\mathbf{Y|X}),$

이는 조건부 평균

$\boldsymbol{\mu}_{\mathbf{Y}|\mathbf{X}}=\boldsymbol{\mu}_\mathbf{Y} + \operatorname{K}_\mathbf{YX} \operatorname{K}_\mathbf{XX}^{-1}\left(\mathbf{X} - \boldsymbol{\mu}_\mathbf{X}\right)$

과 조건부 분산

$\operatorname{K}_\mathbf{Y|X}= \operatorname{K}_\mathbf{YY} - \operatorname{K}_\mathbf{YX} \operatorname{K}_\mathbf{XX}^{-1} \operatorname{K}_\mathbf{XY}.$

에 의해 정의된다. 행렬 $\operatorname{K}_\mathbf{YX} \operatorname{K}_\mathbf{XX}^{-1}$ 는 회귀 분석 계수의 행렬로 알려져 있으며, $\operatorname{K}_\mathbf{Y|X}$ 는 $\boldsymbol\Sigma$ 에서 $\operatorname{K}_\mathbf{XX}$ 의 슈어 보수이다.

'''부분 공분산 행렬'''

모든 원소가 0이 아닌 공분산 행렬은 모든 개별 확률 변수가 서로 관련되어 있음을 나타낸다. 이는 변수가 직접적으로 상관 관계가 있을 뿐만 아니라 다른 변수를 통해 간접적으로도 상관 관계가 있음을 의미한다. 이러한 간접적인 상관 관계를 제거하고 직접적인 상관 관계만 보고자 할 때 부분 공분산 행렬을 사용한다.

두 확률 변수 벡터 $\mathbf{X}$ 와 $\mathbf{Y}$ 가 다른 벡터 $\mathbf{I}$ 를 통해 상관 관계가 있을 경우, $\mathbf{I}$ 의 영향을 제거한 부분 공분산 행렬 $\operatorname{K}_\mathbf{XY \mid I}$ 는 다음과 같이 계산된다.^[6]

$\operatorname{K}_\mathbf{XY \mid I}= \operatorname{pcov}(\mathbf{X},\mathbf{Y} \mid \mathbf{I})= \operatorname{cov}(\mathbf{X},\mathbf{Y})$

\operatorname{cov}(\mathbf{X},\mathbf{I})

\operatorname{cov}(\mathbf{I},\mathbf{I})^{-1}\operatorname{cov}(\mathbf{I},\mathbf{Y}).

부분 공분산 행렬

\operatorname{K}_\mathbf{XY \mid I}

는 확률 변수

\mathbf{I}

의 영향을 통제했을 때

\mathbf{X}

와

\mathbf{Y}

사이의 공분산을 나타낸다.

4. 분포의 매개변수로서의 공분산 행렬

만약 $n$ 개의 서로 연관될 수 있는 확률 변수로 이루어진 열 벡터 $\mathbf{X}$ 가 다변량 정규 분포를 따르거나, 더 일반적으로 타원 분포를 따른다면, 그 확률 밀도 함수 $\operatorname{f}(\mathbf{X})$ 는 다음과 같이 공분산 행렬 $\boldsymbol{\Sigma}$ 의 관점에서 표현될 수 있다.^[6]

$\operatorname{f}(\mathbf{X})= (2 \pi)^{-n/2} |\boldsymbol{\Sigma}|^{-1/2}\exp \left ( - \tfrac{1}{2} \mathbf{(X - \mu)^\mathsf{T} \Sigma^{-1} (X - \mu)} \right ),$

여기서 $\boldsymbol{\mu} = \operatorname{E}[\mathbf{X}]$ 이며, $|\boldsymbol{\Sigma}|$ 는 $\boldsymbol{\Sigma}$ 의 행렬식이다.

$n$ 개의 상관 관계가 있는 확률 변수의 확률 밀도 함수, 특히 ''n''차의 정규 분포 (가우스 분포)를 따르는 확률 변수 벡터의 결합 확률에 대해서는 최대 우도 추정을 참조할 수 있다.

5. 선형 연산자로서의 공분산 행렬

공분산 행렬은 하나의 벡터에 적용될 때, 확률 변수 '''X'''의 선형 결합 '''c'''를 해당 변수들과의 공분산 벡터로 대응시키는 선형 연산자로 볼 수 있다:

$\mathbf c^\mathsf{T} \boldsymbol\Sigma = \operatorname{cov}(\mathbf c^\mathsf{T} \mathbf X, \mathbf X)$

또한, 공분산 행렬은 두 선형 결합 사이의 공분산을 계산하는 쌍선형 형식으로도 해석될 수 있다. 두 벡터 '''c'''와 '''d'''가 주어졌을 때, 두 선형 결합 $\mathbf d^\mathsf{T} \mathbf X$ 와 $\mathbf c^\mathsf{T} \mathbf X$ 사이의 공분산은 다음과 같이 계산된다:

$\mathbf d^\mathsf{T} \boldsymbol\Sigma \mathbf c = \operatorname{cov}(\mathbf d^\mathsf{T} \mathbf X, \mathbf c^\mathsf{T} \mathbf X)$

특히, $\mathbf d = \mathbf c$ 인 경우, 이는 선형 결합 $\mathbf c^\mathsf{T} \mathbf X$ 의 분산이 된다. 즉, 선형 결합의 분산은 자기 자신과의 공분산으로 계산할 수 있다:

$\mathbf c^\mathsf{T} \boldsymbol\Sigma \mathbf c = \operatorname{var}(\mathbf c^\mathsf{T} \mathbf X) = \operatorname{cov}(\mathbf c^\mathsf{T} \mathbf X, \mathbf c^\mathsf{T} \mathbf X)$

마찬가지로, (유사-)역 공분산 행렬 $\boldsymbol\Sigma^+$ 는 내적 $\langle c - \mu| \boldsymbol\Sigma^+ |c - \mu\rangle$ 을 정의하는 데 사용될 수 있으며, 이는 벡터 ''c''가 평균 $\mu$ 로부터 얼마나 떨어져 있는지를 나타내는 마할라노비스 거리를 유도한다. 이 거리는 ''c''가 나타날 가능성이 얼마나 낮은지를 측정하는 척도로 사용될 수 있다.

6. 공분산 행렬의 조건

$\operatorname{K}_{\mathbf{X}\mathbf{X}}=\operatorname{var}(\mathbf{X}) = \operatorname{E} \left[ \left( \mathbf{X} - \operatorname{E}[\mathbf{X}] \right) \left( \mathbf{X} - \operatorname{E}[\mathbf{X}] \right)^\mathsf{T} \right]$ 와 $\boldsymbol{\mu}_\mathbf{X} = \operatorname{E}[\textbf{X}]$ 라고 정의할 때, 여기서 $\mathbf{X} = (X_1,\ldots,X_n)^\mathsf{T}$ 는 $n$ 개의 성분을 가지는 확률 변수 벡터이다. 이 공분산 행렬은 다음과 같은 기본 속성을 만족한다.^[4]

# $\operatorname{K}_{\mathbf{X}\mathbf{X}} = \operatorname{E}(\mathbf{X X^\mathsf{T}}) - \boldsymbol{\mu}_\mathbf{X}\boldsymbol{\mu}_\mathbf{X}^\mathsf{T}$

# $\operatorname{K}_{\mathbf{X}\mathbf{X}} \,$ 는 양의 반정부호이다. 즉, 모든 $\mathbf{a} \in \mathbb{R}^n$ 에 대해 $\mathbf{a}^\mathsf{T} \operatorname{K}_{\mathbf{X}\mathbf{X}} \mathbf{a} \ge 0$ 이다.

# $\operatorname{K}_{\mathbf{X}\mathbf{X}} \,$ 는 대칭 행렬이다. 즉, $\operatorname{K}_{\mathbf{X}\mathbf{X}}^\mathsf{T} = \operatorname{K}_{\mathbf{X}\mathbf{X}}$ 이다.

# 임의의 상수 $m \times n$ 행렬 $\mathbf{A}$ 와 상수 $m \times 1$ 벡터 $\mathbf{a}$ 에 대해, $\operatorname{var}(\mathbf{A X} + \mathbf{a}) = \mathbf{A}\, \operatorname{var}(\mathbf{X})\, \mathbf{A}^\mathsf{T}$ 이다.

# 만약 $\mathbf{Y}$ 가 $\mathbf{X}$ 와 같은 차원의 다른 확률 벡터라면, $\operatorname{var}(\mathbf{X} + \mathbf{Y}) = \operatorname{var}(\mathbf{X}) + \operatorname{cov}(\mathbf{X},\mathbf{Y}) + \operatorname{cov}(\mathbf{Y}, \mathbf{X}) + \operatorname{var}(\mathbf{Y})$ 이다. 여기서 $\operatorname{cov}(\mathbf{X}, \mathbf{Y})$ 는 $\mathbf{X}$ 와 $\mathbf{Y}$ 의 교차 공분산 행렬이다.

특히 속성 4에서 $\mathbf{b}$ 를 $(p \times 1)$ 크기의 실수 벡터라고 하면, 확률 변수 $\mathbf{b}^\mathsf{T}\mathbf{X}$ 의 분산은 다음과 같이 계산된다.

$\operatorname{var}(\mathbf{b}^\mathsf{T}\mathbf{X}) = \mathbf{b}^\mathsf{T} \operatorname{var}(\mathbf{X}) \mathbf{b} = \mathbf{b}^\mathsf{T} \operatorname{K}_{\mathbf{X}\mathbf{X}} \mathbf{b}$

실수 값을 가지는 확률 변수의 분산은 항상 0보다 크거나 같아야 하므로, $\mathbf{b}^\mathsf{T} \operatorname{K}_{\mathbf{X}\mathbf{X}} \mathbf{b} \ge 0$ 이 성립한다. 이는 정의에 따라 공분산 행렬 $\operatorname{K}_{\mathbf{X}\mathbf{X}}$ 가 항상 양의 반정부호 행렬임을 의미한다.

더 자세히 살펴보면, 임의의 벡터 $w$ 에 대해 다음이 성립한다.

$\begin{align}& w^\mathsf{T} \operatorname{E} \left[(\mathbf{X} - \operatorname{E}[\mathbf{X}]) (\mathbf{X} - \operatorname{E}[\mathbf{X}])^\mathsf{T}\right] w= \operatorname{E} \left[w^\mathsf{T}(\mathbf{X} - \operatorname{E}[\mathbf{X}]) (\mathbf{X} - \operatorname{E}[\mathbf{X}])^\mathsf{T}w\right] \\&= \operatorname{E} \big[\big( w^\mathsf{T}(\mathbf{X} - \operatorname{E}[\mathbf{X}]) \big)^2 \big] \geq 0\end{align}$

여기서 마지막 부등식은 $w^\mathsf{T}(\mathbf{X} - \operatorname{E}[\mathbf{X}])$ 가 스칼라 값이고, 스칼라 값의 제곱의 기댓값은 항상 0 이상이기 때문에 성립한다.

반대로, 모든 대칭 행렬이고 양의 반정부호 행렬인 행렬은 어떤 확률 벡터의 공분산 행렬이 될 수 있다. 이를 보이기 위해, $M$ 이 $p \times p$ 크기의 대칭이고 양의 반정부호인 행렬이라고 가정하자. 유한 차원 스펙트럼 정리에 따르면, $M$ 은 음이 아닌 고윳값을 가지는 대칭 제곱근 행렬 $\mathbf{M}^{1/2}$ 을 가진다. 이제 $\mathbf{X}$ 를 공분산 행렬이 $p \times p$ 단위 행렬 $\mathbf{I}$ 인 임의의 $p \times 1$ 확률 벡터라고 하자 (예: 각 성분이 서로 독립이고 평균 0, 분산 1인 표준 정규 분포를 따르는 벡터). 그러면 $\mathbf{M}^{1/2} \mathbf{X}$ 라는 새로운 확률 벡터의 공분산 행렬은 다음과 같이 계산된다.

$\operatorname{var}(\mathbf{M}^{1/2} \mathbf{X}) = \mathbf{M}^{1/2} \, \operatorname{var}(\mathbf{X}) \, (\mathbf{M}^{1/2})^\mathsf{T} = \mathbf{M}^{1/2} \, \mathbf{I} \, \mathbf{M}^{1/2} = \mathbf{M}$

(여기서 $\mathbf{M}^{1/2}$ 는 대칭 행렬이므로 $(\mathbf{M}^{1/2})^\mathsf{T} = \mathbf{M}^{1/2}$ 이다.)

따라서, 임의의 대칭이고 양의 반정부호인 행렬 $M$ 은 적절한 확률 벡터( $\mathbf{M}^{1/2} \mathbf{X}$ )의 공분산 행렬이 될 수 있다.

결론적으로, 어떤 행렬이 공분산 행렬이 되기 위한 필요충분조건은 그 행렬이 대칭 행렬이고 양의 반정부호 행렬이라는 것이다.

7. 복소 확률 벡터

기댓값이 $\mu_Z$ 인 복소수 스칼라 값 확률 변수 $Z$ 의 분산은 일반적으로 복소 공액을 사용하여 다음과 같이 정의된다.

$\operatorname{var}(Z)= \operatorname{E}\left[ (Z - \mu_Z)\overline{(Z - \mu_Z)} \right]$

여기서 복소수 $z$ 의 복소 공액은 $\overline{z}$ 로 표시된다. 이 정의에 따라 복소 확률 변수의 분산은 실수가 된다.

$\mathbf{Z} = (Z_1,\ldots,Z_n) ^\mathsf{T}$ 가 복소수 값 확률 변수들의 열 벡터일 경우, 켤레 전치 $\mathbf{Z}^\mathsf{H}$ 는 벡터를 전치하고 각 성분에 복소 공액을 취하여 얻는다. 벡터 $\mathbf{Z} - \boldsymbol{\mu}_\mathbf{Z}$ 와 그 켤레 전치의 곱의 기댓값을 취하면 공분산 행렬이라는 정사각 행렬을 얻는다.^[7]

$\operatorname{K}_{\mathbf{Z}\mathbf{Z}} = \operatorname{cov}[\mathbf{Z},\mathbf{Z}] =\operatorname{E}\left[(\mathbf{Z} - \boldsymbol{\mu}_\mathbf{Z})(\mathbf{Z} - \boldsymbol{\mu}_\mathbf{Z})^\mathsf{H}\right]$

이렇게 정의된 공분산 행렬 $\operatorname{K}_{\mathbf{Z}\mathbf{Z}}$ 는 다음과 같은 속성을 가진다.

에르미트 행렬이다. 즉, $\operatorname{K}_{\mathbf{Z}\mathbf{Z}}^\mathsf{H} = \operatorname{K}_{\mathbf{Z}\mathbf{Z}}$ 이다.^[1]
반정부호 행렬이다.^[8]
주대각선 요소들은 실수이다.^[1] 비대각선 요소들은 복소수일 수 있다.

복소 확률 벡터에 대해서는 공분산 행렬 외에 의사 공분산 행렬(관계 행렬이라고도 함)이라는 다른 종류의 2차 중심 모멘트도 정의된다. 이는 켤레 전치 대신 일반적인 전치를 사용하여 정의된다.

\operatorname{J}_{\mathbf{Z}\mathbf{Z}} = \operatorname{cov}[\mathbf{Z},\overline{\mathbf{Z}}] =\operatorname{E}\left[(\mathbf{Z} - \boldsymbol{\mu}_\mathbf{Z})(\mathbf{Z} - \boldsymbol{\mu}_\mathbf{Z})^\mathsf{T}\right]

의사 공분산 행렬

\operatorname{J}_{\mathbf{Z}\mathbf{Z}}

는 복소 대칭 행렬이며, 대각선 요소들도 복소수 값을 가질 수 있다.

8. 추정

$\mathbf{M}_{\mathbf{X}}$ 와 $\mathbf{M}_{\mathbf{Y}}$ 가 각각 $p \times n$ 과 $q \times n$ 차원을 갖는 데이터 행렬이라고 가정해 보자. 이는 변수 'p'개와 'q'개에 대해 각각 'n'개의 관측치를 열로 가지며, 각 변수의 행 평균이 이미 빼진 상태를 의미한다.

만약 행 평균을 데이터로부터 추정하여 사용했다면, 표본 공분산 행렬 $\mathbf{Q}_{\mathbf{XX}}$ 와 표본 상호 공분산 행렬 $\mathbf{Q}_{\mathbf{XY}}$ 는 다음과 같이 정의될 수 있다. 이때 분모는 자유도를 고려하여 $n-1$ 을 사용한다.

$\mathbf{Q}_{\mathbf{XX}} = \frac{1}{n-1} \mathbf{M}_{\mathbf{X}} \mathbf{M}_{\mathbf{X}}^\mathsf{T}, \qquad \mathbf{Q}_{\mathbf{XY}} = \frac{1}{n-1} \mathbf{M}_{\mathbf{X}} \mathbf{M}_{\mathbf{Y}}^\mathsf{T}$

반면, 행 평균을 미리 알고 있는 경우에는 다음과 같이 정의된다. 이 경우 분모는 관측치 개수 $n$ 을 사용한다.

$\mathbf{Q}_{\mathbf{XX}} = \frac{1}{n} \mathbf{M}_{\mathbf{X}} \mathbf{M}_{\mathbf{X}}^\mathsf{T}, \qquad \mathbf{Q}_{\mathbf{XY}} = \frac{1}{n} \mathbf{M}_{\mathbf{X}} \mathbf{M}_{\mathbf{Y}}^\mathsf{T}.$

이렇게 계산된 경험적 표본 공분산 행렬은 실제 공분산 행렬에 대한 가장 간단하고 가장 자주 사용되는 추정치이다. 하지만 이 외에도 정규화(regularized) 또는 축소(shrinkage) 추정치와 같이 특정 상황에서 더 나은 통계적 속성을 가질 수 있는 다른 추정 방법들도 존재한다.

특히, 데이터가 다변량 정규 분포를 따른다고 가정할 경우, 공분산 행렬의 최우 추정량을 유도할 수 있다.

9. 응용

공분산 행렬은 여러 분야에서 유용한 도구이다. 공분산 행렬로부터 변환 행렬을 도출할 수 있는데, 이를 백색화 변환이라고 하며, 이는 데이터를 완전히 비상관화하거나^[9], 다른 관점에서는 데이터를 압축된 방식으로 표현하기 위한 최적의 기저를 찾는 데 사용할 수 있다 (공분산 행렬의 공식적인 증명과 추가적인 속성은 레일리 지수 참조).

이것은 주성분 분석(PCA) 및 카루넨-레브 변환(KL-변환)이라고 한다.

공분산 행렬은 금융 경제학에서, 특히 현대 포트폴리오 이론과 그 뮤추얼 펀드 분리 정리, 그리고 자본 자산 가격 결정 모형에서 중요한 역할을 한다. 다양한 자산 수익률 간의 공분산 행렬은 특정 가정을 전제로, 투자자가 다변화의 맥락에서 ( 규범적 분석에서) 보유해야 하거나, ( 실증적 분석에서) 보유할 것으로 예측되는, 서로 다른 자산의 상대적 양을 결정하는 데 사용된다.

진화 전략은 특정 계열의 무작위 탐색 휴리스틱으로, 그 메커니즘에서 본질적으로 공분산 행렬에 의존한다. 특징적인 돌연변이 연산자는 진화하는 공분산 행렬을 사용하여 다변수 정규 분포로부터 업데이트 단계를 도출한다. 진화 전략의 공분산 행렬이 스칼라 계수와 작은 무작위 변동을 최대로 하여 탐색 지형의 헤시안 행렬의 역수에 적응한다는 공식적인 증명이 있다(개체군 크기가 증가함에 따라 단일 부모 전략과 정적 모델에 대해 이차 근사를 사용하여 증명).^[10] 직관적으로 이 결과는 최적의 공분산 분포가 지형의 등고선과 일치하는 등밀도 확률 윤곽선을 갖는 돌연변이 단계를 제공할 수 있으며, 따라서 진행 속도를 최대화한다는 근거에 의해 뒷받침된다.

'''공분산 매핑'''에서는 $\operatorname{cov}(\mathbf{X}, \mathbf{Y})$ 또는 $\operatorname{pcov}(\mathbf{X}, \mathbf{Y} \mid \mathbf{I})$ 행렬의 값을 2차원 맵으로 플롯한다. 벡터 $\mathbf{X}$ 와 $\mathbf{Y}$ 가 이산 확률 함수인 경우 맵은 확률 함수의 서로 다른 영역 간의 통계적 관계를 보여준다. 함수의 통계적으로 독립적인 영역은 맵에 제로 레벨 평지로 나타나고, 양 또는 음의 상관관계는 각각 언덕 또는 계곡으로 나타난다.

실제로 열 벡터 $\mathbf{X}, \mathbf{Y}$ 및 $\mathbf{I}$ 는 $n$ 개의 표본의 행으로 실험적으로 얻는다. 예를 들어,

$\left[\mathbf{X}_1, \mathbf{X}_2, \dots, \mathbf{X}_n\right] =\begin{bmatrix}X_1(t_1) & X_2(t_1) & \cdots & X_n(t_1) \\ \\X_1(t_2) & X_2(t_2) & \cdots & X_n(t_2) \\ \\\vdots & \vdots & \ddots & \vdots \\ \\X_1(t_m) & X_2(t_m) & \cdots & X_n(t_m)\end{bmatrix} ,$

여기서 $X_j(t_i)$ 는 확률 함수 $X(t)$ 의 표본 ''j''에서 ''i''번째 이산 값이다. 공분산 공식에 필요한 기대값은 표본 평균을 사용하여 추정한다. 예를 들어,

$\langle \mathbf{X} \rangle = \frac{1}{n} \sum_{j=1}^{n} \mathbf{X}_j$

그리고 공분산 행렬은 표본 공분산 행렬로 추정된다.

$\operatorname{cov}(\mathbf{X},\mathbf{Y})\approx \langle \mathbf{XY^\mathsf{T}} \rangle$

\langle \mathbf{X} \rangle \langle \mathbf{Y}^\mathsf{T} \rangle ,

여기서 각괄호는 이전에 했던 것처럼 표본 평균을 나타내지만 베셀 보정을 수행하여 편향을 방지해야 한다. 이 추정을 사용하면 부분 공분산 행렬을 다음과 같이 계산할 수 있다.

\operatorname{pcov}(\mathbf{X},\mathbf{Y} \mid \mathbf{I})= \operatorname{cov}(\mathbf{X},\mathbf{Y})

\operatorname{cov}(\mathbf{X},\mathbf{I})

\left ( \operatorname{cov}(\mathbf{I},\mathbf{I})\backslash \operatorname{cov}(\mathbf{I},\mathbf{Y}) \right ),

여기서 백슬래시는 행렬을 반전할 필요를 우회하고 왼쪽 행렬 나눗셈 연산자를 나타내며, 매트랩(Matlab)과 같은 일부 계산 패키지에서 사용할 수 있다.^[11]

그림 1은 함부르크의 FLASH 자유 전자 레이저에서 수행된 실험의 예에서 부분 공분산 맵이 어떻게 구성되는지 보여준다.^[12] 확률 함수

X(t)

는 레이저 펄스에 의해 다중 이온화된 질소 분자의 비행 시간 스펙트럼이다. 각 레이저 펄스에서 수백 개의 분자만 이온화되므로 단일 샷 스펙트럼은 매우 변동적이다. 그러나 일반적으로

m=10^4

개의 이러한 스펙트럼

\mathbf{X}_j(t)

를 수집하고

j

에 대해 평균을 내면 그림 1의 하단에 빨간색으로 표시된 매끄러운 스펙트럼

\langle \mathbf{X}(t) \rangle

이 생성된다. 평균 스펙트럼

\langle \mathbf{X} \rangle

는 운동 에너지로 넓어진 여러 질소 이온을 피크 형태로 나타내지만, 이온화 단계와 이온 운동량 간의 상관관계를 찾으려면 공분산 맵을 계산해야 한다.

그림 1의 예에서 스펙트럼

\mathbf{X}_j(t)

와

\mathbf{Y}_j(t)

는 비행 시간

t

의 범위가 다르다는 점을 제외하면 동일하다. 패널 '''a'''는

\langle \mathbf{XY^\mathsf{T}} \rangle

를, 패널 '''b'''는

\langle \mathbf{X} \rangle \langle \mathbf{Y}^\mathsf{T} \rangle

를, 패널 '''c'''는

\operatorname{cov}(\mathbf{X},\mathbf{Y})

인 이 둘의 차이를 보여준다(색상 척도의 변화에 유의하십시오). 불행히도, 이 맵은 샷마다 변동하는 레이저 강도에 의해 유도된 흥미롭지 않은 공통 모드 상관관계에 압도된다. 이러한 상관관계를 억제하기 위해 레이저 강도

I_j

는 모든 샷에서 기록되어

\mathbf{I}

에 넣고

\operatorname{pcov}(\mathbf{X},\mathbf{Y} \mid \mathbf{I})

는 패널 '''d''' 와 '''e''' 에 표시된 대로 계산된다. 그러나 흥미롭지 않은 상관관계의 억제는 레이저 강도 외에 다른 공통 모드 변동 소스가 있고 원칙적으로 이러한 모든 소스를 벡터

\mathbf{I}

에서 모니터링해야 하므로 불완전하다. 그러나 실제로 패널 '''f'''에서 보듯이 부분 공분산 보정을 과도 보상하는 것으로 충분하며, 여기서 이온 운동량의 흥미로운 상관관계가 이제 원자 질소의 이온화 단계를 중심으로 하는 직선으로 명확하게 보인다.

2차원 적외선 분광법은 상관 분석을 사용하여 응집상의 2차원 스펙트럼을 얻는다. 이 분석에는 동기와 비동기의 두 가지 버전이 있다. 수학적으로 전자는 샘플 공분산 행렬로 표현되며, 이 기술은 공분산 매핑과 동일하다.^[13]

참조

_[1] 서적 Fundamentals of Probability and Stochastic Processes with Applications to Communications Springer
_[2] 서적 An introduction to probability theory and its applications https://books.google[...] Wiley 2012-08-10
_[3] 서적 All of Statistics: A Concise Course in Statistical Inference https://archive.org/[...] Springer
_[4] 웹사이트 Lectures on probability theory and mathematical statistics http://www.statlect.[...]
_[5] 서적 Multivariate Statistics: a Vector Space Approach John Wiley and Sons
_[6] 간행물 Principles of Multivariate Analysis Oxford University Press
_[7] 서적 A Foundation in Digital Communication Cambridge University Press
_[8] 웹사이트 The Matrix Reference Manual http://www.ee.ic.ac.[...]
_[9] 간행물 Optimal Whitening and Decorrelation https://www.tandfonl[...] Taylor & Francis
_[10] 간행물 On the covariance-Hessian relation in evolution strategies Elsevier
_[11] 뉴스 Covariance mapping techniques http://iopscience.io[...]
_[12] 뉴스 Coulomb explosion of diatomic molecules in intense XUV fields mapped by partial covariance http://hdl.handle.ne[...]
_[13] 뉴스 Generalized two-dimensional correlation method applicable to infrared, Raman, and other types of spectroscopy
_[14] 문서 Wasserman
_[15] 문서 Feller Vol.1, Feller Vol.2

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com