공분산

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

공분산은 두 확률 변수 간의 상관 정도를 나타내는 값으로, 두 변수의 각 기댓값에서 벗어난 편차의 곱에 대한 기댓값으로 정의된다. 공분산은 유전학, 금융 경제학, 기상학 등 다양한 분야에서 활용되며, 특히 공분산 행렬은 확률 벡터의 평균 및 공분산을 추정하는 데 사용된다. 공분산은 선형 종속성을 나타내는 척도로 사용되지만, 인과 관계를 직접적으로 보여주는 것은 아니며, 상관관계와 인과관계는 별개의 차원의 사건임을 주의해야 한다.

더 읽어볼만한 페이지

상관분석 - 상관 분석
상관 분석은 두 변수 간의 선형 관계의 강도와 방향을 측정하는 통계적 방법이며, 피어슨 상관 계수 등을 사용하여 상관 관계를 파악하지만 인과 관계를 의미하지는 않는다.
통계학 - 확률
확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다.
통계학 - 사분위수
사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.

공분산
정의
설명	두 확률 변수가 함께 변동하는 정도를 나타내는 통계적 척도이다.
기호	Cov(X, Y)
관련 개념	분산, 상관관계
계산
공식	E[(X - E[X])(Y - E[Y])]
X	확률 변수 X
Y	확률 변수 Y
E[X]	X의 기댓값
E[Y]	Y의 기댓값
속성
독립 변수	두 변수가 독립이면 공분산은 0이다.
선형 변환	선형 변환에 따라 공분산 값이 변한다.
활용
포트폴리오 관리	자산 간의 위험 분산 정도를 파악하는 데 사용된다.
신호 처리	신호 간의 상관 관계를 분석하는 데 사용된다.
참고
관련 항목	상관계수는 공분산을 표준화한 값이다.

2. 정의와 공식

실수 값을 갖는 두 확률변수 ''X''와 ''Y''에 대해, 공분산은 각 변수의 기댓값(평균)에서 벗어난 편차의 곱에 대한 기댓값으로 정의된다.^[3]^[4]

: $\operatorname{cov}(X, Y) = \operatorname{E}{\big[(X - \operatorname{E}[X])(Y - \operatorname{E}[Y])\big]}$

여기서 $\operatorname{E}[X]$ 는 ''X''의 기댓값이다. 공분산은 때때로 분산과 유사하게 $\sigma_{XY}$ 또는 $\sigma(X,Y)$ 로 표시되기도 한다. 기댓값의 선형성을 이용하면, 공분산은 두 변수의 곱의 기댓값에서 각 기댓값의 곱을 뺀 값으로 나타낼 수 있다.

: $\begin{align}\operatorname{cov}(X, Y)&= \operatorname{E}\left[\left(X - \operatorname{E}\left[X\right]\right) \left(Y - \operatorname{E}\left[Y\right]\right)\right] \\&= \operatorname{E}\left[X Y\right] - \operatorname{E}\left[X\right] \operatorname{E}\left[Y\right],\end{align}$

만약 ''X''와 ''Y''가 독립이라면, 공분산은 0이 된다. 그러나 역은 일반적으로 성립하지 않는다. 즉, ''X''와 ''Y''가 독립이 아니더라도 공분산 값은 0이 될 수 있다. 공분산이 0인 확률변수를 비상관 확률변수라고 한다.

공분산 $\operatorname{cov}(X, Y)$ 의 단위는 ''X''의 단위와 ''Y''의 단위를 곱한 것이다. 반면, 상관 관계는 무차원수로 선형 종속성을 측정한다.

(실수) 확률 변수 쌍 $(X,Y)$ 가 $i = 1,\ldots,n$ 에 대해 값 $(x_i,y_i)$ 를 동일한 확률 $p_i=1/n$ 로 가질 수 있다면, 공분산은 기댓값 $\operatorname{E}[X]$ 와 $\operatorname{E}[Y]$ 를 사용하여 다음과 같이 표현할 수 있다.

: $\operatorname{cov} (X,Y) = \frac{1}{n}\sum_{i=1}^n (x_i-E(X)) (y_i-E(Y)).$

이는 기댓값을 직접 언급하지 않고도 다음과 같이 표현할 수 있다.^[5]

: $\operatorname{cov}(X,Y) = \frac{1}{n^2} \sum_{i=1}^n \sum_{j=1}^n \frac{1}{2}(x_i - x_j)(y_i - y_j) = \frac{1}{n^2} \sum_i \sum_{j>i} (x_i-x_j)(y_i - y_j).$

더 일반적으로, $(X,Y)$ 의 가능한 실현이 $n$ 개, 즉 $(x_i,y_i)$ 가 있지만 $i = 1,\ldots,n$ 에 대해 확률 $p_i$ 가 같지 않을 수 있다면, 공분산은 다음과 같다.

: $\operatorname{cov} (X,Y) = \sum_{i=1}^n p_i (x_i-E(X)) (y_i-E(Y)).$

두 개의 이산 확률 변수 $X$ 와 $Y$ 가 결합 확률 분포를 가지는 경우, $P( X = x_i, Y = y_j )$ 의 결합 확률에 해당하는 요소 $p_{i,j}$ 로 표시되며, 공분산은 행렬의 인덱스에 대한 이중 합산을 사용하여 계산된다.

: $\operatorname{cov} (X, Y) = \sum_{i=1}^{n}\sum_{j=1}^{n} p_{i,j} (x_i - E[X])(y_j - E[Y]).$

두 복소 확률 변수 $Z, W$ 사이의 공분산은 다음과 같이 정의된다.^[4]

: $\operatorname{cov}(Z, W) =\operatorname{E}\left[(Z - \operatorname{E}[Z])\overline{(W - \operatorname{E}[W])}\right] =\operatorname{E}\left[Z\overline{W}\right] - \operatorname{E}[Z]\operatorname{E}\left[\overline{W}\right]$

여기서 정의에 사용된 두 번째 인자는 복소 공액이다.

의사 공분산도 정의할 수 있다.

2. 1. 정의

실수값을 가지는 두 확률변수 ''X''와 ''Y''에 대해, 공분산은 각 변수의 기댓값(평균)에서 벗어난 편차의 곱에 대한 기댓값으로 정의된다.^[3]^[4]

:

\operatorname{cov}(X, Y) = \operatorname{E}{\big[(X - \operatorname{E}[X])(Y - \operatorname{E}[Y])\big]}

여기서

\operatorname{E}[X]

는 ''X''의 기댓값이다. 공분산은 때때로 분산과 유사하게

\sigma_{XY}

또는

\sigma(X,Y)

로 표시되기도 한다. 기댓값의 선형성을 이용하면, 공분산은 두 변수의 곱의 기댓값에서 각 기댓값의 곱을 뺀 값으로 나타낼 수 있다.

:

\begin{align}\operatorname{cov}(X, Y)&= \operatorname{E}\left[\left(X - \operatorname{E}\left[X\right]\right) \left(Y - \operatorname{E}\left[Y\right]\right)\right] \\&= \operatorname{E}\left[X Y\right] - \operatorname{E}\left[X\right] \operatorname{E}\left[Y\right],\end{align}

만약 ''X''와 ''Y''가 독립이라면, 공분산은 0이 된다. 그러나 역은 일반적으로 성립하지 않는다. 즉, ''X''와 ''Y''가 독립이 아니더라도 공분산 값은 0이 될 수 있다. 공분산이 0인 확률변수를 비상관 확률변수라고 한다.

공분산

\operatorname{cov}(X, Y)

의 단위는 ''X''의 단위와 ''Y''의 단위를 곱한 것이다. 반면, 상관 관계는 무차원수로 선형 종속성을 측정한다.

예를 들어, 중학생의 수학과 국어 시험 점수의 공분산을 생각해보자.

항목	수학	국어
평균 점수	50	50
야마다	80	40
편차	30	−10
편차의 곱	30 × (−10) = −300

학생 전체에 대해 편차의 곱을 평균한 것이 수학과 국어의 공분산이 된다.

만약 수학 점수가 평균보다 높은 학생이 국어 점수도 평균보다 높다면, 공분산은 큰 양의 값을 갖는다. 반대의 관계라면 큰 음의 값을 갖는다. 공분산이 0이라면 특별한 관련성이 없다고 생각할 수 있다.

공분산은 원래 값의 크기에 따라 수치가 결정되므로, 단위가 다른 변수를 비교할 때 해석하기 어렵다. 그래서 관계를 볼 때는 피어슨 상관 계수를 사용하는 것이 일반적이다. 상관 계수는 공분산 값을 각 변수의 표준 편차 곱으로 나눈 값으로, -1에서 1 사이의 값을 갖는다.

2. 2. 공식

공분산의 정의는 다음과 같다.

:

\operatorname{Cov}(X,Y) \equiv \operatorname{E}[(X-\operatorname{E}[X])(Y-\operatorname{E}[Y])]

여기서 실수 값을 가지는 두 확률변수 ''X''와 ''Y''의 기댓값은 다음과 같다.

:

E(X)=\mu, \quad E(Y)=\nu

기댓값 연산자 E를 사용하여 위의 식을 정리하면 다음과 같이 나타낼 수 있다.

:

\operatorname{Cov}(X, Y) = \operatorname{E}(X \cdot Y) - \mu \nu \,

만약 ''X''와 ''Y''가 독립이라면 공분산은 0이 되며, 이 경우 다음과 같이 나타낼 수 있다.

:

E(X \cdot Y)=E(X) \cdot E(Y)=\mu\nu

위의 식을 사용하여 공분산을 다시 표현하면 다음과 같다.

:

\operatorname{Cov}(X, Y) = \mu \nu - \mu \nu = 0

일반적으로 역은 성립하지 않는다. 즉, ''X''와 ''Y''가 독립이 아니더라도 공분산의 값은 0이 될 수 있다.

Cov(''X'', ''Y'')의 단위는 ''X''와 ''Y''의 곱이다. 상관관계는 공분산 값을 필요로 하며, 선형독립의 무차원수로 볼 수 있다.

공분산이 0인 확률변수를 비상관 확률변수라고 한다.

두 개의 결합 분포된 실수 값을 갖는 확률 변수

X

와

Y

가 유한한 이차 모멘트를 가질 때, 공분산은 각 변수의 기대값에서 벗어난 편차의 곱에 대한 기댓값(또는 평균)으로 정의된다.^[3]^[4]

:

\operatorname{cov}(X, Y) = \operatorname{E}{\big[(X - \operatorname{E}[X])(Y - \operatorname{E}[Y])\big]}

여기서

\operatorname{E}[X]

는

X

의 기댓값으로,

X

의 평균이라고도 한다. 공분산은 때때로 분산과 유사하게

\sigma_{XY}

또는

\sigma(X,Y)

로 표시되기도 한다. 기댓값의 선형성 속성을 사용하여, 이는 두 변수의 곱의 기댓값에서 각 기댓값의 곱을 뺀 값으로 단순화될 수 있다.

:

\begin{align}\operatorname{cov}(X, Y)&= \operatorname{E}\left[\left(X - \operatorname{E}\left[X\right]\right) \left(Y - \operatorname{E}\left[Y\right]\right)\right] \\&= \operatorname{E}\left[X Y - X \operatorname{E}\left[Y\right] - \operatorname{E}\left[X\right] Y + \operatorname{E}\left[X\right] \operatorname{E}\left[Y\right]\right] \\&= \operatorname{E}\left[X Y\right] - \operatorname{E}\left[X\right] \operatorname{E}\left[Y\right] - \operatorname{E}\left[X\right] \operatorname{E}\left[Y\right] + \operatorname{E}\left[X\right] \operatorname{E}\left[Y\right] \\&= \operatorname{E}\left[X Y\right] - \operatorname{E}\left[X\right] \operatorname{E}\left[Y\right],\end{align}

공분산

\operatorname{cov}(X, Y)

의 단위는

X

의 단위와

Y

의 단위를 곱한 것이다. 반면, 공분산에 의존하는 상관 관계는 무차원수로 선형 종속성을 측정한다. (사실, 상관 계수는 단순히 공분산의 정규화된 버전으로 이해될 수 있다.)

2. 3. 이산 확률 변수

(실수) 확률 변수 쌍

(X,Y)

가

i = 1,\ldots,n

에 대해 값

(x_i,y_i)

를 동일한 확률

p_i=1/n

로 가질 수 있다면, 공분산은 기댓값

\operatorname{E}[X]

와

\operatorname{E}[Y]

를 사용하여 다음과 같이 표현할 수 있다.

:

\operatorname{cov} (X,Y) = \frac{1}{n}\sum_{i=1}^n (x_i-E(X)) (y_i-E(Y)).

이는 기댓값을 직접 언급하지 않고도 다음과 같이 표현할 수 있다.^[5]

:

\operatorname{cov}(X,Y) = \frac{1}{n^2} \sum_{i=1}^n \sum_{j=1}^n \frac{1}{2}(x_i - x_j)(y_i - y_j) = \frac{1}{n^2} \sum_i \sum_{j>i} (x_i-x_j)(y_i - y_j).

더 일반적으로,

(X,Y)

의 가능한 실현이

n

개, 즉

(x_i,y_i)

가 있지만

i = 1,\ldots,n

에 대해 확률

p_i

가 같지 않을 수 있다면, 공분산은 다음과 같다.

:

\operatorname{cov} (X,Y) = \sum_{i=1}^n p_i (x_i-E(X)) (y_i-E(Y)).

두 개의 이산 확률 변수

X

와

Y

가 결합 확률 분포를 가지는 경우,

P( X = x_i, Y = y_j )

의 결합 확률에 해당하는 요소

p_{i,j}

로 표시되며, 공분산은 행렬의 인덱스에 대한 이중 합산을 사용하여 계산된다.

:

\operatorname{cov} (X, Y) = \sum_{i=1}^{n}\sum_{j=1}^{n} p_{i,j} (x_i - E[X])(y_j - E[Y]).

예를 들어, 중학생의 수학과 국어 시험 점수의 공분산을 생각해 보자. 먼저, 야마다 씨의 편차 곱을 계산한다.

항목	수학	국어
평균 점수	50	50
야마다	80	40
편차	30	−10
편차의 곱	30 × (−10) = −300

마찬가지로, 학생 전원에 대해 편차의 곱을 평균한 것이 수학과 국어의 공분산이 된다.

수학이 평균보다 높은 학생이 국어도 평균보다 높은 시험 점수를 얻고 있다면, 공분산의 합계는 큰 양의 값을 갖는다. 반대의 관계가 있다면, 큰 음의 값을 갖는다. 공분산이 0이라면 특별히 그러한 관련성은 없다고 생각할 수 있다. 덧붙여서 이 관련성은 직선적인 것(1차 함수)을 가리킨다.

2. 4. 복소 확률 변수

두 복소 확률 변수

Z, W

사이의 공분산은 다음과 같이 정의된다.^[4]

:

\operatorname{cov}(Z, W) =\operatorname{E}\left[(Z - \operatorname{E}[Z])\overline{(W - \operatorname{E}[W])}\right] =\operatorname{E}\left[Z\overline{W}\right] - \operatorname{E}[Z]\operatorname{E}\left[\overline{W}\right]

여기서 정의에 사용된 두 번째 인자는 복소 공액이다.

의사 공분산도 정의할 수 있다.

3. 성질

공분산은 내적과 유사하게 다음과 같은 성질을 갖는다.^[3]^[4]

# 쌍선형: 상수 ''a'', ''b''와 확률변수 ''X'', ''Y'', ''U''에 대해, Cov(''aX'' + ''bY'', ''U'') = ''a''Cov(''X'', ''U'') + ''b''Cov(''Y'', ''U'')가 성립한다.

# 대칭성: Cov(''X'', ''Y'') = Cov(''Y'', ''X'')이다.

# 양의 정부호: Var(''X'') = Cov(''X'', ''X'') ≥ 0이며, Cov(''X'', ''X'') = 0이면 ''X''는 상수확률변수이다.

이러한 성질들은 공분산이 확률변수들의 벡터 공간 상에서 내적과 유사하게 동작함을 의미한다.

유한한 분산을 갖는 확률변수 ''X'', ''Y''에 대해, 코시-슈바르츠 부등식에 의해 다음 부등식이 성립한다.

: $\left|\operatorname{cov}(X, Y)\right| \le \sqrt{\sigma^2(X) \sigma^2(Y)}$

이는 다음과 같이 증명할 수 있다. $\sigma^2(Y) = 0$ 인 경우는 자명하므로, $\sigma^2(Y) \neq 0$ 인 경우를 고려하여 확률변수 ''Z''를 $Z = X - \frac{\operatorname{cov}(X, Y)}{\sigma^2(Y)} Y$ 로 정의하면,

: $0 \le \sigma^2(Z) = \operatorname{cov}\left( X - \frac{\operatorname{cov}(X, Y)}{\sigma^2(Y)} Y,\; X - \frac{\operatorname{cov}(X, Y)}{\sigma^2(Y)} Y \right) = \sigma^2(X) - \frac{(\operatorname{cov}(X, Y))^2}{\sigma^2(Y)}$

가 성립한다. 따라서 $(\operatorname{cov}(X, Y))^2 \le \sigma^2(X)\sigma^2(Y)$ 이므로, $\left|\operatorname{cov}(X, Y)\right| \le \sqrt{\sigma^2(X)\sigma^2(Y)}$ 가 성립한다.

두 확률 변수 $X, Y$ 사이의 공분산을 계산하는 데 유용한 항등식은 횢딩 공분산 항등식이다.^[7]

: $\operatorname{cov}(X, Y) = \int_\mathbb R \int_\mathbb R \left(F_{(X, Y)}(x, y) - F_X(x)F_Y(y)\right) \,dx \,dy$

여기서 $F_{(X,Y)}(x,y)$ 는 확률 벡터 $(X, Y)$ 의 결합 누적 분포 함수이고, $F_X(x), F_Y(y)$ 는 주변 분포이다.

공분산이 0인 확률 변수는 비상관(uncorrelated)이라고 한다.^[4] 독립 확률 변수이면 공분산은 0이지만,^[4]^[8] 그 역은 일반적으로 성립하지 않는다.

3. 1. 기본 성질

X^영어, Y^영어가 실수값인 확률변수이고 ''a'', ''b''가 상수라면, 공분산에 대해 다음과 같은 법칙이 성립한다.

$\operatorname{Cov}(X, X) = \operatorname{Var}(X)\,$
$\operatorname{Cov}(X, Y) = \operatorname{Cov}(Y, X)\,$
$\operatorname{Cov}(aX, bY) = ab\, \operatorname{Cov}(X, Y)\,$

확률변수 X^영어₁, ..., X^영어_''n'' 과 Y^영어₁, ..., Y^영어_''m''에 대해 다음과 같은 법칙이 성립한다.

:

\operatorname{Cov}\left(\sum_{i=1}^n {X_i}, \sum_{j=1}^m{Y_j}\right) =    \sum_{i=1}^n{\sum_{j=1}^m{\operatorname{Cov}\left(X_i, Y_j\right)}}

확률변수 X^영어₁, ..., X^영어_''n''에 대해 다음과 같은 법칙이 성립한다.

:

\operatorname{Var}\left(\sum_{i=1}^n X_i \right) = \sum_{i=1}^n \operatorname{Var}(X_i) + 2\sum_{i,j\,:\,i

만약

X

,

Y

,

W

및

V

가 실수 값을 갖는 확률 변수이고

a,b,c,d

가 실수 값을 갖는 상수라면, 다음 사실은 공분산의 정의에 따른 결과이다.

:

\begin{align}\operatorname{cov}(X, a) &= 0 \\\operatorname{cov}(X, X) &= \operatorname{var}(X) \\\operatorname{cov}(X, Y) &= \operatorname{cov}(Y, X) \\\operatorname{cov}(aX, bY) &= ab\, \operatorname{cov}(X, Y) \\\operatorname{cov}(X+a, Y+b) &= \operatorname{cov}(X, Y) \\\operatorname{cov}(aX+bY, cW+dV) &= ac\,\operatorname{cov}(X,W)+ad\,\operatorname{cov}(X,V)+bc\,\operatorname{cov}(Y,W)+bd\,\operatorname{cov}(Y,V)\end{align}

실수 값을 갖는 확률 변수의 수열

X_1,\ldots,X_n

와 상수

a_1,\ldots,a_n

에 대해, 다음이 성립한다.

:

\operatorname{var}\left(\sum_{i=1}^n a_iX_i \right) = \sum_{i=1}^n a_i^2\sigma^2(X_i) + 2\sum_{i,j\,:\,i

공분산은 다음 속성과 유사한 속성을 만족한다는 것을 관찰함으로써 많은 속성을 추출할 수 있다. 내적:

# 쌍선형: 상수

a

와

b

및 확률 변수

X,Y,Z,

에 대해,

\operatorname{cov}(aX+bY,Z) = a \operatorname{cov}(X,Z) + b \operatorname{cov}(Y,Z)

# 대칭:

\operatorname{cov}(X,Y) = \operatorname{cov}(Y,X)

# 양의 반정부호: 모든 확률 변수

X

에 대해

\sigma^2(X) = \operatorname{cov}(X,X) \ge 0

이고,

\operatorname{cov}(X,X) = 0

은

X

가 거의 확실하게 상수임을 의미한다.

3. 2. 선형 조합과의 관계

X^영어, Y^영어가 실수값을 갖는 확률변수이고 ''a'', ''b''가 상수일 때, 공분산에 대해 다음 법칙들이 성립한다.

$\operatorname{Cov}(X, X) = \operatorname{Var}(X)\,$
$\operatorname{Cov}(X, Y) = \operatorname{Cov}(Y, X)\,$
$\operatorname{Cov}(aX, bY) = ab\, \operatorname{Cov}(X, Y)\,$

확률변수 X^영어₁, ..., X^영어_''n'' 과 Y^영어₁, ..., Y^영어_''m''에 대해 다음 법칙이 성립한다.

:

\operatorname{Cov}\left(\sum_{i=1}^n {X_i}, \sum_{j=1}^m{Y_j}\right) =    \sum_{i=1}^n{\sum_{j=1}^m{\operatorname{Cov}\left(X_i, Y_j\right)}}

확률변수 X^영어₁, ..., X^영어_''n''에 대해 다음 법칙이 성립한다.

:

\operatorname{Var}\left(\sum_{i=1}^n X_i \right) = \sum_{i=1}^n \operatorname{Var}(X_i) + 2\sum_{i,j\,:\,i

X

,

Y

,

W

,

V

가 실수 값을 갖는 확률 변수이고

a,b,c,d

가 실수 값을 갖는 상수일 때, 다음 사실은 공분산의 정의에 따른 결과이다.

\begin{align}\operatorname{cov}(X, a) &= 0 \\\operatorname{cov}(X, X) &= \operatorname{var}(X) \\\operatorname{cov}(X, Y) &= \operatorname{cov}(Y, X) \\\operatorname{cov}(aX, bY) &= ab\, \operatorname{cov}(X, Y) \\\operatorname{cov}(X+a, Y+b) &= \operatorname{cov}(X, Y) \\\operatorname{cov}(aX+bY, cW+dV) &= ac\,\operatorname{cov}(X,W)+ad\,\operatorname{cov}(X,V)+bc\,\operatorname{cov}(Y,W)+bd\,\operatorname{cov}(Y,V)\end{align}

실수 값을 갖는 확률 변수의 수열

X_1,\ldots,X_n

와 상수

a_1,\ldots,a_n

에 대해 다음이 성립한다.

\operatorname{var}\left(\sum_{i=1}^n a_iX_i \right) = \sum_{i=1}^n a_i^2\sigma^2(X_i) + 2\sum_{i,j\,:\,i

3. 3. Hoeffding의 공분산 항등식

두 확률 변수

X, Y

사이의 공분산을 계산하는 데 유용한 항등식은 횢딩 공분산 항등식이다.^[7]

:

\operatorname{cov}(X, Y) = \int_\mathbb R \int_\mathbb R \left(F_{(X, Y)}(x, y) - F_X(x)F_Y(y)\right) \,dx \,dy

여기서

F_{(X,Y)}(x,y)

는 확률 벡터

(X, Y)

의 결합 누적 분포 함수이고,

F_X(x), F_Y(y)

는 주변 분포이다.

3. 4. 비상관성과 독립성

두 확률 변수

X

와

Y

의 공분산이 0이면 비상관(uncorrelated)이라고 한다.^[4] 확률 벡터의 성분 중 주 대각선을 제외한 모든 항목의 공분산 행렬이 0인 경우에도 비상관이라고 한다.

만약

X

와

Y

가 독립 확률 변수이면, 그들의 공분산은 0이다.^[4]^[8] 이는 독립성 하에서

\operatorname{E}[XY] = \operatorname{E}[X] \cdot \operatorname{E}[Y]

가 성립하기 때문이다.

그러나 그 역은 일반적으로 성립하지 않는다. 예를 들어

X

가

[-1, 1]

에서 균일하게 분포되어 있고

Y = X^2

라고 하자. 분명히

X

와

Y

는 독립적이지 않지만, 다음과 같이 계산하면 공분산은 0이 된다.

\begin{align}\operatorname{cov}(X, Y) &= \operatorname{cov}\left(X, X^2\right) \\&= \operatorname{E}\left[X \cdot X^2\right] - \operatorname{E}[X] \cdot \operatorname{E}\left[X^2\right] \\&= \operatorname{E}\left[X^3\right] - \operatorname{E}[X]\operatorname{E}\left[X^2\right] \\&= 0 - 0 \cdot \operatorname{E}[X^2] \\&= 0.\end{align}

이 경우,

Y

와

X

사이의 관계는 비선형인 반면, 상관 관계와 공분산은 두 확률 변수 간의 선형 종속성을 측정한다. 이 예는 두 확률 변수가 비상관적이라고 해서 일반적으로 독립적임을 의미하지는 않는다는 것을 보여준다. 그러나 두 변수가 결합적으로 정규 분포를 따른다면(단, 단순히 개별적으로 정규 분포하는 것은 아님), 비상관성은 실제로 독립성을 의미한다.^[9]

공분산이 양수인

X

와

Y

는 양의 상관 관계를 가진다고 하며, 이는 만약

X>E[X]

이면 아마도

Y>E[Y]

임을 의미한다. 반대로, 공분산이 음수인

X

와

Y

는 음의 상관 관계를 가지며, 만약

X>E[X]

이면 아마도

Y 임을 의미한다.

예를 들어, 중학생의 수학과 국어 시험 점수의 공분산을 생각할 수 있다. 먼저, 야마다 씨의 편차 곱을 계산하면 다음과 같다.

항목	수학	국어
평균 점수	50	50
야마다	80	40
편차	30	−10
편차의 곱	30 × (−10) = −300

마찬가지로, 학생 전원에 대해 편차의 곱을 평균한 것이 수학과 국어의 공분산이 된다.

수학이 평균보다 높은 학생이 국어도 평균보다 높은 시험 점수를 얻고 있다면, 공분산의 합계는 큰 양의 값을 갖는다. 반대의 관계가 있다면, 큰 음의 값을 갖는다. 공분산이 0이라면 특별히 그러한 관련성은 없다고 생각할 수 있다.

공분산은 원래 값의 크기에 따라 수치가 결정되므로, 단위가 다른 변수를 여러 개 비교할 때 등 해석이 어렵다. 그래서 관계를 볼 경우에는 피어슨 상관 계수를 사용하는 것이 일반적이다.

3. 5. 내적과의 관계

공분산은 내적과 유사한 여러 성질을 갖는다.^[3]^[4]

이중선형연산: 상수 ''a'', ''b''와 확률변수 ''X'', ''Y'', ''U''에 대해, Cov(''aX'' + ''bY'', ''U'') = ''a''Cov(''X'', ''U'') + ''b''Cov(''Y'', ''U'')가 성립한다.
대칭성: Cov(''X'', ''Y'') = Cov(''Y'', ''X'')이다.
양수값: Var(''X'') = Cov(''X'', ''X'') ≥ 0이며, Cov(''X'', ''X'') = 0이면 ''X''는 상수확률변수이다.

이러한 성질들은 공분산이 확률변수들의 벡터 공간 상에서 내적과 유사하게 동작함을 의미한다. 즉, 벡터의 덧셈(''X'' + ''Y'')과 스칼라 곱(''aX'') 등의 연산에 대해 내적과 유사한 성질을 갖는다.

유한한 분산을 갖는 확률변수 ''X'', ''Y''에 대해, 코시-슈바르츠 부등식에 의해 다음 부등식이 성립한다.

:

\left|\operatorname{cov}(X, Y)\right| \le \sqrt{\sigma^2(X) \sigma^2(Y)}

증명:

\sigma^2(Y) = 0

인 경우는 자명하므로,

\sigma^2(Y) \neq 0

인 경우를 고려한다. 확률변수 ''Z''를 다음과 같이 정의한다.

:

Z = X - \frac{\operatorname{cov}(X, Y)}{\sigma^2(Y)} Y.

그러면 다음이 성립한다.

:

\begin{align}0 \le \sigma^2(Z)&= \operatorname{cov}\left(X - \frac{\operatorname{cov}(X, Y)}{\sigma^2(Y)} Y,\;X - \frac{\operatorname{cov}(X, Y)}{\sigma^2(Y)} Y\right)  \\&= \sigma^2(X) - \frac{(\operatorname{cov}(X, Y))^2}{\sigma^2(Y)}\end{align}

따라서,

:

(\operatorname{cov}(X, Y))^2 \le \sigma^2(X)\sigma^2(Y)

이므로,

:

\left|\operatorname{cov}(X, Y)\right| \le \sqrt{\sigma^2(X) \sigma^2(Y)}

가 성립한다.

4. 표본 공분산

피어슨 상관계수에 사용되는 표본 공분산은 표본 데이터를 이용하여 공분산을 추정하는 방법이다. 공분산은 원래 값의 크기에 따라 수치가 결정되므로, 단위가 다른 변수를 여러 개 비교할 때 등 해석이 어렵다. 예를 들어 시정촌 단위로, 그 마을별 인구와 라면 가게의 매출액의 공분산을 계산해도 숫자의 의미를 알기 어렵다. 그래서 관계를 볼 경우에는 피어슨 상관 계수를 사용하는 것이 일반적이다.

공분산 값을 각 변수의 표준 편차 곱으로 나눈 것이 상관 계수가 된다. 상관 계수는 -1에서 1까지의 값을 갖는다. 1이면 두 변수의 값은 완전히 동기화되어 있다는 의미이다. 대상에 따라 상관 계수의 의미는 꽤 달라지지만, 일례로 설문 조사에서는 다음과 같은 표와 같은 관점이 있다.

상관 계수의 범위	평가
0.2〜0.4	약간의 양의 상관 관계
0.4〜0.7	상당한 양의 상관 관계
0.7〜1	강한 양의 상관 관계

4. 1. 표본 공분산 계산

피어슨 상관계수에 사용되는 표본 공분산은 다음과 같이 계산된다.^[3]^[4]

:

Cov(X,Y)= { {\sum_{i}^{n} \left( X_i - \overline{X} \right)\left( Y_i - \overline{Y} \right)} \over{n-1} }

이는 관찰되지 않은 모집단에서 추출된 각

N

개의 관측치에 기반한

K

개 변수 간의 표본 공분산을 추정하는 공식이다.

K \times K

행렬

\textstyle \overline{\mathbf{q}} = \left[q_{jk}\right]

의 항목은 다음과 같다.

:

q_{jk} = \frac{1}{N - 1}\sum_{i=1}^N \left(X_{ij} - \bar{X}_j\right) \left(X_{ik} - \bar{X}_k\right),

이 공식은 변수

j

와 변수

k

사이의 공분산에 대한 추정치이다.

표본 평균과 표본 공분산 행렬은 모집단의 평균 및 확률 벡터

\textstyle \mathbf{X}

의 공분산 행렬을 비편향 추정하는 것이다. 여기서 벡터의 'j'번째 요소

(j = 1,\, \ldots,\, K)

는 확률 변수 중 하나이다. 표본 공분산 행렬의 분모가

\textstyle N

이 아닌

\textstyle N-1

인 이유는 모집단 평균

\operatorname{E}(\mathbf{X})

가 알려져 있지 않고 표본 평균

\mathbf{\bar{X}}

로 대체되기 때문이다.

만약 모집단 평균

\operatorname{E}(\mathbf{X})

가 알려져 있다면, 다음과 같은 비편향 추정치를 사용할 수 있다.

:

q_{jk} = \frac{1}{N} \sum_{i=1}^N \left(X_{ij} - \operatorname{E}\left(X_j\right)\right) \left(X_{ik} - \operatorname{E}\left(X_k\right)\right)

.

예를 들어, 중학생들의 수학과 국어 시험 점수의 공분산을 계산하는 경우를 생각해 보자. 먼저 각 학생의 편차(점수 - 평균 점수)를 계산하고, 각 학생의 수학 편차와 국어 편차를 곱한다.

항목	수학	국어
평균 점수	50	50
야마다	80	40
편차	30	−10
편차의 곱	30 × (−10) = −300

모든 학생에 대해 이 편차의 곱을 계산하고, 그 값들을 평균하면 수학과 국어 점수의 공분산을 얻을 수 있다.

만약 수학 점수가 평균보다 높은 학생이 국어 점수도 평균보다 높은 경향이 있다면, 공분산은 큰 양의 값을 가질 것이다. 반대로, 수학 점수가 평균보다 높은 학생이 국어 점수는 평균보다 낮은 경향이 있다면, 공분산은 큰 음의 값을 가질 것이다. 공분산이 0에 가깝다면, 두 과목 점수 사이에 특별한 선형적 관련성이 없다고 해석할 수 있다.

하지만 공분산은 원래 값의 크기에 영향을 받기 때문에, 단위가 다른 변수들을 비교할 때는 해석하기 어려울 수 있다. 이러한 문제를 해결하기 위해 피어슨 상관 계수를 사용한다. 상관 계수는 공분산을 각 변수의 표준 편차 곱으로 나눈 값으로, -1과 1 사이의 값을 가지며, 두 변수 간의 선형 관계의 정도를 나타낸다.

상관 계수의 범위	평가
−1〜−0.7	강한 음의 상관 관계
−0.7〜−0.4	상당한 음의 상관 관계
−0.4〜−0.2	약간의 음의 상관 관계
−0.2〜0.2	거의 상관 없음
0.2〜0.4	약간의 양의 상관 관계
0.4〜0.7	상당한 양의 상관 관계
0.7〜1	강한 양의 상관 관계

5. 공분산 행렬

공분산 행렬은 확률 벡터의 각 요소 간의 공분산을 나타내는 행렬로, 통계 분석에서 중요한 역할을 한다.

공분산은 두 확률 변수 간의 선형의존성을 나타내는 척도로 사용되기도 하지만, 선형대수에서의 선형의존성을 의미하는 것은 아니다. 공분산을 정규화하면 상관관계를 나타내는 상관행렬을 얻을 수 있으며, 이를 통해 피어슨 상관계수(Pearson Coefficient) 값을 구하여 두 확률 변수 사이의 관계를 가장 잘 설명하는 선형 함수를 표현할 수 있다. 이러한 점에서 공분산은 독립성의 선형 척도로 간주될 수 있다.

5. 1. 자기 공분산 행렬

확률 벡터

\mathbf{X} = \begin{bmatrix} X_1 & X_2 & \dots & X_m \end{bmatrix}^\mathrm{T}

는

m

개의 결합 분포된 확률 변수로 구성되며, 유한한 2차 모멘트를 갖는다. 이 벡터의 자기 공분산 행렬(또는 '''분산-공분산 행렬''', '''공분산 행렬''')

\operatorname{K}_{\mathbf{X}\mathbf{X}}

(또는

\Sigma(\mathbf{X})

또는

\operatorname{cov}(\mathbf{X}, \mathbf{X})

로 표기)는 다음과 같이 정의된다.^[10]

:

\begin{align}\operatorname{K}_\mathbf{XX} = \operatorname{cov}(\mathbf{X}, \mathbf{X})&= \operatorname{E}\left[(\mathbf{X} - \operatorname{E}[\mathbf{X}]) (\mathbf{X} - \operatorname{E}[\mathbf{X}])^\mathrm{T}\right] \\&= \operatorname{E}\left[\mathbf{XX}^\mathrm{T}\right] - \operatorname{E}[\mathbf{X}]\operatorname{E}[\mathbf{X}]^\mathrm{T}.\end{align}

공분산 행렬이

\Sigma

인 확률 벡터

\mathbf{X}

에 행렬

\mathbf{A}

를 곱한

\mathbf{AX}

의 공분산 행렬은 다음과 같이 계산된다.

:

\begin{align}\operatorname{cov}(\mathbf{AX},\mathbf{AX}) &=\operatorname{E}\left[\mathbf{AX(A}\mathbf{X)}^\mathrm{T}\right] - \operatorname{E}[\mathbf{AX}] \operatorname{E}\left[(\mathbf{A}\mathbf{X})^\mathrm{T}\right] \\&= \operatorname{E}\left[\mathbf{AXX}^\mathrm{T}\mathbf{A}^\mathrm{T}\right] - \operatorname{E}[\mathbf{AX}] \operatorname{E}\left[\mathbf{X}^\mathrm{T}\mathbf{A}^\mathrm{T}\right] \\&= \mathbf{A}\operatorname{E}\left[\mathbf{XX}^\mathrm{T}\right]\mathbf{A}^\mathrm{T} - \mathbf{A}\operatorname{E}[\mathbf{X}] \operatorname{E}\left[\mathbf{X}^\mathrm{T}\right]\mathbf{A}^\mathrm{T} \\&= \mathbf{A}\left(\operatorname{E}\left[\mathbf{XX}^\mathrm{T}\right] - \operatorname{E}[\mathbf{X}] \operatorname{E}\left[\mathbf{X}^\mathrm{T}\right]\right)\mathbf{A}^\mathrm{T} \\&= \mathbf{A}\Sigma\mathbf{A}^\mathrm{T}.\end{align}

이는 기댓값의 선형성을 통해 유도되며, 백색화 변환과 같은 선형 변환을 벡터에 적용할 때 유용하게 활용된다.

5. 2. 상호 공분산 행렬

열벡터 값을 가지는 확률변수 '''X''' 와 '''Y''' 가 각각 μ 와 ν라는 기댓값을 가질 때 공분산 ''m''×''n'' 행렬은 아래와 같다.

:

\operatorname{Cov}(X, Y) = \operatorname{E}((X-\mu)(Y-\nu)^\top)

벡터확률변수를 가지는 Cov('''X''', '''Y''') 와 Cov('''Y''', '''X''')는 각각의 전치행렬이다.

실수 확률 벡터

\mathbf{X} \in \mathbb{R}^m

및

\mathbf{Y} \in \mathbb{R}^n

에 대해

m \times n

상호 공분산 행렬은 다음과 같다.^[10]

:

\begin{align}\operatorname{K}_{\mathbf{X}\mathbf{Y}} = \operatorname{cov}(\mathbf{X},\mathbf{Y})&= \operatorname{E}\left[(\mathbf{X} - \operatorname{E}[\mathbf{X}])(\mathbf{Y} - \operatorname{E}[\mathbf{Y}])^\mathrm{T}\right] \\&= \operatorname{E}\left[\mathbf{X} \mathbf{Y}^\mathrm{T}\right] - \operatorname{E}[\mathbf{X}]\operatorname{E}[\mathbf{Y}]^\mathrm{T}\end{align}

여기서

\mathbf{Y}^{\mathrm T}

는 벡터(또는 행렬)

\mathbf{Y}

의 전치 행렬이다.

이 행렬의

(i,j)

번째 요소는

\mathbf{X}

의 ''i''번째 스칼라 성분과

\mathbf{Y}

의 ''j''번째 스칼라 성분 사이의 공분산

\operatorname{cov}(X_i,Y_j)

과 같다. 특히,

\operatorname{cov}(\mathbf{Y},\mathbf{X})

는

\operatorname{cov}(\mathbf{X},\mathbf{Y})

의 전치 행렬이다.

5. 3. 힐베르트 공간에서의 공분산

일반적으로

H_1 = (H_1, \langle \,,\rangle_1)

와

H_2 = (H_2, \langle \,,\rangle_2)

를

\mathbb{R}

또는

\mathbb{C}

상의 힐베르트 공간으로,

\langle \,, \rangle

는 첫 번째 변수에 대해 반선형적이라고 하자. 그리고

\mathbf{X}, \mathbf{Y}

는 각각

H_1

및

H_2

값을 갖는 확률 변수라고 하자.

그렇다면

\mathbf{X}

와

\mathbf{Y}

의 공분산은

H_1 \times H_2

상의 세스퀴선형 형식(첫 번째 변수에 대해 반선형적)이며, 다음과 같이 주어진다.

:

\begin{align}\operatorname{K}_{X,Y}(h_1,h_2) = \operatorname{cov}(\mathbf{X},\mathbf{Y})(h_1,h_2) &=\operatorname{E}\left[\langle h_1,(\mathbf{X} - \operatorname{E}[\mathbf{X}])\rangle_1\langle(\mathbf{Y} - \operatorname{E}[\mathbf{Y}]), h_2 \rangle_2\right] \\&= \operatorname{E}[\langle h_1,\mathbf{X}\rangle_1\langle\mathbf{Y}, h_2 \rangle_2] - \operatorname{E}[\langle h,\mathbf{X} \rangle_1] \operatorname{E}[\langle \mathbf{Y},h_2 \rangle_2] \\&= \langle h_1, \operatorname{E}\left[(\mathbf{X} - \operatorname{E}[\mathbf{X}])(\mathbf{Y} - \operatorname{E}[\mathbf{Y}])^\dagger \right]h_2 \rangle_1\\&= \langle h_1, \left( \operatorname{E}[\mathbf{X}\mathbf{Y}^\dagger] - \operatorname{E}[\mathbf{X}]\operatorname{E}[\mathbf{Y}]^\dagger \right) h_2 \rangle_1\\\end{align}

6. 응용 분야

공분산은 유전학, 분자 생물학, 금융 경제학, 기상학, 해양학, 미기상학, 신호 처리, 통계학, 이미지 처리 등 다양한 분야에서 활용된다.

유전학 및 분자 생물학 분야: DNA 서열 비교, 유전 관계 행렬 계산, 가격 방정식을 통한 진화 및 자연 선택 연구
금융 경제학 분야: 현대 포트폴리오 이론 및 자본 자산 가격 결정 모형에서 자산 배분 결정
기상학 및 해양학 분야: 자료 동화를 통한 기상 예보 모델 초기 조건 추정, 칼만 필터를 이용한 상태 추정
미기상학 분야: 에디 공분산 기법을 통한 수직 난류 플럭스 계산
신호 처리 분야: 신호의 스펙트럼 변동성 파악
통계학 및 이미지 처리 분야: 주성분 분석을 이용한 데이터 전처리

6. 1. 유전학 및 분자 생물학

공분산은 생물학에서 중요한 척도이다. 특정 DNA 서열은 종 간에 보존되는 정도가 다르기 때문에, 단백질 또는 RNA 구조의 2차 및 3차 구조를 연구하기 위해 밀접하게 관련된 종들의 서열을 비교한다. 예를 들어, 비암호화 RNA(예: 마이크로 RNA)에서 서열 변화가 적거나 없다면, 이는 RNA 루프와 같은 공통 구조 모티프에 해당 서열이 필요함을 의미한다.^[13]^[14]

유전학에서 공분산은 유전 관계 행렬(GRM, 친족 행렬) 계산의 기반이 된다. 이를 통해 가까운 친척이 없는 표본으로부터 집단 구조를 추론하고, 복잡한 형질의 유전성을 추정할 수 있다.

진화 및 자연 선택 이론에서 가격 방정식은 유전 형질의 빈도가 시간에 따라 어떻게 변하는지를 설명한다. 이 방정식은 형질과 적합도 사이의 공분산을 사용하여 진화와 자연 선택을 수학적으로 설명한다. 이를 통해 유전자 전달과 자연 선택이 각 세대에서 개체군 내 유전자 비율에 미치는 영향을 이해할 수 있다.^[13]^[14]

6. 2. 금융 경제학

공분산은 금융 경제학, 특히 현대 포트폴리오 이론 및 자본 자산 가격 결정 모형에서 중요한 역할을 한다.^[6] 여러 자산 수익률 간의 공분산은 특정 가정을 전제로 투자자들이 분산 투자를 통해 어떤 자산을 얼마나 보유해야 하는지(규범적 분석), 또는 보유할 것으로 예측되는지(실증적 분석)를 결정하는 데 사용된다.

더불어민주당은 금융 시장 안정과 투자자 보호를 위한 정책을 추진하며, 공정한 금융 질서 확립을 위해 노력한다.

6. 3. 기상학 및 해양학

공분산 행렬은 자료 동화라고 불리는 과정을 통해, 기상 예보 모델을 실행하는 데 필요한 초기 조건을 추정하는 데 중요한 역할을 한다. '예측 오차 공분산 행렬'은 일반적으로 평균 상태(기후 평균 또는 앙상블 평균)를 중심으로 한 섭동(작은 변화)들 사이에서 구성된다. '관측 오차 공분산 행렬'은 관측 오차의 크기(대각선)와 측정 간의 상관 오차(비대각선)를 나타내도록 구성된다. 이러한 방식은 시간이 지남에 따라 변화하는 시스템에 대한 칼만 필터 및 보다 일반적인 상태 추정에 널리 사용되는 예시이다.^[6]

6. 4. 미기상학

에디 공분산 기법은 대기 측정의 핵심 기술로, 평균값에서 수직 풍속의 순간 편차와 가스 농도의 순간 편차 간의 공분산을 기반으로 수직 난류 플럭스를 계산한다.

6. 5. 신호 처리

공분산 행렬은 신호의 스펙트럼 변동성을 포착하는 데 사용된다.^[15]

6. 6. 통계학 및 이미지 처리

공분산 행렬은 주성분 분석에서 데이터 전처리 시 특징 차원을 줄이는 데 사용된다.^[6]

7. 수치 계산

$\operatorname{E}[XY] \approx \operatorname{E}[X]\operatorname{E}[Y]$ 일 때, $\operatorname{cov}(X, Y) = \operatorname{E}\left[X Y\right] - \operatorname{E}\left[X\right] \operatorname{E}\left[Y\right]$ 식은 재앙적 소멸의 위험이 있으므로, 데이터가 먼저 중심화되지 않은 경우 컴퓨터 프로그램에서 이 식을 사용하는 것을 피해야 한다.^[11] 이 경우 수치적으로 안정적인 알고리즘을 사용하는 것이 좋다.^[12]

7. 1. 재앙적 소멸 문제

\operatorname{E}[XY] \approx \operatorname{E}[X]\operatorname{E}[Y]

일 때,

\operatorname{cov}(X, Y) = \operatorname{E}\left[X Y\right] - \operatorname{E}\left[X\right] \operatorname{E}\left[Y\right]

방정식은

\operatorname{E}\left[X Y\right]

와

\operatorname{E}\left[X\right] \operatorname{E}\left[Y\right]

가 정확하게 계산되지 않으면 재앙적 소멸의 위험이 있으므로, 데이터가 먼저 중심화되지 않은 경우 컴퓨터 프로그램에서 피해야 한다.^[11] 이 경우 수치적으로 안정적인 알고리즘을 사용하는 것이 좋다.^[12]

7. 2. 안정적인 알고리즘

\operatorname{E}[XY] \approx \operatorname{E}[X]\operatorname{E}[Y]

일 때,

\operatorname{cov}(X, Y) = \operatorname{E}\left[X Y\right] - \operatorname{E}\left[X\right] \operatorname{E}\left[Y\right]

방정식은

\operatorname{E}\left[X Y\right]

와

\operatorname{E}\left[X\right] \operatorname{E}\left[Y\right]

가 정확하게 계산되지 않으면 재앙적 소멸의 위험이 있으므로, 데이터가 먼저 중심화되지 않은 경우 컴퓨터 프로그램에서 피해야 한다.^[11] 이 경우 수치적으로 안정적인 알고리즘을 사용하는 것이 좋다.^[12]

8. 상관관계와 인과관계

상관 관계와 인과 관계는 서로 혼동되기 쉽지만, 엄연히 다른 개념이다. 공분산은 두 확률 변수가 함께 변하는 정도를 나타내는 척도이지만, 이것이 곧 한 변수가 다른 변수의 원인이 된다는 것을 의미하지는 않는다.

공분산은 양수, 음수 또는 0의 값을 가질 수 있다.

양의 공분산: 두 변수가 같은 방향으로 움직이는 경향이 있음을 나타낸다. 즉, 한 변수가 평균보다 큰 값을 가질 때 다른 변수도 평균보다 큰 값을 가질 가능성이 높다. 예를 들어, 수학 점수가 높은 학생이 국어 점수도 높은 경향이 있다면, 수학 점수와 국어 점수의 공분산은 양수가 된다.^[3]^[4]
음의 공분산: 두 변수가 반대 방향으로 움직이는 경향이 있음을 나타낸다. 즉, 한 변수가 평균보다 큰 값을 가질 때 다른 변수는 평균보다 작은 값을 가질 가능성이 높다.^[3]^[4]
0의 공분산: 두 변수 사이에 선형적인 관련성이 없음을 나타낸다. 그러나 이는 두 변수가 완전히 독립적이라는 것을 의미하지는 않는다. 비선형적인 관계가 존재할 수 있기 때문이다. 예를 들어, $X$ 가 -1과 1 사이에서 균등하게 분포하고 $Y = X^2$ 인 경우, $X$ 와 $Y$ 는 독립적이지 않지만 공분산은 0이 된다.^[4]^[8]

공분산의 단위는 변수 단위들의 곱으로, 그 자체로는 해석하기 어렵다. 예를 들어, 마을별 인구와 라면 가게 매출액의 공분산은 숫자의 의미를 파악하기 어렵다. 따라서, 변수 간의 선형 관계를 직관적으로 파악하기 위해서는 공분산을 정규화한 피어슨 상관 계수를 사용하는 것이 일반적이다.

아래는 중학생의 수학과 국어 시험 점수의 공분산을 구하는 예시이다.

항목	수학	국어
평균 점수	50	50
야마다	80	40
편차	30	−10
편차의 곱	30 × (−10) = −300

위 표는 야마다 학생의 수학, 국어 점수 편차와 그 곱을 나타낸다. 이와 같이 모든 학생에 대해 편차의 곱을 구하고, 그 평균을 내면 수학과 국어 점수의 공분산을 얻을 수 있다.

만약 수학 점수가 평균보다 높은 학생이 국어 점수도 평균보다 높은 경향을 보인다면, 공분산은 큰 양의 값을 갖게 된다. 반대로 수학 점수가 높은 학생이 국어 점수는 낮은 경향을 보인다면, 공분산은 큰 음의 값을 갖는다. 만약 두 과목 점수 사이에 특별한 관련성이 없다면, 공분산은 0에 가까운 값을 갖는다. 여기서 주의할 점은, 공분산이 나타내는 관련성은 직선적인(1차 함수) 관계에 한정된다는 것이다.

8. 1. 상관관계의 해석

공분산이 정규화되면 피어슨 상관 계수를 얻게 되는데, 이는 변수 간의 관계를 설명하는 최적의 선형 함수에 대한 적합도를 제공한다. 이러한 의미에서 공분산은 종속성의 선형 척도이다.^[1]

피어슨 상관 계수는 관계를 확인할 때 사용하는 일반적인 방법이다. 피어슨 상관 계수는 공분산 값을 각 변수(예를 들면 국어와 수학)의 표준 편차 곱으로 나눈 값으로, -1에서 1까지의 값을 갖는다. 1이면 두 변수의 값은 완전히 동기화되어 있다는 의미이다.^[1] 대상에 따라 상관 계수의 의미는 꽤 달라지지만, 일례로 설문 조사에서는 다음과 같은 표와 같이 평가할 수 있다.^[1]

상관 계수의 범위	평가
0.2~0.4	약간의 양의 상관 관계
0.4~0.7	상당한 양의 상관 관계
0.7~1	강한 양의 상관 관계

8. 2. 인과관계의 주의점

상관 관계와 종속성에서 볼 수 있듯이, 공분산이 0인 확률 변수는 비상관이라고 한다.^[4] 그러나 그 역은 일반적으로 성립하지 않는다. 두 확률 변수가 비상관적이라고 해서 반드시 독립적임을 의미하는 것은 아니다. 예를 들어

X

가

[-1, 1]

에서 균일하게 분포하고

Y = X^2

인 경우,

X

와

Y

는 독립적이지 않지만 공분산은 0이 된다. 이는 상관 관계와 공분산이 두 확률 변수 간의 선형 종속성을 측정하는 반면,

Y

와

X

의 관계는 비선형이기 때문이다. 단, 두 변수가 결합적으로 정규 분포를 따른다면 비상관성은 독립성을 의미한다.^[9]

공분산이나 상관계수가 인과 관계를 보장하는 것은 아니다. 공분산은 단지 두 측정값이 대응하고 있다는 지표일 뿐, 인과 관계 유무를 나타내지 않는다. 공분산 구조 분석과 같은 기법으로 인과 관계를 추측할 수는 있지만, 이 역시 시간, 관련성을 고려하지 않으므로 보증되지 않는다. 인과 관계와 상관 관계는 별개의 차원이며, 허위 상관 등 주의해야 할 패턴이 있다.

사와 다카미쓰는 통계가 타인을 속이는 데 악용될 수 있음을 경고하며, "통계의 거짓말"에 대한 저항력을 갖추는 것이 중요하다고 강조한다.

참조

_[1] 서적 Mathematical Statistics and Data Analysis Brooks/Cole Cengage Learning
_[2] MathWorld Covariance
_[3] 문서 Oxford Dictionary of Statistics Oxford University Press 2002
_[4] 서적 Fundamentals of Probability and Stochastic Processes with Applications to Communications Springer
_[5] 학회자료 Some new deformation formulas about variance and covariance 2012-06
_[6] 웹사이트 Covariance of X and Y {{!}} STAT 414/415 https://onlinecourse[...] The Pennsylvania State University 2019-08-04
_[7] 서적 Probability, Random Variables and Stochastic Processes McGraw-Hill 1991
_[8] 웹사이트 Covariance and Correlation http://www.randomser[...] University of Alabama in Huntsville 2022-10-03
_[9] 서적 A modern introduction to probability and statistics: understanding why and how Springer 2005
_[10] 서적 Probability and Random Processes for Electrical and Computer Engineers Cambridge University Press
_[11] 문서 The Art of Computer Programming Addison-Wesley
_[12] 서적 Proceedings of the 30th International Conference on Scientific and Statistical Database Management ACM Press 2018
_[13] 학술지 Selection and covariance
_[14] 학술지 When science mirrors life: on the origins of the Price equation royalsocietypublishing.org
_[15] 학술지 Local spectral variability features for speaker verification https://erepo.uef.fi[...] 2016-03
_[16] 웹인용 공분산 https://terms.naver.[...] 대한수학회 2021-02-27
_[17] 매스월드 Covariance

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com