가우스-마르코프 정리

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 선형 회귀 모델과 최소제곱추정량
3. 가우스-마르코프 정리의 가정
4. 가우스-마르코프 정리의 내용
5. 가우스-마르코프 정리의 증명
6. 가우스-마르코프 정리의 의미와 한계
- 6.1. 의미
- 6.2. 한계
7. 가우스-마르코프 정리의 확장
- 7.1. 일반화 최소제곱법 (Generalized Least Squares, GLS)
- 7.2. 기타 추정 방법
참조

1. 개요

가우스-마르코프 정리는 선형 회귀 모형에서 오차항이 특정 가정을 만족할 경우, 최소제곱 추정량(OLS)이 최량 선형 불편 추정량(BLUE)임을 설명하는 정리이다. 이 정리는 오차항의 평균이 0이고, 동분산적이며, 서로 상관관계가 없다는 가정을 바탕으로 한다. 가우스-마르코프 정리는 최소제곱 추정량의 효율성을 보장하며, 일반화 최소제곱법(GLS) 등으로 확장된다.

더 읽어볼만한 페이지

통계학 정리 - 베이즈 정리
베이즈 정리는 조건부 확률을 계산하는 방법으로, 사건 A가 일어났을 때 사건 B가 일어날 확률과 사건 B가 일어났을 때 사건 A가 일어날 확률 사이의 관계를 나타내며 사전 확률과 가능도를 이용하여 사후 확률을 계산하고 다양한 분야에서 활용된다.
통계학 정리 - 중심 극한 정리
중심 극한 정리는 독립적인 확률 변수들의 합이 특정 조건에서 정규 분포에 가까워지는 현상을 설명하는 확률론 및 통계학의 중요 정리로, 통계적 추론, 가설 검정 등 다양한 분야에 활용되며 여러 변형이 존재한다.

가우스-마르코프 정리
가우스-마르코프 정리
분야	선형 회귀
다른 이름	최소 분산 불편 추정량 (BLUE) 정리
내용
설명	선형 회귀 모형에서, 오차가 기댓값 0과 상수 분산을 가지고 상관관계가 없을 때, 최소제곱 추정량은 가장 분산이 작은 선형 불편 추정량이다.
관련 항목
관련 개념	선형 회귀, 최소제곱법, 불편 추정량

2. 선형 회귀 모델과 최소제곱추정량

선형 회귀 모델은 종속 변수 Y와 p개의 설명 변수 $X_{k,1}, \dots, X_{k,p}$ 및 오차항 $\varepsilon_k$ 사이의 관계를 다음과 같이 선형적으로 모델링한다.

$Y_k = \beta_0 + \beta_1 X_{k,1} + \beta_2 X_{k,2} + \cdots + \beta_p X_{k,p} + \varepsilon_k, \quad k=1, \dots, n.$

여기서 $\beta_0, \beta_1, \dots, \beta_p$ 는 모델의 모수이며, $\varepsilon_k$ 는 각 관측값에서의 오차를 나타낸다.

주어진 n개의 관측 데이터 $(y_k; x_{k,1}, \dots, x_{k,p})$ (단, $n \ge p+1$ )에 대해, 잔차(실제 관측값과 모델 예측값의 차이)의 제곱합을 최소화하는 모수 $(\beta_0, \beta_1, \dots, \beta_p)$ 의 추정치를 최소제곱 추정량(Ordinary Least Squares, OLS)이라고 한다. 최소화하려는 잔차 제곱합(Sum of Squared Residuals, SSR)은 다음과 같다.

$\sum_{k=1}^n \left\{y_k - (\beta_0 + \beta_1 x_{k,1} + \beta_2 x_{k,2} + \cdots + \beta_p x_{k,p})\right\}^2$

이 모델과 추정 과정은 행렬을 사용하여 간결하게 표현할 수 있다.

$\mathbf{Y} = \begin{bmatrix} Y_1 \\ Y_2 \\ \vdots \\ Y_n \end{bmatrix},\ \mathbf{X} = \begin{bmatrix}1 & x_{11} & x_{12} & \dots & x_{1p} \\1 & x_{21} & x_{22} & \dots & x_{2p} \\\vdots & \vdots & \vdots & & \vdots \\1 & x_{n1} & x_{n2} & \dots & x_{np}\end{bmatrix},\ \boldsymbol{\beta} = \begin{bmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_p \end{bmatrix},\ \boldsymbol{\varepsilon} = \begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \end{bmatrix}$

여기서 $\mathbf{Y}$ 는 종속 변수 벡터, $\mathbf{X}$ 는 설명 변수 데이터와 절편항(1로 구성된 첫 번째 열)을 포함하는 설계 행렬, $\boldsymbol{\beta}$ 는 모수 벡터, $\boldsymbol{\varepsilon}$ 는 오차 벡터이다. 이를 이용하면 선형 회귀 모델은 다음과 같이 표현된다.

$\mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}$

최소제곱 추정량 벡터 $\widehat{\boldsymbol{\beta}}$ 는 잔차 제곱합 $(\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})^\top(\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})$ 를 최소화하는 값으로, 다음과 같은 공식으로 계산된다.

$\widehat{\boldsymbol{\beta}} = (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top \mathbf{Y}$

단, $(\mathbf{X}^\top\mathbf{X})$ 행렬이 역행렬을 가져야 한다. 여기서 상첨자 $\top$ 은 전치 행렬을 의미한다. 이 $\widehat{\boldsymbol{\beta}}$ 가 바로 최소제곱법(OLS)에 의한 모수 추정치이다.

3. 가우스-마르코프 정리의 가정

선형 회귀 모형이 다음과 같이 주어진다고 가정한다.

: $y = X \beta + \varepsilon$

이는 각 관측치 $i$ 에 대해 다음과 같이 표현될 수 있다.

: $y_i=\sum_{j=1}^{K}\beta_j X_{ij}+\varepsilon_i \quad (i=1, 2, \ldots, n)$

여기서 $y_i$ 는 $i$ 번째 관측값, $X_{ij}$ 는 $i$ 번째 관측치의 $j$ 번째 설명 변수, $\beta_j$ 는 $j$ 번째 모수, 그리고 $\varepsilon_i$ 는 $i$ 번째 오차항이다. 이때 $\beta_j$ 는 관측할 수 없는 상수이며, $X_{ij}$ 는 관측 가능한 상수이다. 오차항 $\varepsilon_i$ 는 확률 변수이므로, 종속 변수 $y_i$ 도 확률 변수가 된다.
가우스-마르코프 정리는 최소제곱 추정량(OLS)이 특정 조건 하에서 최량 선형 불편 추정량(BLUE)임을 보이는 정리이다. 이 정리가 성립하기 위한 핵심 가정들은 오차항 $\varepsilon_i$ 의 확률적 성질에 관한 것이다. 고전적인 가정은 다음과 같다.

오차항의 평균은 0이다: 각 오차항의 기댓값은 0이다. 이는 모형이 평균적으로 실제 값을 잘 예측하며, 체계적인 편향이 없음을 의미한다. (관련 하위 섹션: 불편성)

:

\operatorname{E}[\varepsilon_i]=0 \quad \text{for all } i

동분산성: 모든 오차항은 동일하고 유한한 분산 $\sigma^2$ 를 가진다. 즉, 관측값에 관계없이 오차의 변동성이 일정하다. (관련 하위 섹션: 등분산성)

:

\operatorname{Var}(\varepsilon_i)= \sigma^2 < \infty \quad \text{for all } i

무상관성: 서로 다른 관측치에 해당하는 오차항들은 서로 상관관계가 없다. 즉, 한 관측치의 오차가 다른 관측치의 오차에 영향을 주지 않는다. (관련 하위 섹션: 무상관성)

:

\text{Cov}(\varepsilon_i,\varepsilon_j) = 0 \quad \text{for all } i \neq j

이 세 가지 가정을 벡터와 행렬을 사용하여 요약하면 다음과 같다. 오차 벡터

\boldsymbol{\varepsilon} = [\varepsilon_1, \dots, \varepsilon_n]^\operatorname{T}

에 대해,

1.

E[\boldsymbol{\varepsilon}]= \mathbf{0}

(평균 0 벡터)

2.

\operatorname{Cov}[\boldsymbol{\varepsilon}] = E[\boldsymbol{\varepsilon}\boldsymbol{\varepsilon}^\operatorname{T}] = \sigma^2 \boldsymbol{I}_n

(분산-공분산 행렬)

여기서

\mathbf{0}

은 영벡터,

\boldsymbol{I}_n

은

n \times n

단위 행렬이다. 두 번째 가정은 오차항들이 동분산성을 가지며 서로 상관되어 있지 않음을 동시에 나타낸다. 이러한 오차를 구형 오차(spherical errors)라고도 부른다.

이 가정들은 오차항의 분포에 대한 특정 형태(예: 정규 분포)를 요구하지 않으며, 오차항 간의 독립성보다 약한 조건인 무상관성을 가정한다.

계량경제학 등 특정 분야에서는 설명 변수

X

를 확률 변수로 간주하고, 위 가정들을

X

에 대한 조건부 기댓값과 조건부 분산으로 해석하는 등 추가적인 가정을 고려하기도 한다. (관련 하위 섹션: 추가 가정 (계량경제학))

3. 1. 불편성 (Unbiasedness)

가우스-마르코프 정리는 특정 가정 하에서 최소 자승 추정량(OLS)이 최량 선형 불편 추정량(BLUE)임을 보이는 정리이다. 이 가정 중 하나가 오차항의 불편성(Unbiasedness)이다.

선형 회귀 모형은 다음과 같이 표현된다.

:

y = X \beta + \varepsilon

여기서

y

는 관측값 벡터,

X

는 설명 변수 행렬,

\beta

는 추정하고자 하는 모수 벡터,

\varepsilon

는 오차항 벡터이다. 각 관측값에 대해선 다음과 같다.

:

y_i=\sum_{j=1}^{K}\beta_j X_{ij}+\varepsilon_i \quad (i=1, 2, \ldots, n)

가우스-마르코프 가정 중 불편성은 오차항

\varepsilon_i

의 기댓값이 0이라는 것이다.

:

\operatorname{E}[\varepsilon_i]=0

벡터 형태로 표현하면 다음과 같다.

:

E[\boldsymbol{\varepsilon}]=0

이는 오차항들이 평균적으로 0 주변에 분포하며, 체계적인 편향(bias)이 없음을 의미한다. 이 가정은 정규 분포와 같은 특정 분포를 가정하지는 않는다.

모수

\beta_j

의 선형 추정량은 관측값

y_i

들의 선형 결합으로 표현된다.

:

\widehat\beta_j = c_{1j}y_1+\cdots+c_{nj}y_n = \sum_{i=1}^n c_{ij} y_i

여기서 계수

c_{ij}

는 설명 변수

X_{ij}

에 의존할 수 있지만, 실제 모수

\beta_j

에는 의존하지 않는다.

추정량

\widehat\beta_j

가 불편 추정량(unbiased estimator)이라는 것은 그 추정량의 기댓값이 실제 모수

\beta_j

와 같다는 의미이다.

:

\operatorname{E}\left [\widehat\beta_j \right ]=\beta_j

이는 설명 변수

X_{ij}

의 값에 관계없이 성립해야 한다.

최소 자승 추정량(OLS)

\widehat\beta

는 잔차 제곱합을 최소화하는 값으로 다음과 같이 정의된다.

:

\widehat\beta=(X^\operatorname{T}X)^{-1}X^\operatorname{T}y

여기서

X^\operatorname{T}

는 행렬

X

의 전치 행렬이다.

OLS 추정량

\widehat\beta

는 가우스-마르코프 가정 하에서 불편 추정량이다. 이를 확인하기 위해

\widehat\beta

의 기댓값을 계산하면 다음과 같다.

:

\begin{align}\operatorname{E}[\widehat\beta] &= \operatorname{E}[(X^\operatorname{T}X)^{-1}X^\operatorname{T}y] \\&= \operatorname{E}[(X^\operatorname{T}X)^{-1}X^\operatorname{T}(X\beta + \varepsilon)] \\&= \operatorname{E}[(X^\operatorname{T}X)^{-1}X^\operatorname{T}X\beta + (X^\operatorname{T}X)^{-1}X^\operatorname{T}\varepsilon] \\&= (X^\operatorname{T}X)^{-1}X^\operatorname{T}X\beta + \operatorname{E}[(X^\operatorname{T}X)^{-1}X^\operatorname{T}\varepsilon] \quad (\text{설명 변수 } X \text{와 모수 } \beta \text{는 비확률적이므로 기댓값 밖으로 나올 수 있다}) \\&= I_K\beta + (X^\operatorname{T}X)^{-1}X^\operatorname{T}\operatorname{E}[\varepsilon] \quad (\text{여기서 } I_K \text{는 } K \times K \text{ 단위 행렬이다}) \\&= \beta + (X^\operatorname{T}X)^{-1}X^\operatorname{T}\cdot 0 \quad (\because \text{불편성 가정 } \operatorname{E}[\varepsilon]=0) \\&= \beta\end{align}

따라서 OLS 추정량

\widehat\beta

는 실제 모수

\beta

의 불편 추정량임을 알 수 있다. 즉, 평균적으로 OLS 추정량은 실제 모수 값을 정확히 추정한다.

3. 2. 등분산성 (Homoscedasticity)

가우스-마르코프 정리의 기본 가정 중 하나는 오차항

\boldsymbol{\varepsilon}

의 등분산성(Homoscedasticity)과 무상관성이다. 이는 수학적으로 다음과 같이 표현된다.^[13]

:

\operatorname{Cov}[\boldsymbol{\varepsilon}] = \sigma^2 \boldsymbol{I}

여기서

\boldsymbol{I}

는 단위 행렬이며,

\sigma^2

는 모든 오차항

\varepsilon_i

가 갖는 동일하고 유한한 분산을 의미한다 (

\operatorname{Var}(\varepsilon_i)= \sigma^2 < \infty

for all i). 또한, 서로 다른 오차항들은 상관관계가 없음을 의미한다 (

\text{Cov}(\varepsilon_i,\varepsilon_j) = 0, \forall i \neq j.

). 즉, 오차항의 분산이 모든 관측치에서 일정하며, 오차항끼리는 서로 영향을 주지 않는다는 가정이다.

이 가정은 오차 벡터

\boldsymbol{\varepsilon}

의 외적 기댓값이 다음과 같은 형태임을 의미하며, 이를 구형 오차(spherical errors) 조건이라고도 부른다.^[13]

:

\operatorname{E}[\,\boldsymbol{\varepsilon} \boldsymbol{\varepsilon}^{\operatorname{T}} \mid \mathbf{X} ] = \operatorname{Var}[\,\boldsymbol{\varepsilon} \mid \mathbf{X} ] = \sigma^{2} \mathbf{I}

"구형 오차"라는 용어는 다변량 정규 분포와 관련이 있다. 만약 오차항이 다변량 정규 분포를 따르고 위 등분산성 및 무상관성 조건이 성립한다면, 확률 밀도 함수의 값이 일정한 지점들의 집합(등고선)이

n

차원 공간에서 원점을 중심으로 하는 구 형태를 띠기 때문에 이러한 이름이 붙었다.^[14]

등분산성 가정은 최소제곱법(OLS)으로 구한 추정량이 최량 선형 불편향 추정량(BLUE)이 되기 위한 핵심 조건 중 하나이다. 만약 이 가정이 위반되어 이분산성이나 자기상관이 존재한다면, OLS 추정량은 여전히 불편향성을 가질 수는 있지만, 분산이 가장 작은, 즉 가장 효율적인 추정량은 아니게 된다.^[13]

등분산성 가정이 현실에서 충족되지 않는 대표적인 경우는 다음과 같다.

이분산성 (Heteroscedasticity): 오차항의 분산이 모든 관측치에서 동일하지 않고, 독립 변수의 값에 따라 체계적으로 변하는 경우이다. 예를 들어, 소득 수준( $X$ )과 식비 지출( $Y$ ) 사이의 관계를 분석할 때, 소득이 낮은 사람들은 식비 지출액이 비슷비슷하여 오차의 분산이 작지만, 소득이 높은 사람들은 매우 많이 지출하거나 혹은 적게 지출하는 등 지출액의 편차가 커서 오차의 분산이 클 수 있다. 이러한 경우 이분산성이 존재한다고 말한다. 또한, 데이터 수집 기술의 발달로 시간이 지남에 따라 측정 오차가 줄어드는 경우에도 시계열 데이터에서 이분산성이 나타날 수 있다.

자기상관 (Autocorrelation): 주로 시계열 데이터에서 문제가 되며, 서로 다른 시점의 오차항 간에 상관관계가 존재하는 경우이다. 예를 들어, 어떤 시점의 오차항(실제값과 예측값의 차이)이 양(+)의 값을 가질 때, 바로 다음 시점의 오차항도 양(+)의 값을 가질 경향이 있다면 양의 자기상관이 있다고 한다. 이는 경제 현상이 외부 충격의 영향을 즉각적으로 받지 않고 서서히 받기 때문에 나타나는 관성(inertia) 때문일 수도 있고, 회귀 모형 설정 자체가 잘못되었을 때(예: 중요한 설명 변수 누락, 변수 간의 함수 관계를 잘못 설정) 발생할 수도 있다. 공간 데이터에서도 지리적으로 가까운 지역의 오차들이 서로 비슷한 경향을 보이는 공간 자기상관 문제가 발생할 수 있다.

이처럼 등분산성 및 무상관성 가정이 위반될 경우(즉, 구형 오차 가정이 깨질 경우), OLS 대신 일반화 최소제곱법(Generalized Least Squares, GLS)과 같은 다른 추정 방법을 사용하면 BLUE 속성을 만족하는 추정량을 얻을 수 있다.^[6] 경우에 따라서는 잘못 설정된 모형 자체를 수정하는 것이 근본적인 해결책이 될 수도 있다.

3. 3. 무상관성 (No Autocorrelation)

가우스-마르코프 정리의 기본 가정 중 하나는 오차항 간의 무상관성(no autocorrelation)이다. 이는 서로 다른 관측값에 해당하는 오차항들 사이에 상관관계가 존재하지 않음을 의미한다. 즉, 어떤 관측값의 오차항(

\varepsilon_i

)이 다른 관측값의 오차항(

\varepsilon_j

)의 크기나 부호에 영향을 주지 않는다는 가정이다. 수학적으로는 다음과 같이 표현된다.

:

\operatorname{Cov}(\varepsilon_i, \varepsilon_j) = 0 \quad (\forall i \neq j)

오차항 벡터

\boldsymbol{\varepsilon}

전체에 대해 보면, 이 가정은 오차항의 공분산 행렬이 대각 행렬(diagonal matrix) 형태임을 뜻한다. 만약 등분산성 가정(

\operatorname{Var}(\varepsilon_i) = \sigma^2

)까지 만족하면, 공분산 행렬은 다음과 같이 표현된다.

:

\operatorname{Cov}[\boldsymbol{\varepsilon}] = \operatorname{E}[\,\boldsymbol{\varepsilon} \boldsymbol{\varepsilon}^{\operatorname{T}} \mid \mathbf{X} ] = \sigma^2 \boldsymbol{I}

여기서

\boldsymbol{I}

는 단위 행렬이며,

\sigma^2

는 모든 오차항의 공통된 분산이다. 이처럼 오차항이 등분산성과 무상관성을 모두 만족하는 상태를 구형 오차(spherical errors) 가정이라고 부르기도 한다.^[13]^[14] 구형 오차라는 이름은 오차항 벡터가 다변량 정규 분포를 따를 경우, 확률 밀도 함수의 등고선이 원점을 중심으로 하는 구 형태를 띠기 때문에 붙여졌다.^[14]

무상관성 가정은 오차항들이 서로 독립이라는 가정보다는 약한 조건이다. 또한, 이 가정을 위해 오차항이 정규 분포와 같은 특정 확률 분포를 따라야 할 필요는 없다.

=== 자기상관 ===

무상관성 가정이 위반되는 경우, 즉 오차항들 사이에 상관관계가 존재하는 경우를 자기상관(autocorrelation) 또는 계열상관(serial correlation)이라고 한다. 자기상관은 주로 다음과 같은 상황에서 발생할 수 있다.

시계열 데이터 분석: 경제 지표나 주가와 같이 시간에 따라 관측되는 데이터에서는 과거 시점의 오차항(충격)이 현재 시점의 오차항에 영향을 미치는 경향이 있다. 이를 데이터의 "관성"이라고 표현하기도 한다. 예를 들어, 어떤 경제 충격의 효과가 여러 기간에 걸쳐 지속될 때 자기상관이 나타날 수 있다.
공간 데이터 분석: 특정 지역의 특성(예: 주택 가격, 환경 오염도)을 분석할 때, 지리적으로 인접한 지역들은 유사한 오차항을 가질 가능성이 있다. 이를 공간 자기상관이라고 한다.
모델 설정 오류: 회귀 모형에 중요한 설명 변수가 누락되었거나, 변수 간의 관계를 잘못된 함수 형태(예: 비선형 관계를 선형으로 가정)로 설정한 경우에도 잔차에 패턴이 나타나며 자기상관이 발생할 수 있다.

자기상관의 존재 여부는 잔차도(residual plot)를 통해 시각적으로 확인하거나, 더빈-왓슨 통계량 등의 통계적 검정을 통해 진단할 수 있다. 잔차도에서 잔차들이 무작위로 흩어져 있지 않고 특정 패턴(예: 물결 모양, 특정한 군집)을 보인다면 자기상관을 의심해 볼 수 있다.

자기상관이 존재할 경우, 최소자승법(OLS)으로 구한 회귀 계수 추정량은 여전히 불편성은 만족하지만, 더 이상 최량선형불편추정량(BLUE)이 되지 못한다. 즉, 추정량의 분산이 최소가 아니므로 효율성을 잃게 된다.^[13] 이는 회귀 계수의 표준오차가 실제보다 작게 추정되어 가설 검정 시 오류를 범할 가능성이 커진다는 것을 의미한다.

자기상관 문제에 대처하기 위한 방법으로는 모델 설정을 변경하거나(예: 누락 변수 추가, 변수 변환, 함수 형태 수정), 오차항의 상관 구조를 모형에 반영하는 일반화 최소제곱법(Generalized Least Squares, GLS) 또는 HAC(Heteroskedasticity and Autocorrelation Consistent) 표준오차를 사용하는 방법 등이 있다.^[6]

3. 4. 추가 가정 (계량경제학)

OLS(Ordinary Least Squares)에 대한 대부분의 설명에서는 설계 행렬

\mathbf{X}

의 회귀 변수들이 반복 표본에서 고정된 것으로 가정한다. 그러나 이러한 가정은 주로 비실험적인 과학인 계량경제학에는 적절하지 않다고 여겨진다.^[7] 대신, 계량경제학에서는 가우스-마르코프 정리의 가정을

\mathbf{X}

에 대한 조건부로 명시한다.
1. 모형의 선형성종속 변수는 모형에 명시된 변수들의 선형 함수라고 가정한다. 여기서 중요한 점은 모형이 매개변수에 대해 선형이어야 한다는 것이다. 즉, 독립 변수와 종속 변수 간의 관계 자체가 반드시 선형일 필요는 없다. 독립 변수는 비선형 형태를 가질 수 있지만, 그에 곱해지는 매개변수는 선형이어야 한다.

예를 들어,

y = \beta_{0} + \beta_{1} x^2

와 같은 식은

\beta_0

와

\beta_1

에 대해 선형이므로 이 가정을 만족한다. 하지만

y = \beta_{0} + \beta_{1}^2 x

와 같은 식은

\beta_1

에 대해 비선형이다. 다만, 이 경우

\gamma = \beta_1^2

와 같이 새로운 매개변수를 정의하면

y = \beta_{0} + \gamma x

로 선형 변환이 가능하다. 만약 매개변수 자체가 독립 변수에 의존하는 형태, 예를 들어

y = \beta_{0} + \beta_{1}(x) \cdot x

와 같은 식은 선형으로 간주되지 않는다.

자료 변환은 종종 비선형적인 관계를 선형 형태로 바꾸는 데 사용된다. 경제학에서 자주 사용되는 콥-더글러스 생산 함수는 원래 비선형 형태이다.

:

Y = A L^\alpha K^{1 - \alpha} e^\varepsilon

하지만 양변에 자연 로그를 취하면 선형 형태로 변환할 수 있다.^[8]

:

\ln Y=\ln A + \alpha \ln L + (1 - \alpha) \ln K + \varepsilon = \beta_0 + \beta_1 \ln L + \beta_2 \ln K + \varepsilon

여기서

\beta_0 = \ln A

,

\beta_1 = \alpha

,

\beta_2 = 1 - \alpha

이다.

이 가정은 또한 모형 설정이 올바르다는 것을 의미한다. 즉, 적절한 함수 형태가 선택되었고, 중요한 변수가 누락되지 않았다고 가정한다 (누락 변수 편향이 없어야 함).

주의할 점은, 변환된 식의 오차항을 최소화하는 매개변수가 반드시 원래 식의 오차항을 최소화하지는 않는다는 것이다.
2. 설명 변수에 대한 조건부 오차항의 기댓값은 0 (외생성)모든 관측치

i

에 대해, 주어진 설명 변수

\mathbf{X}

하에서 오차항

\varepsilon_i

의 조건부 기댓값은 0이어야 한다.^[9]

:

\operatorname{E}[\,\varepsilon_{i}\mid \mathbf{X} ] = \operatorname{E}[\,\varepsilon_{i}\mid \mathbf{x}_{1}, \dots, \mathbf{x}_{n} ] = 0.

여기서

\mathbf{x}_i

는

i

번째 관측치의 설명 변수 벡터이고,

\mathbf{X}

는 모든 관측치의 설명 변수 데이터를 모아놓은 행렬이다.

기하학적으로 이 가정은 설명 변수 벡터

\mathbf{x}_j

와 오차항

\varepsilon_i

가 서로 직교한다는 것을 의미한다. 즉, 이들의 내적 (교차 모멘트)의 기댓값이 0이다.

:

\operatorname{E}[\,\mathbf{x}_{j} \cdot \varepsilon_{i}\,] = \mathbf{0} \quad \text{for all } i, j \in \{1, \dots, n\}

이 가정은 설명 변수가 측정 오차를 포함하거나(변수 내 오류 모델), 내생성을 가질 때 위반된다.^[10] 내생성은 종속 변수와 독립 변수 간의 인과관계가 양방향으로 작용할 때 발생할 수 있다. 이러한 문제는 도구 변수 기법 등을 사용하여 해결하기도 한다.
3. 설계 행렬의 완전 계수 (다중 공선성 없음)표본 데이터로 구성된 설계 행렬

\mathbf{X}

는 완전한 열 계수(full column rank)를 가져야 한다. 즉, 행렬

\mathbf{X}

의 계수(rank)는 추정하려는 매개변수의 개수

k

와 같아야 한다.

:

\operatorname{rank}(\mathbf{X}) = k

만약 이 조건이 만족되지 않으면,

\mathbf{X}^\operatorname{T} \mathbf{X}

행렬의 역행렬이 존재하지 않아 OLS 추정량을 계산할 수 없다.

이 가정이 위반되는 대표적인 경우는 다중 공선성이다. 이는 일부 설명 변수들이 서로 선형적으로 종속되어 있는 경우를 말한다. 예를 들어, 더미 변수를 사용할 때 기준이 되는 더미 변수를 생략하지 않으면, 다른 더미 변수들과 상수항 간에 완벽한 선형 관계가 발생하여 "더미 변수 함정"에 빠지게 된다.^[11]

완벽하지 않은 다중 공선성(즉, 설명 변수 간 상관관계가 매우 높지만 완전하지는 않은 경우)이 존재하더라도 OLS 추정량은 여전히 편향되지 않지만, 효율성이 떨어지게 된다. 즉, 추정치의 분산이 커져서 덜 정확해지고, 특정 데이터 집합에 매우 민감하게 반응할 수 있다.^[12] 다중 공선성은 조건수나 분산 팽창 요인(VIF) 등을 통해 진단할 수 있다.
4. 오차의 구형성 (동분산성 및 자기상관 없음)오차 벡터

\boldsymbol{\varepsilon}

의 조건부 분산-공분산 행렬은 모든 대각 원소가 동일한 양의 상수(

\sigma^2

)이고 비대각 원소는 모두 0인 형태여야 한다. 이를 구형성(sphericity) 가정이라고 한다.

:

\operatorname{E}[\,\boldsymbol{\varepsilon} \boldsymbol{\varepsilon}^{\operatorname{T}} \mid \mathbf{X} ] = \operatorname{Var}[\,\boldsymbol{\varepsilon} \mid \mathbf{X} ] = \sigma^{2} \mathbf{I}_n

여기서

\mathbf{I}_n

은

n \times n

크기의 단위 행렬이다.

이 가정은 두 가지 세부 조건으로 나뉜다.

동분산성: 모든 오차항 $\varepsilon_i$ 는 동일한 분산 $\sigma^2$ 을 가진다 ( $\operatorname{Var}(\varepsilon_i \mid \mathbf{X}) = \sigma^2$ for all $i$ ).
자기상관 없음: 서로 다른 오차항 $\varepsilon_i$ 와 $\varepsilon_j$ ( $i \neq j$ )는 서로 상관관계가 없다 ( $\operatorname{Cov}(\varepsilon_i, \varepsilon_j \mid \mathbf{X}) = 0$ ).^[13]

"구형 오차"라는 용어는 다변량 정규 분포에서 유래했는데, 만약 오차항이 다변량 정규 분포를 따르고 위 조건(

\operatorname{Var}[\,\boldsymbol{\varepsilon}\mid \mathbf{X} ] = \sigma^{2} \mathbf{I}

)이 만족되면, 오차 벡터의 확률 밀도 함수 값이 일정한 지점들의 집합(

f(\varepsilon)=c

)이 n차원 공간에서 구 형태를 이루기 때문이다.^[14]

이 구형성 가정이 위반되면 OLS 추정량은 여전히 편향되지는 않지만, 더 이상 최량(BLUE)이 아니며 비효율적이 된다.

이분산성: 오차항의 분산이 모든 관측치에서 동일하지 않고, 설명 변수의 값에 따라 달라지는 경우이다. 예를 들어, 소득( $X$ )이 식비( $Y$ )에 미치는 영향을 분석할 때, 고소득층의 식비 지출 변동폭이 저소득층보다 크다면 오차항의 분산이 소득 수준에 따라 달라지므로 이분산성이 존재한다. 측정 방식의 변화로 인해 시간 경과에 따라 측정 오차가 줄어드는 경우에도 이분산성이 나타날 수 있다.
자기 상관: 오차항들이 서로 상관관계를 가지는 경우이다. 주로 시계열 데이터에서 나타나는데, 이전 시점의 오차가 다음 시점의 오차에 영향을 미치는 경우("관성") 발생한다. 예를 들어, 어떤 경제적 충격의 영향이 한 번에 사라지지 않고 여러 기간에 걸쳐 나타나는 경우 자기 상관이 발생할 수 있다. 공간적 데이터에서도 인접한 지역의 오차항들이 유사한 경향을 보일 때 공간 자기 상관이 나타날 수 있다. 잘못된 함수 형태를 선택하는 등의 모형 설정 오류도 자기 상관의 원인이 될 수 있다.

구형 오차 가정이 위반될 경우, 일반화된 최소 자승 추정량(GLS)이 BLUE가 될 수 있다.^[6]

4. 가우스-마르코프 정리의 내용

최소 제곱 추정량 $\widehat{\boldsymbol{\beta}}$ 는 '''최량 선형 불편 추정량'''(Best Linear Unbiased Estimator, '''BLUE''')이다. 즉, 임의의 다른 선형 불편 추정량 $\widetilde{\boldsymbol{\beta}}$ 에 대해 공분산 행렬의 차이가 양의 준정부호 행렬이라는 의미이다.

: $\operatorname{Cov}\left[\widetilde{\boldsymbol{\beta}}\right] \succeq \operatorname{Cov}\left[\widehat{\boldsymbol{\beta}}\right]$

이 정리는 다음과 같은 선형 회귀 모형을 가정한다. 행렬 표기법으로는 다음과 같다.

: $y = X \beta + \varepsilon,\quad (y,\varepsilon \in \mathbb{R}^n, \beta \in \mathbb{R}^K \text{ and } X\in\mathbb{R}^{n\times K})$

이를 각 관측치에 대해 풀어서 쓰면 다음과 같다.

: $y_i=\sum_{j=1}^{K}\beta_j X_{ij}+\varepsilon_i \quad \forall i=1,2,\ldots,n$

여기서 각 변수는 다음과 같이 정의된다.

$\beta_j$ : 관측할 수 없는 모수(parameter). 확률 변수가 아니다.
$X_{ij}$ : 설명 변수(explanatory variable). 확률 변수가 아니며 관측 가능하다.
$\varepsilon_i$ : 오차항(error term). 확률 변수이며 관측할 수 없다. 잔차(residual)와는 구별된다.
$y_i$ : 종속 변수(dependent variable). 확률 변수이며 관측 가능하다.

모형에 상수항을 포함시키려면,

\beta_{K+1}

이라는 상수를 도입하고

X

행렬의 마지막 열(

K+1

번째 열)의 모든 값을 1로 설정하면 된다 (

X_{i(K+1)} = 1

for all

i

).

'''가우스-마르코프 가정'''은 오차항

\varepsilon_i

의 확률적 성질에 대한 가정이다.

평균 0: $\operatorname{E}[\varepsilon_i]=0.$ (오차의 기댓값은 0이다)
동분산성: $\operatorname{Var}(\varepsilon_i)= \sigma^2 < \infty$ for all $i$ . (모든 오차항은 동일하고 유한한 분산을 가진다)
비상관성: $\text{Cov}(\varepsilon_i,\varepsilon_j) = 0, \forall i \neq j.$ (서로 다른 오차항은 상관관계가 없다)

\beta_j

의 '''선형 추정량'''(linear estimator)은 종속 변수

y_i

들의 선형 결합으로 표현되는 추정량이다.

:

\widehat\beta_j = c_{1j}y_1+\cdots+c_{nj}y_n

여기서 계수

c_{ij}

는 관측 불가능한 모수

\beta_j

에 의존할 수 없지만, 관측 가능한 설명 변수

X_{ij}

에는 의존할 수 있다. 추정량은 각

y_i

에 대해 선형이며, 따라서 확률적인 오차항

\varepsilon_i

에 대해서도 선형이다.

추정량이 '''불편 추정량'''(unbiased estimator)이라는 것은 추정량의 기댓값이 실제 모수 값과 같은 것을 의미한다.

:

\operatorname{E}\left [\widehat\beta_j \right ]=\beta_j

이는 설명 변수

X_{ij}

의 값에 관계없이 성립해야 한다.

모수들의 선형 결합

\sum_{j=1}^K\lambda_j\beta_j

을 추정할 때, 추정의 '''평균 제곱 오차'''(Mean Squared Error, MSE)는 다음과 같이 정의된다.

:

\operatorname{E} \left [\left (\sum_{j=1}^K\lambda_j \left(\widehat\beta_j-\beta_j \right ) \right)^2\right ]

이는 추정량과 실제 모수 값 사이의 차이의 제곱의 기댓값이다. 불편 추정량의 경우, 평균 제곱 오차는 분산과 같다.

모수 벡터

\beta

에 대한 '''최량 선형 불편 추정량'''(Best Linear Unbiased Estimator, BLUE)은 가능한 모든 선형 불편 추정량 중에서 가장 작은 평균 제곱 오차(즉, 가장 작은 분산)를 가지는 추정량이다. 이는 임의의 다른 선형 불편 추정량

\widetilde\beta

에 대해 다음 조건이 성립하는 것과 같다.

:

\operatorname{Var}\left(\widetilde\beta\right)- \operatorname{Var} \left( \widehat \beta \right)

위 행렬이 양의 준정부호 행렬(positive semi-definite matrix)이다.

'''최소 자승 추정량'''(Ordinary Least Squares estimator, OLS)은 잔차 제곱합을 최소화하는

\beta

의 추정량

\widehat\beta

이다.

:

\widehat\beta=(X^\operatorname{T}X)^{-1}X^\operatorname{T}y

여기서

X^\operatorname{T}

는

X

의 전치 행렬이다. 잔차 제곱합은 다음과 같다.

:

\sum_{i=1}^n \left(y_i-\widehat{y}_i\right)^2=\sum_{i=1}^n \left(y_i-\sum_{j=1}^K \widehat\beta_j X_{ij}\right)^2.

가우스-마르코프 정리는 위에서 정의된 최소 자승 추정량(OLS) $\widehat\beta$ 가 바로 최량 선형 불편 추정량(BLUE)임을 말해준다. 즉, 가우스-마르코프 가정이 성립하는 선형 회귀 모형에서, OLS 추정량은 모든 선형 불편 추정량 중에서 가장 분산이 작다.

5. 가우스-마르코프 정리의 증명

$\widetilde{\boldsymbol{\beta}}$ 를 임의의 선형 추정량이라 하고, 이를 $(p+1) \times n$ 행렬 $\mathbf{C}$ 를 사용하여 $\widetilde{\boldsymbol{\beta}}=\mathbf{C}\mathbf{Y}$ 로 나타내자. 추정량 $\widetilde{\boldsymbol{\beta}}$ 가 불편성을 가지려면 기댓값이 실제 모수와 같아야 한다. 즉, $E[\widetilde{\boldsymbol{\beta}}]=\boldsymbol{\beta}$ 여야 한다. 이를 전개하면 다음과 같다.

$E[\widetilde{\boldsymbol{\beta}}] = E[\mathbf{C}\mathbf{Y}] = E[\mathbf{C}(\mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon})] = \mathbf{C}\mathbf{X}\boldsymbol{\beta} + \mathbf{C}E[\boldsymbol{\varepsilon}]$

가우스-마르코프 가정에 따라 오차항의 기댓값은 $E[\boldsymbol{\varepsilon}] = \mathbf{0}$ 이므로, $E[\widetilde{\boldsymbol{\beta}}] = \mathbf{C}\mathbf{X}\boldsymbol{\beta}$ 이다. 따라서 불편성 조건 $E[\widetilde{\boldsymbol{\beta}}]=\boldsymbol{\beta}$ 가 모든 $\boldsymbol{\beta}$ 에 대해 항등적으로 성립하기 위해서는 $\mathbf{C}\mathbf{X}=\mathbf{I}$ 여야 한다. 여기서 $\mathbf{I}$ 는 항등행렬이다.

다음으로, 선형 불편 추정량 $\widetilde{\boldsymbol{\beta}}$ 의 분산 공분산 행렬을 계산하면 다음과 같다.

: $\begin{alignat}{2}\operatorname{Cov}\left[ \widetilde{\boldsymbol{\beta}} \right] & = E\left[(\widetilde{\boldsymbol{\beta}} - E[\widetilde{\boldsymbol{\beta}}])(\widetilde{\boldsymbol{\beta}} - E[\widetilde{\boldsymbol{\beta}}])^\top\right] \\& = E\left[(\mathbf{C}\mathbf{Y} - \boldsymbol{\beta})(\mathbf{C}\mathbf{Y} - \boldsymbol{\beta})^\top\right] \\& = E\left[(\mathbf{C}(\mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}) - \boldsymbol{\beta})(\mathbf{C}(\mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}) - \boldsymbol{\beta})^\top\right] \\& = E\left[(\mathbf{C}\mathbf{X}\boldsymbol{\beta} + \mathbf{C}\boldsymbol{\varepsilon} - \boldsymbol{\beta})(\mathbf{C}\mathbf{X}\boldsymbol{\beta} + \mathbf{C}\boldsymbol{\varepsilon} - \boldsymbol{\beta})^\top\right] \\& = E\left[(\mathbf{I}\boldsymbol{\beta} + \mathbf{C}\boldsymbol{\varepsilon} - \boldsymbol{\beta})(\mathbf{I}\boldsymbol{\beta} + \mathbf{C}\boldsymbol{\varepsilon} - \boldsymbol{\beta})^\top\right] \quad (\because \mathbf{C}\mathbf{X}=\mathbf{I}) \\& = E\left[\mathbf{C}\boldsymbol{\varepsilon}(\mathbf{C}\boldsymbol{\varepsilon})^\top\right] \\& = \mathbf{C}E[\boldsymbol{\varepsilon}\boldsymbol{\varepsilon}^\top]\mathbf{C}^\top \\& = \mathbf{C}(\sigma^2\mathbf{I})\mathbf{C}^\top \quad (\because E[\boldsymbol{\varepsilon}\boldsymbol{\varepsilon}^\top] = \sigma^2\mathbf{I} \text{, 오차항의 동분산성 및 비상관성 가정}) \\& = \sigma^2\mathbf{C}\mathbf{C}^\top\end{alignat}$

최소 제곱 추정량 (OLS) $\widehat{\boldsymbol{\beta}} = (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{Y}$ 은 선형 추정량의 한 종류이며, 이때 $\hat{\mathbf{C}}=(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top$ 이다. OLS 추정량 $\widehat{\boldsymbol{\beta}}$ 역시 불편 추정량이다 ( $\hat{\mathbf{C}}\mathbf{X} = (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{X} = \mathbf{I}$ ). OLS 추정량의 분산 공분산 행렬은 다음과 같다.

$\operatorname{Cov}\left[\widehat{\boldsymbol{\beta}}\right] = \sigma^2\hat{\mathbf{C}}\hat{\mathbf{C}}^\top = \sigma^2((\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top)((\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top)^\top = \sigma^2(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{X}(\mathbf{X}^\top\mathbf{X})^{-1} = \sigma^2(\mathbf{X}^\top\mathbf{X})^{-1}$

이제 임의의 선형 불편 추정량 $\widetilde{\boldsymbol{\beta}}$ 의 분산 공분산 행렬 $\sigma^2\mathbf{C}\mathbf{C}^\top$ 과 OLS 추정량 $\widehat{\boldsymbol{\beta}}$ 의 분산 공분산 행렬 $\sigma^2\hat{\mathbf{C}}\hat{\mathbf{C}}^\top$ 을 비교하여, $\mathbf{C}\mathbf{C}^\top \succeq \hat{\mathbf{C}}\hat{\mathbf{C}}^\top$ 임을 보이면 된다. 여기서 $\mathbf{A} \succeq \mathbf{B}$ 는 행렬 $\mathbf{A}-\mathbf{B}$ 가 양의 준정부호 행렬임을 의미한다.

불편성 조건 $\mathbf{C}\mathbf{X}=\mathbf{I}$ 와 $\hat{\mathbf{C}}\mathbf{X}=\mathbf{I}$ 를 이용하면 다음이 성립한다.

: $\begin{alignat}{2}(\mathbf{C} - \hat{\mathbf{C}})\hat{\mathbf{C}}^\top & = (\mathbf{C} - \hat{\mathbf{C}})(\mathbf{X}(\mathbf{X}^\top\mathbf{X})^{-1}) \\& = (\mathbf{C}\mathbf{X} - \hat{\mathbf{C}}\mathbf{X})(\mathbf{X}^\top\mathbf{X})^{-1} \\& = (\mathbf{I} - \mathbf{I})(\mathbf{X}^\top\mathbf{X})^{-1} \\& = \mathbf{O}\end{alignat}$

여기서 $\mathbf{O}$ 는 영행렬이다. 이를 이용하여 $\mathbf{C}\mathbf{C}^\top$ 를 전개하면,

: $\begin{alignat}{2}\mathbf{C}\mathbf{C}^\top & = (\mathbf{C}-\hat{\mathbf{C}}+\hat{\mathbf{C}})(\mathbf{C}-\hat{\mathbf{C}}+\hat{\mathbf{C}})^\top \\& = (\mathbf{C}-\hat{\mathbf{C}})(\mathbf{C}-\hat{\mathbf{C}})^\top + (\mathbf{C}-\hat{\mathbf{C}})\hat{\mathbf{C}}^\top + \hat{\mathbf{C}}(\mathbf{C}-\hat{\mathbf{C}})^\top + \hat{\mathbf{C}}\hat{\mathbf{C}}^\top \\& = (\mathbf{C}-\hat{\mathbf{C}})(\mathbf{C}-\hat{\mathbf{C}})^\top + \mathbf{O} + \mathbf{O}^\top + \hat{\mathbf{C}}\hat{\mathbf{C}}^\top \quad (\because (\mathbf{C} - \hat{\mathbf{C}})\hat{\mathbf{C}}^\top = \mathbf{O}) \\& = (\mathbf{C}-\hat{\mathbf{C}})(\mathbf{C}-\hat{\mathbf{C}})^\top + \hat{\mathbf{C}}\hat{\mathbf{C}}^\top\end{alignat}$

행렬 $(\mathbf{C}-\hat{\mathbf{C}})(\mathbf{C}-\hat{\mathbf{C}})^\top$ 은 정의에 의해 양의 준정부호 행렬이다. 따라서,

$\mathbf{C}\mathbf{C}^\top = (\mathbf{C}-\hat{\mathbf{C}})(\mathbf{C}-\hat{\mathbf{C}})^\top + \hat{\mathbf{C}}\hat{\mathbf{C}}^\top \succeq \hat{\mathbf{C}}\hat{\mathbf{C}}^\top$

가 성립한다. 양변에 $\sigma^2$ 를 곱하면,

: $\operatorname{Cov}\left[\widetilde{\boldsymbol{\beta}}\right] = \sigma^2\mathbf{C}\mathbf{C}^\top \succeq \sigma^2\hat{\mathbf{C}}\hat{\mathbf{C}}^\top = \operatorname{Cov}\left[\widehat{\boldsymbol{\beta}}\right]$

가 성립한다. 이는 임의의 선형 불편 추정량 $\widetilde{\boldsymbol{\beta}}$ 의 분산 공분산 행렬이 최소 제곱 추정량 $\widehat{\boldsymbol{\beta}}$ 의 분산 공분산 행렬보다 '크거나 같음'을 의미한다 (행렬의 양의 준정부호 의미에서). 따라서 최소 제곱 추정량 $\widehat{\boldsymbol{\beta}}$ 는 모든 선형 불편 추정량 중에서 가장 작은 분산 공분산 행렬을 가지며, 최량 선형 불편 추정량 (BLUE)이 된다.

'''다른 방식의 증명'''

선형 모델 $y = X \beta + \varepsilon$ ( $y, \varepsilon \in \mathbb{R}^n, \beta \in \mathbb{R}^K, X \in \mathbb{R}^{n \times K}$ )과 가우스-마르코프 가정(오차항 평균 0, 동분산성, 비상관성)을 고려하자. OLS 추정량은 $\widehat\beta=(X^\operatorname{T}X)^{-1}X^\operatorname{T}y$ 이다.

먼저 OLS 추정량이 잔차 제곱합 $S(\boldsymbol{\beta}) = (\mathbf{y}-X\boldsymbol{\beta})^\operatorname{T}(\mathbf{y}-X\boldsymbol{\beta})$ 을 최소화함을 보이자. $S(\boldsymbol{\beta})$ 를 $\boldsymbol{\beta}$ 에 대해 미분하여 0으로 두면 정규 방정식 $X^\operatorname{T}X\boldsymbol{\beta} = X^\operatorname{T}\mathbf{y}$ 를 얻는다. 이 방정식의 해가 $\widehat\beta=(X^\operatorname{T}X)^{-1}X^\operatorname{T}y$ 이다. (단, $X^\operatorname{T}X$ 가 가역적, 즉 $X$ 가 full column rank라고 가정한다.) 이차 도함수인 헤세 행렬은 $\mathcal{H} = \frac{\partial^2 S}{\partial \boldsymbol{\beta} \partial \boldsymbol{\beta}^\operatorname{T}} = 2X^\operatorname{T}X$ 이다. $X$ 가 full column rank이면, 임의의 $\mathbf{k} \neq \mathbf{0}$ 에 대해 $\mathbf{k}^\operatorname{T}(X^\operatorname{T}X)\mathbf{k} = (X\mathbf{k})^\operatorname{T}(X\mathbf{k}) = \|X\mathbf{k}\|^2 > 0$ 이므로, $X^\operatorname{T}X$ 는 양의 정부호 행렬이다. 따라서 헤세 행렬 $\mathcal{H}$ 도 양의 정부호 행렬이며, $\widehat\beta$ 는 $S(\boldsymbol{\beta})$ 를 최소화하는 유일한 전역 최소점이다.

이제 OLS 추정량이 BLUE임을 보이자. $\tilde\beta = Cy$ 를 $\beta$ 의 또 다른 선형 불편 추정량이라고 하자. $C$ 를 $C = (X^\operatorname{T}X)^{-1}X^\operatorname{T} + D$ 로 쓸 수 있다. 여기서 $D$ 는 $K \times n$ 행렬이다. $\tilde\beta$ 가 불편 추정량이므로, 위에서 보였듯이 $DX = 0$ 이어야 한다.

$\tilde\beta$ 의 분산 공분산 행렬을 계산하면 다음과 같다.

: $\begin{align}\operatorname{Var}\left(\tilde\beta\right) &= \operatorname{Var}(Cy) = C \operatorname{Var}(y)C^\operatorname{T} = C (\sigma^2 I_n) C^\operatorname{T} = \sigma^2 CC^\operatorname{T} \\&= \sigma^2 \left ((X^\operatorname{T}X)^{-1}X^\operatorname{T} + D \right ) \left ((X^\operatorname{T}X)^{-1}X^\operatorname{T} + D \right )^\operatorname{T} \\&= \sigma^2 \left [ (X^\operatorname{T}X)^{-1} + DD^\operatorname{T} \right ] \quad (\because DX = 0 \text{ 이고 } ((X^\operatorname{T}X)^{-1}X^\operatorname{T})D^\operatorname{T} = (X^\operatorname{T}X)^{-1}(DX)^\operatorname{T} = 0 ) \\&= \sigma^2(X^\operatorname{T}X)^{-1} + \sigma^2DD^\operatorname{T} \\&= \operatorname{Var}\left(\widehat\beta\right) + \sigma^2DD^\operatorname{T} \quad (\because \operatorname{Var}\left(\widehat\beta\right) = \sigma^2(X^\operatorname{T}X)^{-1})\end{align}$

행렬 $DD^\operatorname{T}$ 는 양의 준정부호 행렬이므로, $\operatorname{Var}\left(\tilde\beta\right) = \operatorname{Var}\left(\widehat\beta\right) + \sigma^2DD^\operatorname{T} \succeq \operatorname{Var}\left(\widehat\beta\right)$ 이다. 즉, 다른 어떤 선형 불편 추정량의 분산 공분산 행렬도 OLS 추정량의 분산 공분산 행렬보다 작을 수 없다. 등호는 $\sigma^2DD^\operatorname{T} = \mathbf{O}$ , 즉 $D=\mathbf{O}$ 일 때만 성립하며, 이때 $\tilde\beta = \widehat\beta$ 이다. 따라서 OLS 추정량 $\widehat\beta$ 는 유일한 최량 선형 불편 추정량 (BLUE)이다.

모수 $\beta$ 의 선형 조합 $\ell^\operatorname{T}\beta$ 에 대한 추정량을 고려해도 동일한 결론에 도달한다. $\ell^\operatorname{T}\tilde\beta$ 는 $\ell^\operatorname{T}\beta$ 의 선형 불편 추정량이며, 그 분산은 다음과 같다.

: $\begin{align}\operatorname{Var}\left(\ell^\operatorname{T}\tilde\beta\right) &= \ell^\operatorname{T} \operatorname{Var} \left(\tilde\beta\right) \ell \\&= \ell^\operatorname{T} (\operatorname{Var}\left(\widehat\beta\right) + \sigma^2DD^\operatorname{T}) \ell \\&= \operatorname{Var}\left(\ell^\operatorname{T}\widehat\beta\right) + \sigma^2 \ell^\operatorname{T}DD^\operatorname{T}\ell \\&= \operatorname{Var}\left(\ell^\operatorname{T}\widehat\beta\right) + \sigma^2 \|D^\operatorname{T}\ell\|^2 \\& \geq \operatorname{Var}\left(\ell^\operatorname{T}\widehat\beta\right)\end{align}$

분산이 최소가 되는 경우는 $\|D^\operatorname{T}\ell\|^2 = 0$ , 즉 $D^\operatorname{T}\ell = \mathbf{0}$ 일 때이며, 이때 $\ell^\operatorname{T}\tilde\beta = \ell^\operatorname{T}\widehat\beta$ 가 된다. 이는 $\ell^\operatorname{T}\beta$ 의 BLUE가 $\ell^\operatorname{T}\widehat\beta$ 임을 보여준다.

6. 가우스-마르코프 정리의 의미와 한계

선형 회귀 분석에서 최소 제곱 추정량(OLS)은 가장 널리 사용되는 추정 방법 중 하나이다. 가우스-마르코프 정리는 특정 조건 하에서 이 OLS 추정량이 최량 선형 불편 추정량(Best Linear Unbiased Estimator, '''BLUE''')임을 수학적으로 증명하는 핵심적인 정리이다. 즉, 여러 선형 불편 추정량 중에서 OLS 추정량의 분산이 가장 작아 가장 효율적이라는 의미이다.

이 정리가 성립하기 위해서는 회귀 모델의 오차항(error term)이 몇 가지 중요한 가정을 만족해야 한다. 대표적으로 오차항의 기댓값은 0이어야 하고(평균 0), 모든 오차항은 동일한 분산을 가져야 하며(동분산성), 서로 다른 오차항 간에는 상관관계가 없어야 한다(무상관성).

하지만 현실의 데이터 분석에서는 이러한 가정들이 항상 충족되지는 않는다. 만약 가정이 깨진다면 OLS 추정량은 더 이상 최량 선형 불편 추정량이 아닐 수 있으며, 추정의 효율성이 떨어지거나 결과 해석에 오류가 발생할 수 있다. 따라서 가우스-마르코프 정리의 의미를 이해하는 것과 동시에 그 한계를 인지하는 것이 중요하다. 정리에 대한 자세한 설명과 가정 위반 시의 문제점은 이어지는 내용에서 다룬다.

6. 1. 의미

가우스-마르코프 정리는 최소 제곱 추정량

\widehat{\boldsymbol{\beta}}

가 주어진 가정 하에서 최우수 선형 불편 추정량(Best Linear Unbiased Estimator, '''BLUE''')임을 밝히는 핵심적인 통계학 정리이다. 여기서 '최우수(Best)'는 추정량의 분산이 가장 작다는 의미이다. 즉, 다른 어떤 선형 불편 추정량

\widetilde{\boldsymbol{\beta}}

과 비교했을 때, 최소 제곱 추정량의 공분산 행렬(

\operatorname{Cov}\left[\widehat{\boldsymbol{\beta}}\right]

)이 더 작거나 같다는 것을 수학적으로 표현하면 다음과 같다.

:

\operatorname{Cov}\left[\widetilde{\boldsymbol{\beta}}\right] \succeq \operatorname{Cov}\left[\widehat{\boldsymbol{\beta}}\right]

이 정리를 이해하기 위해 먼저 다음과 같은 선형 회귀 모델을 설정한다.

:

y = X \beta + \varepsilon,\quad (y,\varepsilon \in \mathbb{R}^n, \beta \in \mathbb{R}^K \text{ and } X\in\mathbb{R}^{n\times K})

이 모델은

n

개의 관측치에 대해 각각 다음과 같이 표현될 수 있다.

:

y_i=\sum_{j=1}^{K}\beta_j X_{ij}+\varepsilon_i \quad \forall i=1,2,\ldots,n

모델의 각 구성 요소는 다음과 같은 의미를 가진다.

$y_i$ : $i$ 번째 관측치의 종속 변수 값. 오차항 $\varepsilon_i$ 의 영향으로 확률적인 값을 가진다.
$X_{ij}$ : $i$ 번째 관측치의 $j$ 번째 설명 변수 값. 확률적이지 않고 관측 가능한 값이다.
$\beta_j$ : $j$ 번째 설명 변수에 대응하는 모수(회귀 계수). 확률적이지 않지만 우리가 알지 못하여 추정해야 하는 값이다.
$\varepsilon_i$ : $i$ 번째 관측치의 오차항. 관측 불가능한 확률 변수로, '교란 항', '잡음' 등으로 불린다. 이는 실제값과 예측값의 차이인 잔차(residual)와는 구분되는 개념이다.

만약 모델에 상수항(절편)을 포함시키고 싶다면, 추가적인 모수

\beta_{K+1}

을 도입하고 모든

i

에 대해

X_{i(K+1)} = 1

로 설정하여 표현할 수 있다.

가우스-마르코프 정리가 성립하기 위해서는 오차항

\varepsilon_i

에 대한 다음과 같은 가우스-마르코프 가정들이 충족되어야 한다.

평균 0: 모든 오차항의 기댓값(평균)은 0이다. $\operatorname{E}[\varepsilon_i]=0.$
동분산성: 모든 오차항은 동일한 유한 분산을 가진다. 즉, 모든 $i$ 에 대해 $\operatorname{Var}(\varepsilon_i)= \sigma^2 < \infty$ 이다.
무상관성: 서로 다른 관측치에 대한 오차항들은 서로 상관관계가 없다. 즉, $i \neq j$ 일 때 $\text{Cov}(\varepsilon_i,\varepsilon_j) = 0$ 이다.

이제 추정량에 대해 알아보자. 모수

\beta_j

의 선형 추정량은 관측된 종속 변수

y_i

들의 선형 결합으로 나타낼 수 있다.

:

\widehat\beta_j = c_{1j}y_1+\cdots+c_{nj}y_n

여기서 계수

c_{ij}

는 관측 가능한 설명 변수

X_{ij}

값에는 의존할 수 있지만, 우리가 알지 못하는 실제 모수

\beta_j

에는 의존할 수 없다. 추정량이 각

y_i

에 대해 선형이므로, 각 오차항

\varepsilon_i

에 대해서도 선형 관계를 가진다.

추정량이 불편 추정량(unbiased estimator)이라는 것은 그 추정량의 기댓값이 추정하고자 하는 실제 모수 값과 같다는 의미이다.

:

\operatorname{E}\left [\widehat\beta_j \right ]=\beta_j

만약 모수들의 선형 결합

\sum_{j=1}^K\lambda_j\beta_j

를 추정한다고 할 때, 그 추정의 정확성을 평가하는 지표 중 하나는 평균 제곱 오차(Mean Squared Error, MSE)이다. 이는 추정값과 실제 모수 값 사이의 차이의 제곱에 대한 기댓값으로 정의된다.

:

\operatorname{E} \left [\left (\sum_{j=1}^K\lambda_j \left(\widehat\beta_j-\beta_j \right ) \right)^2\right ]

만약 추정량이 불편 추정량이라면, MSE는 추정량의 분산과 동일해진다.
최량 선형 불편 추정량(BLUE)은 모든 선형 불편 추정량 중에서 평균 제곱 오차(또는 분산)가 가장 작은 추정량을 말한다. 즉, 어떤 다른 선형 불편 추정량

\widetilde\beta

과 비교해도 BLUE인

\widehat\beta

의 분산이 더 작거나 같다는 것을 의미하며, 이는 행렬로 표현했을 때

\operatorname{Var}\left(\widetilde\beta\right)- \operatorname{Var} \left( \widehat \beta \right)

가 양의 준정부호 행렬(positive semi-definite matrix)이라는 조건과 동일하다.
최소 제곱 추정량(Ordinary Least Squares, OLS)은 실제 관측값

y_i

와 모델을 통해 예측된 값

\widehat{y}_i

사이의 차이, 즉 잔차의 제곱합을 최소화하는 모수

\widehat\beta

를 찾는 방법이다.

:

\sum_{i=1}^n \left(y_i-\widehat{y}_i\right)^2=\sum_{i=1}^n \left(y_i-\sum_{j=1}^K \widehat\beta_j X_{ij}\right)^2

OLS 추정량은 다음과 같은 행렬 형태로 계산된다.

:

\widehat\beta=(X^\operatorname{T}X)^{-1}X^\operatorname{T}y

여기서

X^\operatorname{T}

는 행렬

X

의 전치 행렬이다.

결론적으로, 가우스-마르코프 정리는 위에서 언급한 가우스-마르코프 가정들이 모두 충족될 때, 최소 제곱 추정량(OLS)이 바로 최량 선형 불편 추정량(BLUE)임을 증명하는 정리이다. 이는 OLS가 여러 선형 불편 추정량 중에서 가장 효율적이고 안정적인 추정 방법임을 보장해준다.

6. 2. 한계

가우스-마르코프 정리는 특정 가정들이 충족될 때에만 성립한다. 이러한 가정들은 이 정리의 적용 범위를 제한하며, 현실 데이터 분석에서 항상 만족되지 않을 수 있다는 점이 주요 한계로 작용한다. 만약 이 가정들이 깨진다면, 최소 자승 추정량(OLS)이 더 이상 최량 선형 무편향 추정량(BLUE)이 아닐 수 있다.

가우스-마르코프 정리가 성립하기 위한 오차항(

\varepsilon_i

)에 대한 핵심 가정은 다음과 같다.

오차항의 기댓값은 0이다: $\operatorname{E}[\varepsilon_i]=0.$ 이는 모델이 평균적으로 실제 값을 정확히 예측한다는 것을 의미한다.
동분산성: 모든 오차항은 동일하고 유한한 분산을 가진다. 즉, 모든 $i$ 에 대해 $\operatorname{Var}(\varepsilon_i)= \sigma^2 < \infty$ 이다. 이는 예측의 정확성이 설명 변수의 값에 따라 변하지 않음을 의미한다.
오차항 간의 비상관성: 서로 다른 오차항들은 상관관계가 없다. 즉, 모든 $i \neq j$ 에 대해 $\text{Cov}(\varepsilon_i,\varepsilon_j) = 0$ 이다. 이는 한 관측치의 오차가 다른 관측치의 오차에 영향을 주지 않음을 의미한다.

이 세 가지 가정이 모두 충족되어야만 가우스-마르코프 정리에 따라 OLS 추정량이 가장 효율적인 선형 무편향 추정량(BLUE)이 된다. 현실의 데이터에서는 이분산성(heteroscedasticity|헤테로스케다스티시티^eng, 오차항의 분산이 일정하지 않음)이나 자기상관(autocorrelation|오토코릴레이션^eng, 오차항 간에 상관관계가 존재함) 등의 문제로 인해 이러한 가정들이 위배되는 경우가 많으며, 이 경우 OLS 추정량의 효율성이 떨어지거나 표준오차 추정에 편향이 발생할 수 있다. 이러한 한계 때문에 일반화 최소제곱법(Generalized Least Squares, GLS) 등 대안적인 추정 방법이 사용되기도 한다.

7. 가우스-마르코프 정리의 확장

일반화 최소제곱법 (GLS)은 오차 벡터가 스칼라 형태가 아닌 공분산 행렬을 갖는 경우에 대해 가우스-마르코프 정리를 확장한다.^[5]^[6]

7. 1. 일반화 최소제곱법 (Generalized Least Squares, GLS)

일반화 최소제곱법 (GLS)은 에이트켄에 의해 개발되었으며,^[5] 오차 벡터가 스칼라가 아닌 공분산 행렬을 갖는 경우에 대해 가우스-마르코프 정리를 확장한다.^[6] 에이트켄 추정량 또한 BLUE이다.

7. 2. 기타 추정 방법

최량 선형 불편 추정량 (BLUP)
최소 분산 불편 추정량 (MVUE)

참조

_[1] 서적 Applied multivariate statistical analysis Prentice hall
_[2] 서적 Principles of Econometrics https://archive.org/[...] John Wiley & Sons
_[3] 논문 A Historical Note on the Method of Least Squares
_[4] 논문 Extension of the Markoff theorem on least squares
_[5] 논문 On Least Squares and Linear Combinations of Observations
_[6] 서적 Regression and Econometric Methods https://archive.org/[...] John Wiley & Sons
_[7] 서적 Econometrics https://books.google[...] Princeton University Press
_[8] 서적 An Introduction to Econometrics W. W. Norton
_[9] 서적 Econometrics https://books.google[...] Princeton University Press
_[10] 서적 Econometric Methods https://archive.org/[...] McGraw-Hill
_[11] 서적 Introductory Econometrics https://archive.org/[...] South-Western
_[12] 서적 Econometric Methods https://archive.org/[...] McGraw-Hill
_[13] 서적 Econometrics https://books.google[...] Princeton University Press
_[14] 서적 Statistical Methods in Econometrics https://archive.org/[...] Academic Press
_[15] 서적 Applied multivariate statistical analysis Prentice hall
_[16] 서적 Principles of Econometrics https://archive.org/[...] John Wiley & Sons
_[17] 논문 A Historical Note on the Method of Least Squares
_[18] 논문 Extension of the Markoff theorem on least squares
_[19] 논문 On Least Squares and Linear Combinations of Observations

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com