맨위로가기

정규방정식

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

정규방정식은 선형 회귀 모형의 매개변수를 추정하는 데 사용되는 방정식이다. 데이터가 주어지면, 정규방정식은 최소 제곱법을 사용하여 회귀 계수를 계산하며, 행렬/벡터 형식을 사용하여 표현된다. 이 방정식은 최소 제곱 추정량의 명시적 공식을 제공하며, 오차의 분산과 같은 다른 통계량도 추정한다. 정규방정식은 고전적 선형 회귀 모형, 독립 동일 분포, 시계열 모형 등 다양한 가정 하에서 유효하며, OLS 추정량의 속성, 유한 표본 속성, 큰 표본 속성, 영향력 있는 관찰, 분할 회귀, 제약된 추정 등 다양한 분석을 가능하게 한다. 정규방정식은 경사 하강법과 비교하여 피처의 개수에 따라 예측 알고리즘을 선택하는 데 중요한 역할을 한다.

더 읽어볼만한 페이지

  • 최소제곱법 - 평균 제곱 오차
    평균 제곱 오차(MSE)는 추정량 또는 예측 변수의 정확성을 평가하는 척도로, 추정값과 실제 값 또는 예측값과 실제 관측값 사이의 오차 제곱 평균으로 계산되며, 추정량의 분산과 편향 제곱의 합으로 분해될 수 있고, 모델 적합성 평가 및 추정기 효율성 비교에 사용된다.
  • 최소제곱법 - 잔차 제곱합
    잔차 제곱합(RSS)은 통계학에서 회귀 모델의 적합도를 평가하는 지표로, 예측값과 실제 값의 차이를 제곱하여 합산한 값이며, 결정 계수가 1에 가까울수록 회귀 모델이 데이터를 더 잘 설명한다.
  • 통계학 - 확률
    확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다.
  • 통계학 - 사분위수
    사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.
정규방정식
개요
유형선형 회귀 모델
설명선형 회귀 모델의 모수를 추정하는 방법
세부 사항
모델y = Xβ + ε
E[ε] = 0
추정량β̂ = (X'X)^(-1)X'y
대안최대 가능도 방법
경사 하강법

2. 선형 모형

데이터가 개의 관측치 으로 구성되어 있다고 가정한다. 각 관측치 는 스칼라 반응 와 개의 매개변수(회귀 변수)의 열 벡터 를 포함한다. 즉, 이다. 선형 회귀 모형에서 반응 변수 는 회귀 변수의 선형 함수이다.

:

또는 벡터 형식으로,

:

여기서 는 이전에 소개된 바와 같이 모든 설명 변수의 번째 관측치의 열 벡터이다. 는 미지의 매개변수의 벡터이고, 스칼라 는 번째 관측치의 관찰되지 않은 임의 변수(오차)를 나타낸다. 는 설명 변수 외의 소스에서 반응 에 미치는 영향을 설명한다. 이 모형은 행렬 표기법으로도 다음과 같이 쓸 수 있다.

:

여기서 와 는 개의 관측치의 반응 변수와 오차의 벡터이고, 는 회귀 변수의 행렬이며, 때로는 설계 행렬이라고도 하며, 그 행 는 이고 모든 설명 변수에 대한 번째 관측치를 포함한다.

일반적으로 상수 항은 회귀 변수 집합 에 포함된다. 예를 들어, 모든 에 대해 을 사용한다. 이 회귀 변수에 해당하는 계수 을 ''절편''이라고 한다. 절편이 없으면 적합된 선은 일 때 원점을 통과하도록 강제된다.

회귀 변수는 추정의 일관성을 위해 독립적일 필요가 없으며, 예를 들어 비선형적으로 종속될 수 있다. 완전한 다중공선성이 없으면 매개변수 추정치는 여전히 일관될 수 있지만 다중공선성이 증가함에 따라 이러한 추정치 주변의 표준 오차가 증가하고 이러한 추정치의 정밀도가 감소한다. 완전한 다중공선성이 있는 경우 관련 회귀 변수에 대한 고유한 계수 추정치를 더 이상 얻을 수 없다. 이러한 매개변수에 대한 추정은 수렴할 수 없다(따라서 일관될 수 없다).

회귀 변수가 비선형적으로 종속되어 있지만 추정이 여전히 일관될 수 있는 구체적인 예로, 응답이 값과 그 제곱에 모두 선형적으로 의존한다고 의심할 수 있다. 이 경우 다른 회귀 변수의 제곱인 값을 갖는 회귀 변수를 포함한다. 이 경우 모형은 두 번째 회귀 변수에 대해 ''2차''가 되지만, 모형이 매개변수()에 대해 여전히 선형이기 때문에 ''선형'' 모형으로 간주된다.

2. 1. 행렬/벡터 형식

n 개의 p개의 미지 계수 \beta_1, \beta_2, \dots, \beta_p 에 관한 선형 방정식으로 이루어진 과잉 결정 시스템 ( n > p )은 다음과 같이 행렬 형태로 표현할 수 있다.[3]

:\mathbf{X} \boldsymbol{\beta} = \mathbf {y},

여기서,

:\mathbf{X} = \begin{bmatrix}

X_{11} & X_{12} & \cdots & X_{1p} \\

X_{21} & X_{22} & \cdots & X_{2p} \\

\vdots & \vdots & \ddots & \vdots \\

X_{n1} & X_{n2} & \cdots & X_{np}

\end{bmatrix} ,\qquad

\boldsymbol \beta = \begin{bmatrix}

\beta_1 \\ \beta_2 \\ \vdots \\ \beta_p

\end{bmatrix} ,\qquad

\mathbf y = \begin{bmatrix}

y_1 \\ y_2 \\ \vdots \\ y_n

\end{bmatrix}.

이러한 시스템은 일반적으로 정확한 해를 갖지 않으므로, 이차 수학적 최적화 문제를 해결하여 방정식에 가장 잘 맞는 계수 \boldsymbol{\beta}를 찾는다.

:\hat{\boldsymbol{\beta}} = \underset{\boldsymbol{\beta}}{\operatorname{arg\,min}}\,S(\boldsymbol{\beta}),

여기서 목적 함수 S 는 다음과 같다.

:S(\boldsymbol{\beta}) = \sum_{i=1}^n \left| y_i - \sum_{j=1}^p X_{ij}\beta_j\right|^2 = \left\|\mathbf y - \mathbf{X} \boldsymbol \beta \right\|^2.

\mathbf{X} 행렬의 p개 열이 선형 독립인 경우, 이 최소화 문제는 고유한 해를 가지며, ''정규 방정식''을 풀어 구할 수 있다.[3]

:\left( \mathbf{X}^{\operatorname{T}} \mathbf{X} \right)\hat{\boldsymbol{\beta}} = \mathbf{X}^{\operatorname{T}} \mathbf y\ .

행렬 \mathbf{X}^{\operatorname{T}} \mathbf{X}는 ''정규 행렬'' 또는 그람 행렬이며, 행렬 \mathbf{X}^{\operatorname{T}} \mathbf y는 회귀 변수에 대한 모멘트 행렬이다.[3] 최소 제곱 초평면의 계수 벡터 \hat{\boldsymbol{\beta}}는 다음과 같이 표현된다.

:\hat{\boldsymbol{\beta}} = \left( \mathbf{X}^{\operatorname{T}} \mathbf{X} \right)^{-1} \mathbf{X}^{\operatorname{T}} \mathbf y 또는 \hat{\boldsymbol{\beta}} = \boldsymbol{\beta} + \left(\mathbf{X}^\operatorname{T} \mathbf{X}\right)^{-1}\mathbf {X}^\operatorname{T} \boldsymbol{\varepsilon}.

2. 2. 정규 방정식

3. 추정

''b''가 파라미터 벡터 ''β''에 대한 "후보" 값이라고 가정해 보자. 는 ''i''번째 관측치에 대한 잔차라고 불리며, 데이터 포인트 와 초평면 사이의 수직 거리를 측정하며, 따라서 실제 데이터와 모델 간의 적합도를 평가한다. 제곱 잔차의 합(SSR) (오차 제곱합(ESS) 또는 잔차 제곱합(RSS)이라고도 함)은 전반적인 모델 적합도를 측정하는 척도이다.[4]

:

S(b) = \sum_{i=1}^n (y_i - x_i ^\operatorname{T} b)^2 = (y-Xb)^\operatorname{T}(y-Xb),



여기서 ''T''는 행렬 전치 행렬을 나타내고, 종속 변수의 특정 값과 관련된 모든 독립 변수의 값을 나타내는 ''X''의 행은 ''Xi = xi''T이다. 이 합을 최소화하는 ''b''의 값을 '''β에 대한 OLS 추정량'''이라고 한다. 함수 ''S''(''b'')는 양의 정부호 헤시안을 갖는 ''b''에 대한 이차 함수이므로 이 함수는 b =\hat\beta에서 고유한 전역 최소값을 가지며, 이는 명시적인 공식으로 주어질 수 있다.[5]증명

:

\hat\beta = \operatorname{argmin}_{b\in\mathbb{R}^p} S(b) = (X^\operatorname{T}X)^{-1}X^\operatorname{T}y\ .



곱 ''N'' = ''X''T ''X''는 그람 행렬이며, 그 역행렬 ''Q'' = ''N''−1는 ''β''의 ''여인자 행렬''[6][7][8]이며, 공분산 행렬인 ''C''''β''와 밀접한 관련이 있다.

행렬 (''X''T ''X'')−1 ''X''T = ''Q'' ''X''T는 ''X''의 무어-펜로즈 유사역행렬이라고 한다. 이 공식은 추정이 설명 변수 사이에 완벽한 다중공선성이 없는 경우에만 수행될 수 있음을 강조한다 (이는 그람 행렬이 역행렬을 갖지 않도록 한다).

4. 예측

추정된 ''β''를 구한 후, 회귀분석으로부터 얻은 적합 값(또는 예측 값)은 ŷ = Xβ̂ = Py로 표현된다.[9]

여기서 ''P'' = ''X''(''X''T''X'')−1''X''T는 ''X''의 열로 span된 공간 ''V''로의 투영 행렬이며, hat matrix라고도 불린다.[9] 소멸자 행렬 M = Iₙ - P는 V에 직교하는 공간으로의 투영 행렬이다.[9] 행렬 ''P''와 ''M''은 모두 대칭 행렬이며 멱등 행렬이고(P2 = P와 M2 = M), PX = X 및 MX = 0과 같은 항등식을 통해 데이터 행렬 X와 관련된다.[9]

예측 값 s^2_{\hat{y}_i}의 분산은 예측 값의 분산-공분산 행렬의 주 대각선에서 찾을 수 있다.[10]

:

C_\hat{y} = s^2 P,



여기서 ''P''는 투영 행렬이고 ''s''2는 표본 분산이다.[10]

전체 행렬은 매우 크며, 대각선 요소는 개별적으로 다음과 같이 계산할 수 있다.

:

s^2_{\hat{y}_i} = s^2 X_i (X^T X)^{-1} X_i^T,



여기서 ''X''i는 행렬 ''X''의 ''i''번째 행이다.

5. 표본 통계

잔차를 사용하여 수정 카이 제곱 통계를 통해 표본 분산 ''s''2를 추정할 수 있으며, 이는 ''σ''2에 대한 OLS 추정치이다.

:

s^2 = \frac{\hat\varepsilon ^\mathrm{T} \hat\varepsilon}{n-p} = \frac{(My)^\mathrm{T} My}{n-p} = \frac{y^\mathrm{T} M^\mathrm{T}My}{n-p}= \frac{y ^\mathrm{T} My}{n-p} = \frac{S(\hat\beta)}{n-p},\qquad

\hat\sigma^2 = \frac{n-p}{n}\;s^2



여기서 분모 ''n''−''p''는 통계적 자유도이다. ''s''2는 ''σ''2에 대한 불편 추정치이며, \scriptstyle\hat\sigma^2는 ''σ''2에 대한 MLE 추정치이다. 두 추정치는 큰 표본에서 매우 유사하며, ''s''2는 불편 추정치이고, \scriptstyle\hat\sigma^2는 편향되지만 더 작은 평균 제곱 오차를 갖는다. ''s''2는 가설 검정에 더 편리하여 자주 사용된다. ''s''2의 제곱근은 ''회귀 표준 오차''라고 한다.

결정 계수 ''R''2는 종속 변수 ''y''의 "설명된" 분산과 "총" 분산의 비율로 정의된다.

:

R^2 = \frac{\sum(\hat y_i-\overline{y})^2}{\sum(y_i-\overline{y})^2} = \frac{y ^\mathrm{T} P ^\mathrm{T} LPy}{y ^\mathrm{T} Ly} = 1 - \frac{y ^\mathrm{T} My}{y ^\mathrm{T} Ly} = 1 - \frac{\rm RSS}{\rm TSS}



여기서 TSS는 종속 변수에 대한 ''총 제곱합''이고, L=I_n-\frac{1}{n}J_n이며, J_n은 ''n''×''n''의 1로 이루어진 행렬이다. (L는 변수에서 평균을 빼는 상수 회귀와 동일한 중심화 행렬이다.) ''R''2가 의미가 있으려면, 회귀 변수에 대한 데이터 행렬 ''X''는 계수가 회귀 절편인 상수를 나타내는 1의 열 벡터를 포함해야 하며, 이 경우 ''R''2는 항상 0과 1 사이의 숫자가 되며, 1에 가까울수록 적합도가 좋다.

5. 1. 단순 선형 회귀 모형

데이터 행렬 ''X''가 상수와 스칼라 회귀 변수 ''xᵢ''의 두 변수만 포함하는 경우, 이를 "단순 선형 회귀 모형"이라고 한다. 이 경우는 수동 계산에도 적합할 정도로 간단한 공식을 제공하므로 초보 통계 수업에서 자주 고려된다. 매개변수는 일반적으로 (''α'', ''β'')로 표시된다.

:yᵢ = α + βxᵢ + εᵢ

이 경우 최소 제곱 추정량은 다음과 같은 간단한 공식으로 주어진다.

:\begin{align}

\widehat\beta &= \frac{\sum_{i=1}^n{(x_i-\bar{x})(y_i-\bar{y})} }{ \sum_{i=1}^n{(x_i-\bar{x})^2}}

\\[2pt]

\widehat\alpha &= \bar{y} - \widehat\beta\,\bar{x}\ ,

\end{align}

6. 대안적 유도

이전 절에서 최소제곱 추정량 \hat\beta는 모델의 잔차 제곱합을 최소화하는 값으로 얻어졌다. 그러나 다른 접근 방식으로도 동일한 추정량을 도출할 수 있다. 모든 경우에 OLS 추정량의 공식은 동일하게 유지된다: \hat\beta = (X^TX)^{-1}X^Ty; 유일한 차이점은 이 결과를 어떻게 해석하느냐에 있다.

==== 투영 ====

OLS는 과결정된 선형 방정식 시스템 X\beta \approx y에 대한 근사 해를 찾는 것으로 해석될 수 있다. 여기서 ''β''는 미지수이다. 방정식을 정확하게 풀 수 없는 경우(방정식의 수 ''n''이 미지수의 수 ''p''보다 훨씬 큰 경우), 오른쪽 항과 왼쪽 항 사이의 불일치를 최소화하는 해를 찾는다. 즉, 잔차 벡터 y - X\beta가 ''y''가 ''X''의 열에 의해 선형 부분 공간 뻗어진 직교적으로 투영될 때 가장 짧은 길이를 갖도록 한다. 이 경우 OLS 추정기 \hat\beta는 ''X''의 기저를 따라 \hat y = Py의 벡터 분해의 계수로 해석될 수 있다.

OLS 추정은 회귀 변수들에 의해 뻗어진 선형 공간으로의 투영으로 볼 수 있다. (여기서 X_1X_2는 각각 데이터 행렬의 열을 나타낸다.)


최소에서의 기울기 방정식은 $(\mathbf y - \mathbf{X} \hat{\boldsymbol{\beta}})^{\top} \mathbf{X}=0$으로 쓸 수 있다. 이 방정식에 대한 기하학적 해석은 잔차 벡터 \mathbf y - X \hat{\boldsymbol{\beta}}가 ''X''의 열 공간에 직교한다는 것이다. 왜냐하면 내적 (\mathbf y- \mathbf{X}\hat{\boldsymbol{\beta}})\cdot \mathbf{X} \mathbf v가 모든 적합한 벡터 '''v'''에 대해 0과 같기 때문이다. 이는 \mathbf y - \mathbf{X} \boldsymbol{\hat \beta}가 모든 가능한 벡터 \mathbf{y}- \mathbf{X} \boldsymbol \beta 중에서 가장 짧다는 것을 의미하며, 즉, 잔차의 분산이 가능한 최소값이라는 것을 의미한다.

\hat{\boldsymbol{\gamma}}를 도입하고 행렬 [\mathbf{X} \ \mathbf{K}]가 비특이적이고 ''K''T ''X'' = 0이라는 가정 하에 행렬 ''K''를 도입하면 (직교 투영 참조), 잔차 벡터는\hat{\mathbf{r}} := \mathbf{y} - \mathbf{X} \hat{\boldsymbol{\beta}} = \mathbf{K} \hat} 방정식을 만족해야 한다. 선형 최소 제곱의 방정식과 해는 다음과 같다.

:\begin{align}

\mathbf{y} &= \begin{bmatrix}\mathbf{X} & \mathbf{K}\end{bmatrix} \begin{bmatrix} \hat{\boldsymbol{\beta}} \\ \hat{\boldsymbol{\gamma}} \end{bmatrix} , \\

{}\Rightarrow \begin{bmatrix} \hat{\boldsymbol{\beta}} \\ \hat{\boldsymbol{\gamma}} \end{bmatrix} &= \begin{bmatrix}\mathbf{X} & \mathbf{K}\end{bmatrix}^{-1} \mathbf{y} = \begin{bmatrix} \left(\mathbf{X}^{\top} \mathbf{X}\right)^{-1} \mathbf{X}^{\top} \\ \left(\mathbf{K}^{\top} \mathbf{K}\right)^{-1} \mathbf{K}^\top \end{bmatrix} \mathbf{y} .

\end{align}

==== 최대 우도 ====

최소 자승 추정량(OLS)은 오차항에 대한 정규성 가정을 전제로 할 때 최대 우도 추정량(MLE)과 동일하다.[16] 이러한 정규성 가정은 율과 피어슨의 선형 회귀 분석 초기 연구의 기반을 제공했기 때문에 역사적으로 중요하다. 정규성 가정이 충족될 경우 OLS 추정량이 점근적으로 효율적임을 추론할 수 있다.[17]

==== 일반화된 적률 방법 ====

독립 동일 분포의 경우, OLS 추정량은 다음과 같은 적률 조건을 갖는 GMM 추정량으로 볼 수도 있다.

:

\mathrm{E}\big[\, x_i\left(y_i - x_i ^\operatorname{T} \beta\right) \,\big] = 0.



이 적률 조건은 회귀 변수가 오차와 상관관계가 없어야 함을 나타낸다. ''xi''가 ''p''-벡터이므로, 적률 조건의 수는 매개변수 벡터 ''β''의 차원과 같으며, 따라서 시스템은 정확하게 식별된다. 이것이 추정량이 가중 행렬의 선택에 의존하지 않는 소위 고전적인 GMM 경우이다.

원래의 엄격한 외생성 가정 E[ε_i | x_i] = 0는 위에 명시된 것보다 훨씬 더 풍부한 적률 조건 집합을 암시한다는 점에 유의해야 한다. 특히, 이 가정은 임의의 벡터 함수에 대해, 적률 조건 E[ƒ(x_i)·ε_i] = 0가 성립함을 의미한다. 그러나 가우스-마르코프 정리를 사용하여 최적의 함수를 선택은 ƒ(x) = x를 취하는 것이며, 이로 인해 위에 게시된 적률 방정식이 발생한다.

6. 1. 투영

OLS는 과결정된 선형 방정식 시스템 에 대한 근사 해를 찾는 것으로 해석될 수 있다. 여기서 ''β''는 미지수이다. 방정식을 정확하게 풀 수 없는 경우(방정식의 수 ''n''이 미지수의 수 ''p''보다 훨씬 큰 경우), 오른쪽 항과 왼쪽 항 사이의 불일치를 최소화하는 해를 찾는다. 즉, 잔차 벡터 가 ''y''가 ''X''의 열에 의해 선형 부분 공간 뻗어진 직교적으로 투영될 때 가장 짧은 길이를 갖도록 한다. 이 경우 OLS 추정기 \hat\beta는 ''X''의 기저를 따라 의 벡터 분해의 계수로 해석될 수 있다.

최소에서의 기울기 방정식은 $(\mathbf y - \mathbf{X} \hat{\boldsymbol{\beta}})^{\top} \mathbf{X}=0$으로 쓸 수 있다. 이 방정식에 대한 기하학적 해석은 잔차 벡터 \mathbf y - X \hat{\boldsymbol{\beta}}가 ''X''의 열 공간에 직교한다는 것이다. 왜냐하면 내적 (\mathbf y- \mathbf{X}\hat{\boldsymbol{\beta}})\cdot \mathbf{X} \mathbf v가 모든 적합한 벡터 '''v'''에 대해 0과 같기 때문이다. 이는 \mathbf y - \mathbf{X} \boldsymbol{\hat \beta}가 모든 가능한 벡터 \mathbf{y}- \mathbf{X} \boldsymbol \beta 중에서 가장 짧다는 것을 의미하며, 즉, 잔차의 분산이 가능한 최소값이라는 것을 의미한다.

\hat{\boldsymbol{\gamma}}를 도입하고 행렬 [\mathbf{X} \ \mathbf{K}]가 비특이적이고 ''K''T ''X'' = 0이라는 가정 하에 행렬 ''K''를 도입하면 (직교 투영 참조), 잔차 벡터는\hat{\mathbf{r}} := \mathbf{y} - \mathbf{X} \hat{\boldsymbol{\beta}} = \mathbf{K} \hat} 방정식을 만족해야 한다. 선형 최소 제곱의 방정식과 해는 다음과 같다.

:\begin{align}

\mathbf{y} &= \begin{bmatrix}\mathbf{X} & \mathbf{K}\end{bmatrix} \begin{bmatrix} \hat{\boldsymbol{\beta}} \\ \hat{\boldsymbol{\gamma}} \end{bmatrix} , \\

{}\Rightarrow \begin{bmatrix} \hat{\boldsymbol{\beta}} \\ \hat{\boldsymbol{\gamma}} \end{bmatrix} &= \begin{bmatrix}\mathbf{X} & \mathbf{K}\end{bmatrix}^{-1} \mathbf{y} = \begin{bmatrix} \left(\mathbf{X}^{\top} \mathbf{X}\right)^{-1} \mathbf{X}^{\top} \\ \left(\mathbf{K}^{\top} \mathbf{K}\right)^{-1} \mathbf{K}^\top \end{bmatrix} \mathbf{y} .

\end{align}

6. 2. 최대 우도

최소 자승 추정량(OLS)은 오차항에 대한 정규성 가정을 전제로 할 때 최대 우도 추정량(MLE)과 동일하다.[16] 이러한 정규성 가정은 율과 피어슨의 선형 회귀 분석 초기 연구의 기반을 제공했기 때문에 역사적으로 중요하다. 정규성 가정이 충족될 경우 OLS 추정량이 점근적으로 효율적임을 추론할 수 있다.[17]

6. 3. 일반화된 적률 방법

독립 동일 분포의 경우, OLS 추정량은 다음과 같은 적률 조건을 갖는 GMM 추정량으로 볼 수도 있다.

:

\mathrm{E}\big[\, x_i\left(y_i - x_i ^\operatorname{T} \beta\right) \,\big] = 0.



이 적률 조건은 회귀 변수가 오차와 상관관계가 없어야 함을 나타낸다. ''xi''가 ''p''-벡터이므로, 적률 조건의 수는 매개변수 벡터 ''β''의 차원과 같으며, 따라서 시스템은 정확하게 식별된다. 이것이 추정량이 가중 행렬의 선택에 의존하지 않는 소위 고전적인 GMM 경우이다.

원래의 엄격한 외생성 가정 E[ε_i | x_i] = 0는 위에 명시된 것보다 훨씬 더 풍부한 적률 조건 집합을 암시한다는 점에 유의해야 한다. 특히, 이 가정은 임의의 벡터 함수에 대해, 적률 조건 E[ƒ(x_i)·ε_i] = 0가 성립함을 의미한다. 그러나 가우스-마르코프 정리를 사용하여 최적의 함수를 선택은 ƒ(x) = x를 취하는 것이며, 이로 인해 위에 게시된 적률 방정식이 발생한다.

7. 속성

7. 1. 가정

선형 회귀 모형은 OLS 기법 적용을 위해 여러 가정을 전제로 한다. 이러한 가정들은 동일한 공식과 결과를 도출하지만, 해석과 적용 가능성은 데이터의 특성과 추론 작업에 따라 달라진다. 회귀 변수를 확률 변수로 취급하는 임의 설계와, 미리 정의된 상수로 취급하는 고정 설계로 나눌 수 있는데, 이 문서에서는 임의 설계 프레임워크를 기준으로 설명한다.

  • 고전적 선형 회귀 모형


고전적 모형은 관측치 수가 고정된 "유한 표본" 추정에 초점을 맞추며, 표본 수가 많을 때의 점근적 거동을 연구하는 다른 접근 방식과 대비된다.

  • '''올바른 명세''': 선형 함수 형태는 실제 데이터 생성 과정과 일치해야 한다.
  • '''엄격한 외생성''': 회귀의 오차는 조건부 평균이 0이어야 한다.[18] 이는 오차의 평균이 0이고, 회귀 변수와 오차가 상관관계가 없음을 의미한다. 외생성 가정이 성립하지 않으면 OLS 추정량은 편향되며, 도구 변수 방법을 사용해야 한다.
  • '''선형 종속성 없음''': ''X''의 회귀 변수는 모두 선형 독립이어야 한다. 즉, 행렬 ''X''는 거의 확실하게 전체 열 랭크를 가져야 한다.[20] 이 가정이 위반되면 회귀 변수를 선형 종속 또는 완전 다중 공선성이라고 하며, 회귀 계수 ''β''의 값을 알 수 없다.
  • '''구형 오차''':[20] 오차의 분산은 \operatorname{Var}[\,\varepsilon \mid X\,] = \sigma^2 I_n이다. 여기서 은 항등 행렬이고, ''σ''2는 각 관측치의 분산을 결정하는 매개변수이다. 이 가정은 등분산성과 자기 상관 없음으로 나눌 수 있다.
  • '''등분산성''': 오차항이 각 관측치에서 동일한 분산 ''σ''2를 갖는다. 이분산성의 경우 가중 최소 제곱법이 더 효율적이다.
  • '''자기 상관 없음''': 오차는 관측치 간에 상관관계가 없다. 시계열, 패널 데이터 등에서 위반될 수 있으며, 일반화 최소 제곱법이 대안이 될 수 있다.
  • '''정규성''': 오차가 회귀 변수를 조건으로 정규 분포를 갖는다고 가정하기도 한다.[21] 이는 OLS 추정량의 최대 우도 추정량 (MLE) 동일성을 보장하며, 점근적으로 효율적이게 한다. 하지만 정규성 가정은 오차항에만 적용되며, 응답 변수에는 적용되지 않는다.[22]

  • 독립 동일 분포 (iid)


횡단면 데이터와 같이, 모든 관측치가 독립적이고 동일하게 분포(IID)한다는 가정이 추가될 수 있다. 이는 점근적 결과를 설명할 수 있게 한다.

  • '''IID 관측치''': 모든 관측치는 독립적이며, 동일한 확률 분포를 갖는다.
  • '''완전한 다중공선성 없음''': ''Qxx'' = E[ ''xi xi''T ]는 양의 정부호 행렬이다.
  • '''외생성''': E[ ''εi''  ''xi'' ] = 0;
  • '''등분산성''': Var[ ''εi''  ''xi'' ] = ''σ''2.

  • 시계열 모형


확률 과정 {''xi'', ''yi''}는 정상(stationary)이고 에르고딕(ergodic) 과정이다. 비정상적이면 OLS 결과는 허위가 될 수 있다.[23]

  • 회귀 변수는 '사전 결정'된다: 모든 ''i'' = 1, ..., ''n''에 대해 E[''xiεi''] = 0;
  • ''p''×''p'' 행렬 E[ ''xi xi''T ]는 전체 랭크를 가지며, 양의 정부호(positive-definite)이다;
  • {''xiεi''}는 마팅게일 차분 수열(martingale difference sequence)이며, 이차 모멘트의 유한 행렬 E[ ''εi''2''xi xi''T ]를 갖는다.

7. 1. 1. 고전적 선형 회귀 모형

고전적 모형은 관측치 수 ''n''이 고정되어 있다는 의미인 "유한 표본" 추정과 추론에 초점을 맞춘다. 이는 점근적 거동을 연구하고, 표본 수가 많은 경우의 거동을 연구하는 다른 접근 방식과는 대조적이다.

  • '''올바른 명세'''. 선형 함수 형태는 실제 데이터 생성 과정의 형태와 일치해야 한다.
  • '''엄격한 외생성'''. 회귀의 오차는 조건부 평균이 0이어야 한다:[18]

:::\operatorname{E}[\,\varepsilon\mid X\,] = 0.

:::외생성 가정의 직접적인 결과는 오차의 평균이 0이고(E[''ε''] = 0 (전체 기대값의 법칙)), 회귀 변수와 오차는 상관관계가 없다는 것이다(E[''X''T''ε''] = 0). 외생성 가정은 OLS 이론에 매우 중요하다. 이 가정이 성립하면 회귀 변수를 ''외생 변수''라고 부른다. 그렇지 않으면 오차항과 상관관계가 있는 회귀 변수를 ''내생 변수''라고 부르며,[19] OLS 추정량은 편향된다. 이러한 경우 도구 변수 방법을 사용하여 추론을 수행할 수 있다.

  • '''선형 종속성 없음'''. ''X''의 회귀 변수는 모두 선형 독립이어야 한다. 수학적으로 이것은 행렬 ''X''가 거의 확실하게 전체 열 랭크를 가져야 함을 의미한다:[20]

:::\Pr\!\big[\,\operatorname{rank}(X) = p\,\big] = 1.

:::일반적으로 회귀 변수가 적어도 2차 모멘트까지 유한 모멘트를 갖는다고 가정한다. 그러면 행렬 ''Qxx'' = E[''X''T''X'' / ''n'']은 유한하고 양의 준정부호이다. 이 가정이 위반되면 회귀 변수를 선형 종속 또는 완전 다중 공선성이라고 부른다. 이러한 경우 회귀 계수 ''β''의 값을 알 수 없지만, 동일한 선형 종속 부분 공간에 있는 회귀 변수의 새로운 값에 대한 ''y'' 값의 예측은 여전히 가능하다.

  • '''구형 오차''':[20]

:::\operatorname{Var}[\,\varepsilon \mid X\,] = \sigma^2 I_n,

:::여기서 은 차원 ''n''의 항등 행렬이고, ''σ''2는 각 관측치의 분산을 결정하는 매개변수이다. 이 ''σ''2는 모형에서 불필요한 매개변수로 간주되지만, 일반적으로 추정되기도 한다. 이 가정이 위반되면 OLS 추정량은 여전히 유효하지만 더 이상 효율적이지 않다. 이 가정을 두 부분으로 나누는 것이 일반적이다.

  • '''등분산성''': E[ ''εi''2  ''X'' ] = ''σ''2, 즉 오차항이 각 관측치에서 동일한 분산 ''σ''2를 갖는다는 것을 의미한다. 이 요구 사항이 위반되면 이분산성이라고 하며, 이 경우 보다 효율적인 추정량은 가중 최소 제곱법이 된다. 오차의 분산이 무한대이면 OLS 추정량의 분산도 무한대가 된다(오차가 평균 0을 갖는 한, 대수의 법칙에 따라 참값으로 경향을 보이지만). 이 경우, 강건 추정 기법이 권장된다.
  • '''자기 상관 없음''': 오차는 관측치 간에 상관관계가 없다: E[ ''εiεj''  ''X'' ] = 0 for ''i'' ≠ ''j''. 이 가정은 시계열 데이터, 패널 데이터, 클러스터 표본, 계층적 데이터, 반복 측정 데이터, 종단 데이터 및 종속성이 있는 기타 데이터의 맥락에서 위반될 수 있다. 이러한 경우 일반화 최소 제곱법은 OLS보다 더 나은 대안을 제공한다. 자기 상관에 대한 또 다른 표현은 ''계열 상관''이다.
  • '''정규성'''. 때때로 오차가 회귀 변수를 조건으로 정규 분포를 갖는다고 추가적으로 가정한다:[21]

:::\varepsilon \mid X\sim \mathcal{N}(0, \sigma^2I_n).

:::이 가정은 OLS 방법의 유효성을 위해 필요하지 않지만, 이 가정이 성립하는 경우 특정 추가 유한 표본 특성을 설정할 수 있다(특히 가설 검정 영역에서). 또한 오차가 정규 분포를 따르면 OLS 추정량은 최대 우도 추정량 (MLE)과 동일하므로 모든 정규 추정량 클래스에서 점근적으로 효율적이다. 중요하게도 정규성 가정은 오차항에만 적용된다. 대중적인 오해와 달리, 응답(종속) 변수는 정규 분포를 따를 필요가 없다.[22]

7. 1. 2. 독립 동일 분포 (iid)

일부 응용 분야, 특히 횡단면 데이터의 경우, 추가적인 가정이 적용되는데, 이는 모든 관측치가 독립적이고 동일하게 분포(IID)한다는 것이다. 이는 모든 관측치가 이전에 나열된 모든 가정을 더 간단하고 해석하기 쉽게 만드는 임의 표본에서 추출되었음을 의미한다. 또한 이 프레임워크는 표본 크기가 n → ∞으로 갈 때의 점근적 결과를 설명할 수 있게 해주며, 이는 데이터 생성 과정에서 새로운 독립적 관측치를 가져올 수 있는 이론적 가능성으로 이해된다. 이 경우 가정 목록은 다음과 같다.

  • '''IID 관측치''': (''xi'', ''yi'')는 모든 ''i ≠ j''에 대해 (''xj'', ''yj'')와 독립적이며, 동일한 확률 분포를 갖는다.
  • '''완전한 다중공선성 없음''': ''Qxx'' = E[ ''xi xi''T ]는 양의 정부호 행렬이다.
  • '''외생성''': E[ ''εi''  ''xi'' ] = 0;
  • '''등분산성''': Var[ ''εi''  ''xi'' ] = ''σ''2.

7. 1. 3. 시계열 모형

확률 과정 {''xi'', ''yi''}는 정상(stationary)이고 에르고딕(ergodic) 과정이다. 만약 {''xi'', ''yi''}가 비정상적이면, {''xi'', ''yi''}가 공적분(co-integrating)되지 않는 한 OLS 결과는 종종 허위가 된다.[23]

회귀 변수는 '사전 결정'된다: 모든 ''i'' = 1, ..., ''n''에 대해 E[''xiεi''] = 0;

''p''×''p'' 행렬 E[ ''xi xi''T ]는 전체 랭크를 가지며, 따라서 양의 정부호(positive-definite)이다;

{''xiεi''}는 마팅게일 차분 수열(martingale difference sequence)이며, 이차 모멘트의 유한 행렬 E[ ''εi''2''xi xi''T ]를 갖는다.

7. 2. 유한 표본 속성

OLS 추정량 \scriptstyle\hat\beta와 ''s''2는 ''엄격한 외생성'' 가정이 적용되면 편향되지 않으며, 이는 기대값이 모수의 실제 값과 일치함을 의미한다.[24][증명]

만약 엄격한 외생성이 유지되지 않는다면 (외생성이 과거의 충격에 대해서만 가정되고 미래의 충격에 대해서는 가정되지 않는 많은 시계열 모형의 경우와 같이) 이러한 추정량은 유한 표본에서 편향될 것이다.

\scriptstyle\hat\beta의 ''분산-공분산 행렬''(또는 간단히 ''공분산 행렬'')은 다음과 같다.[25]

:

\operatorname{Var}[\, \hat\beta \mid X \,] = \sigma^2\left(X ^\operatorname{T} X\right)^{-1} = \sigma^2 Q.



각 계수 \scriptstyle\hat\beta_j의 표준 오차는 이 행렬의 ''j''번째 대각선 요소의 제곱근과 같다. 이 표준 오차의 추정값은 알려지지 않은 양 ''σ''2를 추정값 ''s''2로 대체하여 얻는다. 따라서,

:

\widehat{\operatorname{s.\!e.}}(\hat{\beta}_j) = \sqrt{s^2 \left(X ^\operatorname{T} X\right)^{-1}_{jj}}



추정량 \scriptstyle\hat\beta가 모형의 잔차와 상관관계가 없다는 것도 쉽게 보일 수 있다.[25]

:

\operatorname{Cov}[\, \hat\beta,\hat\varepsilon \mid X\,] = 0.



''가우스-마르코프 정리''는 ''구형 오차'' 가정(즉, 오차는 상관관계가 없고 등분산성을 가져야 한다) 하에서 추정량 \scriptstyle\hat\beta가 선형 비편향 추정량의 클래스에서 효율적이라고 명시한다. 이것은 ''최량 선형 불변 추정량''(BLUE)이라고 불린다. 효율성은 다른 추정량 \scriptstyle\tilde\beta를 찾아야 하는 경우와 같이 이해해야 하며, 이는 ''y''에서 선형적이고 비편향적이며, 다음을 만족한다. [25]

:

\operatorname{Var}[\, \tilde\beta \mid X \,] - \operatorname{Var}[\, \hat\beta \mid X \,] \geq 0



이것이 비음정치 행렬이라는 의미에서. 이 정리는 매우 제한적인 선형 비편향 추정량 클래스에서만 최적성을 확립한다. 오차 항 ''ε''의 분포에 따라 다른 비선형 추정량이 OLS보다 더 나은 결과를 제공할 수 있다.

7. 2. 1. 정규성 가정

지금까지 열거된 속성은 오차항의 기본 분포에 관계없이 모두 유효하다. 그러나, 만약 ''정규성 가정'' (즉, ''ε'' ~ ''N''(0, ''σ''2''In'') ) 이 성립한다고 가정한다면, OLS 추정량의 추가적인 속성을 언급할 수 있다.

추정량 \scriptstyle\hat\beta정규 분포를 따르며, 평균과 분산은 다음과 같다.[26]

:

\hat\beta\ \sim\ \mathcal{N}\big(\beta,\ \sigma^2(X ^\mathrm{T} X)^{-1}\big).



이 추정량은 모델에 대한 크라메르-라오 하한에 도달하므로, 모든 불편 추정량 클래스에서 최적이다.[17] 가우스-마르코프 정리와 달리, 이 결과는 정규 분포 오차항의 경우에만 선형 및 비선형 추정량 모두에서 최적성을 확립한다는 점에 유의해야 한다.

추정량 ''s''2카이제곱 분포에 비례한다:[27]

:

s^2\ \sim\ \frac{\sigma^2}{n-p} \cdot \chi^2_{n-p}



이 추정량의 분산은 2''σ''4/(''n'' − ''p'') 와 같으며, 이는 2''σ''4/''n''의 크라메르-라오 하한에 도달하지 못한다. 그러나 ''s''2 추정량보다 분산이 작은 ''σ''2의 불편 추정량은 없다는 것이 밝혀졌다.[28] 편향된 추정량을 허용하고, 모델의 제곱 잔차 합(SSR)에 비례하는 추정량 클래스를 고려하면, 이 클래스에서 최적 (평균 제곱 오차의 의미에서)인 추정량은 ~''σ''2 = SSR ''/'' (''n'' − ''p'' + 2) 이며, 이는 회귀 변수가 하나만 있는 경우 (1=''p'' = 1) 크라메르-라오 하한을 능가한다.[29]

더욱이, 추정량 \scriptstyle\hat\beta와 ''s''2는 독립 확률 변수이며,[30] 회귀에 대한 t-검정 및 F-검정을 구성할 때 유용하게 사용되는 사실이다.

7. 2. 2. 영향력 있는 관찰

앞서 언급했듯이, 추정량 \hat\beta는 ''y''에 대해 선형이며, 이는 종속 변수 ''yi''의 선형 결합을 나타낸다는 의미이다. 이 선형 결합의 가중치는 회귀 변수 ''X''의 함수이며, 일반적으로 동일하지 않다. 높은 가중치를 가진 관찰은 추정량 값에 더 뚜렷한 영향을 미치기 때문에 '''영향력 있는''' 것으로 간주된다.

어떤 관찰이 영향력이 있는지 분석하기 위해 특정 ''j''번째 관찰을 제거하고 추정된 양이 얼마나 변경될지 고려한다(잭나이프 방법과 유사하게). OLS 추정량 ''β''의 변화는 다음이 될 수 있음이 밝혀졌다.[31]

:

\hat\beta^{(j)} - \hat\beta = - \frac{1}{1-h_j} (X ^\mathrm{T} X)^{-1}x_j ^\mathrm{T} \hat\varepsilon_j\,,



여기서 ''hj'' = ''xj''T (''X''T''X'')−1''xj''는 모자 행렬 ''P''의 ''j''번째 대각선 요소이고, ''xj''는 ''j''번째 관찰에 해당하는 회귀 변수의 벡터이다. 마찬가지로, 데이터 세트에서 해당 관찰을 생략하여 ''j''번째 관찰에 대한 예측 값의 변화는 다음이 된다.[31]

:

\hat{y}_j^{(j)} - \hat{y}_j = x_j ^\mathrm{T} \hat\beta^{(j)} - x_j ^\operatorname{T} \hat\beta = - \frac{h_j}{1-h_j}\,\hat\varepsilon_j



모자 행렬의 속성에서 0 ≤ ''hj'' ≤ 1이며, 그 합은 ''p''가 되므로 평균적으로 ''hj'' ≈ ''p/n''가 된다. 이러한 양 ''hj''를 '''레버리지'''라고 하며, 높은 ''hj''를 가진 관찰을 '''레버리지 점'''이라고 한다.[32] 일반적으로 높은 레버리지를 가진 관찰은 오류가 있는지, 이상치인지, 또는 다른 방식으로 나머지 데이터 세트와 다른지 신중하게 조사해야 한다.

7. 2. 3. 분할 회귀

때때로 회귀분석의 변수와 해당 파라미터는 논리적으로 두 그룹으로 나눌 수 있으며, 회귀분석은 다음과 같은 형식을 취한다.

:

y = X_1\beta_1 + X_2\beta_2 + \varepsilon,



여기서 ''X''1과 ''X''2는 차원이 ''n''×''p''1, ''n''×''p''2이며, ''β''1, ''β''2는 ''p''1×1과 ''p''2×1 벡터이고 ''p''1 + ''p''2 = ''p''이다.

'''프리쉬-워-러벨 정리'''는 이 회귀분석에서 잔차 \hat\varepsilon와 OLS 추정치 \scriptstyle\hat\beta_2는 다음 회귀분석에서 ''β''2에 대한 잔차 및 OLS 추정치와 수치적으로 동일하다고 명시한다.[33]

:

M_1y = M_1X_2\beta_2 + \eta\,,



여기서 ''M''1은 회귀 변수 ''X''1에 대한 소멸 행렬이다.

이 정리는 여러 이론적 결과를 확립하는 데 사용할 수 있다. 예를 들어, 상수항과 다른 회귀 변수를 갖는 회귀분석은 종속 변수와 회귀 변수에서 평균을 빼고 상수항 없이 평균 제거된 변수에 대해 회귀분석을 실행하는 것과 동일하다.

7. 2. 4. 제약된 추정

회귀 계수가 선형 방정식 시스템을 만족한다고 가정해 보자.

: ''Q''T ''β'' = ''c'',

여기서 ''Q''는 풀 랭크의 ''p''×''q'' 행렬이고, ''c''는 알려진 상수의 ''q''×1 벡터이며, ''q'' < ''p''이다. 이 경우 최소 제곱 추정은 제약 조건 ''A''를 만족하는 모델의 제곱 잔차 합을 최소화하는 것과 동일하다. '''제약된 최소 제곱(CLS)''' 추정량은 명시적인 공식으로 제공될 수 있다:[34]

: ''β''^''c'' = ''β'' - (''X''T ''X'')-1''Q''(''Q'' T (''X''T''X'')-1''Q'')-1(''Q''T ''β'' - ''c'').

제약된 추정량에 대한 이 표현식은 행렬 ''X''T''X''가 가역적일 때 유효하다. 이 기사의 처음부터 이 행렬이 풀 랭크라고 가정했으며, 랭크 조건이 실패하면 ''β''를 식별할 수 없다는 점에 유의했다. 그러나 제약 조건 ''A''를 추가하면 ''β''를 식별할 수 있게 되어 추정량 공식을 찾고 싶을 수 있다. 추정량은 다음과 같다.[35]

: ''β''^''c'' = ''R''(''R''T ''X''T ''XR'')-1''R''T ''X''T ''y'' + (''I''p - ''R''(''R''T ''X''T ''XR'')-1''R''T ''X''T ''X'')''Q''(''Q''T ''Q'')-1''c'',

여기서 ''R''은 행렬 [''Q'' ''R'']가 비특이적이고 1=''R''T''Q'' = 0을 만족하는 ''p''×(''p'' − ''q'') 행렬이다. 이러한 행렬은 항상 찾을 수 있지만 일반적으로 고유하지는 않다. 두 번째 공식은 ''X''T''X''가 가역적인 경우 첫 번째 공식과 일치한다.[35]

7. 3. 큰 표본 속성

최소제곱 추정량은 선형 회귀 모형 파라미터 ''β''의 점 추정이다. 중심 극한 정리를 적용하여 점근적 속성을 도출할 수 있다.

모형 가정을 만족하는 경우, ''β''에 대한 최소제곱 추정량이 일치성을 가지며 (즉, \hat\beta가 확률 수렴하여 ''β''에 수렴) 점근적으로 정규 분포를 따른다는 것을 보일 수 있다.[증명]

: (\hat\beta - \beta)\ \xrightarrow{d}\ \mathcal{N}\big(0,\;\sigma^2Q_{xx}^{-1}\big),

여기서 Q_{xx} = X ^\operatorname{T} X.이다.

7. 3. 1. 구간

벡터 \hat{\beta}의 ''j''번째 구성 요소에 대한 양측 신뢰 구간은 다음과 같이 구성할 수 있다.

:\beta_j \in \bigg[\

\hat\beta_j \pm q^{\mathcal{N}(0, 1)}_{1 - \frac{\alpha}{2}}\!\sqrt{\hat{\sigma}^2 \left[Q_{xx}^{-1}\right]_{jj}}\

\bigg]

1 − ''α'' 신뢰 수준에서.

여기서 ''q''는 표준 정규 분포의 분위수 함수를 나타내고, [·]''jj''는 행렬의 ''j''번째 대각 요소이다.

마찬가지로, ''σ''2에 대한 최소제곱 추정량도 일관성을 가지며 점근적으로 정규 분포를 따르며( ''εi''의 4차 모멘트가 존재하는 경우) 점근 분포는 다음과 같다.

:(\hat{\sigma}^2 - \sigma^2)\ \xrightarrow{d}\ \mathcal{N} \left(0,\;\operatorname{E}\left[\varepsilon_i^4\right] - \sigma^4\right).

이러한 점근적 분포는 예측, 가설 검정, 다른 추정량 구성 등에 사용될 수 있다. 예를 들어 예측 문제를 고려해 보자. x_0이 회귀 변수의 분포 영역 내의 어떤 점이라고 가정하고, 해당 지점에서 반응 변수가 무엇일지 알고 싶어한다. 평균 반응은 양 y_0 = x_0^\mathrm{T} \beta이고, 예측 반응은 \hat{y}_0 = x_0^\mathrm{T} \hat\beta이다. 분명히 예측 반응은 확률 변수이며, 해당 분포는 \hat{\beta}의 분포에서 파생될 수 있다.

:\left(\hat{y}_0 - y_0\right)\ \xrightarrow{d}\ \mathcal{N}\left(0,\;\sigma^2 x_0^\mathrm{T} Q_{xx}^{-1} x_0\right),

이를 통해 평균 반응 y_0에 대한 신뢰 구간을 구성할 수 있다.

:y_0 \in \left[\ x_0^\mathrm{T} \hat{\beta} \pm q^{\mathcal{N}(0, 1)}_{1 - \frac{\alpha}{2}}\!\sqrt{\hat\sigma^2 x_0^\mathrm{T} Q_{xx}^{-1} x_0}\ \right] 1 − ''α'' 신뢰 수준에서.

7. 3. 2. 가설 검정

두 가지 가설 검정이 널리 사용된다. 첫째, 추정된 회귀 방정식이 응답 변수의 모든 값이 표본 평균과 같다고 예측하는 것보다 더 나은지, 즉 설명력이 있는지 확인하기 위해 F-검정을 사용한다. 계산된 F-값이 미리 선택된 유의 수준에 대한 임계값을 초과하면 설명력이 없다는 귀무 가설이 기각되고, 회귀가 설명력을 가진다는 대립 가설이 채택된다. 그렇지 않으면 설명력이 없다는 귀무 가설이 채택된다.

둘째, 각 설명 변수의 추정 계수가 0과 유의하게 다른지, 즉 해당 설명 변수가 실제로 응답 변수를 예측하는 데 설명력이 있는지 확인하기 위해 t-통계량을 사용한다. 계수의 t-통계량은 계수 추정치를 표준 오차로 나눈 값이다. t-통계량이 미리 결정된 값보다 크면 참 계수가 0이라는 귀무 가설이 기각되고, 변수가 설명력을 가지며 해당 계수는 0과 유의하게 다르다고 판단한다. 그렇지 않으면 참 계수의 값이 0이라는 귀무 가설이 채택된다.

또한, 초우 검정은 두 하위 표본이 동일한 기본 참 계수 값을 갖는지 검정하는 데 사용된다. 각 하위 집합 및 결합된 데이터 세트에 대한 회귀의 제곱 잔차 합을 비교하여 F-통계량을 계산하고, 이 값이 임계값을 초과하면 두 하위 집합 간에 차이가 없다는 귀무 가설이 기각된다. 그렇지 않으면 귀무가설은 채택된다.

8. 실제 데이터 예시

다음 데이터 세트는 30~39세 미국 여성의 평균 키와 몸무게를 제공한다(''The World Almanac and Book of Facts, 1975''에서 발췌).

키 (m)1.471.501.521.551.57
몸무게 (kg)52.2153.1254.4855.8457.20
키 (m)1.601.631.651.681.70
몸무게 (kg)58.5759.9361.2963.1164.47
키 (m)1.731.751.781.801.83
몸무게 (kg)66.2868.1069.9272.1974.46



종속 변수가 하나만 모델링될 때, 산점도는 종속 변수와 회귀 변수 간의 관계의 형태와 강도를 보여준다. 또한 이상값이나 이분산성과 같이 적합된 회귀 모델의 해석을 복잡하게 할 수 있는 데이터의 다른 측면을 나타낼 수 있다. 산점도는 관계가 강하고 이차 함수로 근사될 수 있음을 시사한다. OLS(최소 자승법)는 회귀 변수 키2를 도입하여 비선형 관계를 처리할 수 있다. 그러면 회귀 모델은 다음과 같은 다중 선형 모델이 된다.

:w_i = \beta_1 + \beta_2 h_i + \beta_3 h_i^2 + \varepsilon_i.

적합된 회귀


대부분의 통계 패키지의 출력은 다음과 유사하다.

방법최소 제곱
종속 변수몸무게
관측치15

매개변수표준 오차t-통계량p-값

\beta_1128.812816.30837.89860.0000
\beta_2–143.162019.8332–7.21830.0000
\beta_361.96036.008410.31220.0000

R20.9989회귀의 S.E.0.2516
수정된 R20.9987모델 제곱합692.61
로그 우도1.0890잔차 제곱합0.7595
더빈-왓슨 통계량2.1013총 제곱합693.37
아카이케 기준0.2548F-통계량5471.2
슈바르츠 기준0.3964p-값 (F-통계량)0.0000



이 표에서:


  • ''값'' 열은 매개변수 ''βj''의 최소 제곱 추정치를 제공한다.
  • ''표준 오차'' 열은 각 계수 추정치의 표준 오차를 보여준다.
  • ''t-통계량'' 및 ''p-값'' 열은 계수 중 어느 것이라도 0과 같을 수 있는지 테스트하고 있다. 오류 ε가 정규 분포를 따르면 ''t''는 스튜던트 t 분포를 따른다. ''t''의 큰 값은 귀무 가설을 기각할 수 있고 해당 계수가 0이 아님을 나타낸다. ''p''-값은 유의 수준으로 표현한다. 일반적으로 0.05 미만의 ''p''-값은 모집단 계수가 0이 아님을 나타내는 증거로 간주된다.
  • ''R-제곱''은 회귀의 적합도를 나타내는 결정 계수이다.
  • ''수정된 R-제곱''은 회귀의 설명력에 기여하지 않는 과도한 수의 회귀 변수에 대한 페널티를 부과하도록 설계되었다.
  • ''로그 우도''는 오류가 정규 분포를 따른다고 가정하여 계산된다.
  • ''더빈-왓슨 통계량''은 잔차 간에 직렬 상관 관계가 있는지 테스트한다. 경험상 2보다 작은 값은 양의 상관 관계의 증거가 된다.
  • ''아카이케 정보 기준''과 ''슈바르츠 기준''은 모두 모델 선택에 사용된다. 일반적으로 두 개의 대안 모델을 비교할 때, 이 기준 중 하나의 작은 값은 더 나은 모델을 나타낸다.
  • ''회귀의 표준 오차''는 오류 항의 표준 오차인 ''σ''의 추정치이다.
  • ''총 제곱합'', ''모델 제곱합'', ''잔차 제곱합''은 회귀에 의해 표본의 초기 변동이 얼마나 설명되었는지 알려준다.
  • ''F-통계량''은 모든 계수(절편 제외)가 0과 같다는 가설을 테스트하려고 시도한다.


잔차 플롯


최소 제곱법 분석은 종종 모델의 가정된 형태에서 데이터의 이탈을 감지하도록 설계된 진단 플롯을 포함한다. 다음은 몇 가지 일반적인 진단 플롯이다.

  • 모델의 설명 변수에 대한 잔차. 이러한 변수 간의 비선형 관계는 조건부 평균 함수의 선형성이 유지되지 않을 수 있음을 시사한다. 설명 변수의 다른 수준에 대한 잔차의 서로 다른 수준의 가변성은 가능한 이분산성을 시사한다.
  • 모델에 없는 설명 변수에 대한 잔차. 이러한 변수에 대한 잔차의 모든 관계는 이러한 변수를 모델에 포함하는 것을 고려할 것을 제안한다.
  • 적합 값 \hat{y}에 대한 잔차.
  • 이전 잔차에 대한 잔차. 이 플롯은 잔차의 직렬 상관 관계를 식별할 수 있다.


회귀 모델을 사용하여 통계적 추론을 수행할 때 중요한 고려 사항은 데이터가 어떻게 표본 추출되었는지이다. 이 예에서 데이터는 개별 여성의 측정값이 아닌 평균이다. 모델의 적합도는 매우 좋지만, 이것이 개별 여성의 체중을 키만으로 높은 정확도로 예측할 수 있음을 의미하지는 않는다.

8. 1. 반올림에 대한 민감도

이 예시는 이러한 계산으로 결정된 계수가 데이터를 어떻게 준비하느냐에 따라 민감하게 변할 수 있음을 보여준다. 키는 원래 가장 가까운 인치 단위로 반올림되어 제공되었으며, 이를 센티미터 단위로 변환하고 반올림했다. 변환 계수가 1인치당 2.54cm이므로, 이는 정확한 변환이 아니다. 원래의 인치 값은 Round(x/0.0254)를 사용하여 복원한 다음, 반올림 없이 미터법으로 다시 변환할 수 있다.

상수2
반올림하여 미터법으로 변환함.128.8128−143.16261.96033
반올림 없이 미터법으로 변환함.119.0205−131.507658.5046



정확하고 잘못 변환된 데이터에 대한 이차 함수 적합의 잔차.


이러한 두 방정식 중 하나를 사용하여 키가 1.6764 m인 여성의 체중을 예측하면 유사한 값(반올림 시 62.94 kg, 반올림 없음 시 62.98 kg)이 나온다. 따라서 데이터의 겉보기에 작은 변화가 계수에 실제 영향을 미치지만, 방정식의 결과에는 작은 영향을 미친다.

데이터 범위 중간에서는 무해해 보일 수 있지만, 극단적인 경우나 적합된 모델이 데이터 범위를 벗어나서 투사되는 경우(외삽)에는 중요해질 수 있다.

이것은 흔한 오류를 강조한다. 이 예시는 OLS(최소 자승법, Ordinary least squares)를 오용하고 있는데, OLS는 본질적으로 독립 변수(이 경우 키)의 오류가 0이거나 적어도 무시할 수 있어야 한다. 가장 가까운 인치로의 초기 반올림과 실제 측정 오류는 유한하고 무시할 수 없는 오류를 구성한다. 결과적으로, 적합된 매개변수는 가정된 최상의 추정치가 아니다. 완전히 허위는 아니지만, 추정의 오류는 ''x'' 및 ''y'' 오류의 상대적 크기에 따라 달라진다.

9. 덜 현실적인 데이터 예시

9. 1. 문제 설정

극좌표계에서 두 물체 궤도의 방정식은 일반적으로 r(\theta) = \frac{p}{1-e\cos(\theta)}로 표현된다. 여기서 r(\theta)는 한 물체가 다른 물체로부터 떨어진 거리를 나타내는 반지름이며, pe는 궤도의 경로를 결정하는 변수이다.

다음은 측정된 데이터이다.

\theta (도)43455293108116
r(\theta)4.71264.55424.04192.21871.89101.7599



주어진 데이터에 대해 최소제곱법을 사용하여 ep의 근삿값을 구해야 한다.

9. 2. 해법

방정식 r(\theta)\frac{1}{r(\theta)} = \frac{1}{p} - \frac{e}{p}\cos(\theta)로 다시 써서 선형 형태로 변환한다. 이때, 근점에 맞추기 위해 \cos(\theta)\cos(\theta-\theta_0)=\cos(\theta)\cos(\theta_0)+\sin(\theta)\sin(\theta_0)로 확장한다. 이는 \cos(\theta)와 추가 기반 함수 \sin(\theta) 모두에 대해 선형이며, \tan\theta_0=\sin(\theta_0)/\cos(\theta_0)을 추출하는데 사용된다.

관측 데이터를 나타내기 위해 원래의 두 매개변수 형식을 사용하면, A^{T}A \binom{x}{y} = A^{T}b 와 같은 형태가 된다. 여기서 x\frac{1}{p}이고 y\frac{e}{p}이다. A는 첫 번째 열이 \frac{1}{p}의 계수이고 두 번째 열이 \frac{e}{p}의 계수이며, b는 각 \frac{1}{r(\theta)}에 대한 값으로 구성된다.

구체적인 예시로, A = \begin{bmatrix} 1 & -0.731354\\1 & -0.707107\\1 & -0.615661\\1&\ 0.052336\\1& 0.309017\\1&0.438371 \end{bmatrix}이고 b = \begin{bmatrix} 0.21220\\

0.21958\\

0.24741\\

0.45071\\

0.52883\\

0.56820\end{bmatrix}이다.

이를 풀면 \binom{x}{y} = \binom{0.43478}{0.30435}가 된다.

따라서 p=\frac{1}{x} = 2.3000 이고 e=p\cdot y = 0.70001이다.

10. 경사 하강법과의 비교

정규방정식은 경사 하강법과 마찬가지로 예측 알고리즘에 해당한다.[37] 경사 하강법은 수학적 최적화 알고리즘으로서 적절한 학습비율(learning rate)을 설정해야 하고 많은 연산량이 필요하지만, 정규방정식에는 그와 같은 단점이 없다.[37] 하지만 정규방정식은 행렬 연산에 기반하기 때문에 피처의 개수가 매우 많을 경우 연산이 느려지는 것을 피할 수 없다.[37] 반면 경사 하강법은 아무리 많은 피처가 존재하더라도 일정한 시간 내에 해법을 찾는 것이 가능하다.[37] 그러므로 예측 알고리즘을 선택할 때 피처의 개수에 따라 알맞은 것을 선택하여야 한다.[37]

참조

[1] 웹사이트 The Origins of Ordinary Least Squares Assumptions https://mathvoices.a[...] 2024-05-16
[2] 웹사이트 What is a complete list of the usual assumptions for linear regression? https://stats.stacke[...] 2022-09-28
[3] 서적 Econometric Theory https://archive.org/[...] John Wiley & Sons
[4] 서적 Econometrics Princeton University Press
[5] 문서 Hayashi
[6] 서적 Adjustment Computations: Spatial Data Analysis https://books.google[...] 2006-06-12
[7] 서적 GNSS – Global Navigation Satellite Systems: GPS, GLONASS, Galileo, and more https://books.google[...] 2007-11-20
[8] 서적 GPS: Theory, Algorithms and Applications https://books.google[...] 2007-10-05
[9] 문서 Hayashi
[10] 간행물 The Hat Matrix in Regression and ANOVA 1978
[11] 문서 Julian Faraway (2000), ''Practical Regression and Anova using R'' https://cran.r-proje[...]
[12] 서적 Mathematics of Statistics van Nostrand
[13] 서적 Standard Mathematical Tables and Formulae Chapman&Hall/CRC
[14] 문서 Hayashi
[15] 웹사이트 Line Estimation https://mlmadesimple[...] 2014-05-07
[16] 문서 Hayashi
[17] 문서 Hayashi
[18] 문서 Hayashi
[19] 문서 Hayashi
[20] 문서 Hayashi
[21] 문서 Hayashi
[22] 간행물 Assumptions of multiple regression: Correcting two misconceptions https://scholarworks[...] 2013
[23] 웹사이트 Memento on EViews Output https://scholar.harv[...] 2020-12-28
[24] 문서 Hayashi
[25] 문서 Hayashi
[26] 서적 Advanced Econometrics https://archive.org/[...] Harvard University Press
[27] 문서 Amemiya
[28] 서적 Linear Statistical Inference and its Applications J. Wiley & Sons
[29] 문서 Amemiya
[30] 문서 Amemiya
[31] 서적 Estimation and Inference in Econometrics Oxford University Press
[32] 문서 Davidson
[33] 문서 Davidson
[34] 문서 Amemiya
[35] 문서 Amemiya
[36] 서적 Model Selection and Multi-Model Inference https://archive.org/[...] Springer
[37] 웹인용 보관된 사본 https://class.course[...] 2013-04-29



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com