잔차 제곱합
1. 개요
잔차 제곱합(RSS)은 통계학에서 회귀 모델의 적합성을 평가하는 데 사용되는 지표이다. 독립 변수가 하나인 모델에서 RSS는 예측값과 실제 값의 차이(잔차)를 제곱하여 합산한 값으로 계산된다. RSS는 피어슨 상관 계수와 관련이 있으며, 결정 계수가 1에 가까울수록 RSS는 작아져 회귀 모델이 데이터를 더 잘 설명함을 의미한다. RSS는 카이제곱 분포와 관련이 있으며, 자유도와 함께 회귀 모형의 적합도를 평가하는 데 사용될 수 있다.
| 분야 | 통계학 |
|---|---|
| 하위 분야 | 회귀 분석 |
| 측정 대상 | 데이터와 추정 모델 간의 불일치 |
| 잔차 제곱합 | 관측값과 예측값 사이의 차이를 제곱하여 모두 더한 값 |
|---|---|
| 계산 | '각 데이터 포인트에 대해: (실제 값 - 예측 값)2을 계산하고, 모든 데이터 포인트에 대해 이 값들을 더함' |
| 사용 목적 | 모델 적합도 평가 가설 검정 모수 추정 |
|---|---|
| 관련 개념 | 평방합의 분해 총 제곱합 설명 제곱합 |
-
최소제곱법 -
평균 제곱 오차
평균 제곱 오차(MSE)는 추정량 또는 예측 변수의 정확성을 평가하는 척도로, 추정값과 실제 값 또는 예측값과 실제 관측값 사이의 오차 제곱 평균으로 계산되며, 추정량의 분산과 편향 제곱의 합으로 분해될 수 있고, 모델 적합성 평가 및 추정기 효율성 비교에 사용된다. -
최소제곱법 -
정규방정식
정규 방정식은 선형 모델에서 파라미터를 추정하는 데 사용되는 공식으로, 최소제곱법을 통해 파라미터를 추정하고 예측값을 계산하며, `X<sup>T</sup>X`가 가역 행렬일 경우 ${\hat {\beta }}=(X^{T}X)^{-1}X^{T}y$ 로 표현되는 OLS 추정량을 구할 수 있다.
2. 정의
잔차 제곱합(Residual Sum of Squares, RSS)은 예측값과 실제 값의 차이, 즉 잔차를 제곱하여 모두 더한 값이다. 이 값은 회귀 모형의 적합도를 평가하는 데 사용된다.
단일 설명 변수를 사용하는 모형에서 잔차 제곱합은 다음과 같이 주어지며,
:
이는 하나의 종속변수에 대해서 계산하는 식이다.
n개의 관측치와 k개의 설명변수를 갖는 다중 회귀 모형에서, 잔차 제곱합은 다음과 같이 행렬을 사용하여 표현할 수 있다.
:
여기서,
* y는 종속 변수 관측값의 n × 1 벡터이다.
* X는 n × k 행렬로, 각 열은 k개 설명변수 각각에 대한 관측값 벡터이다.
* 는 실제 계수의 k × 1 벡터이다.
* e는 실제 오차의 n × 1 벡터이다.
이때 잔차 제곱합은 다음과 같다.
:
이는 잔차의 노름 제곱과 같다.
2.1. 하나의 독립변수
독립변수가 하나인 모델에서 잔차 제곱합(RSS)은 다음과 같이 계산된다.
:
여기서 yi는 i번째 예측할 변수 값이고, xi는 i번째 독립변수의 값이며, 는 yi의 예측값(라고도 함)이다. 표준 선형 단순 회귀모델에서는 와 같이 표현되며, 여기서 와 는 계수이고, y와 x는 각각 종속변수와 독립변수이며, ε는 오차이다.
잔차 제곱합은 잔차 의 제곱합이며, 다음과 같이 표현된다.
:
여기서 는 상수 의 추정 값이고, 는 기울기 계수 의 추정 값이다.
2.2. 일반적인 경우 (행렬 표현식)
n개의 관측값과 k개의 설명변수(첫 번째 설명변수는 상수항을 의미하는 단위 벡터)를 갖는 일반적인 선형 회귀 모형에서 잔차 제곱합(RSS)은 행렬을 사용하여 표현할 수 있다.
선형 회귀 모형은 다음과 같다.
:
여기서,
* y는 종속 변수 관측값의 n × 1 벡터이다.
* X는 n × k 행렬로, 각 열은 k개 설명변수 각각에 대한 관측값 벡터이다.
* 는 실제 계수의 k × 1 벡터이다.
* e는 실제 오차의 n × 1 벡터이다.
최소제곱법으로 추정된 회귀 계수 는 다음과 같다.
:
잔차 벡터 를 이용해 RSS를 계산하면 다음과 같다.
:
이는 잔차의 노름 제곱과 같다. 위 식은 다음과 같이 다시 정리할 수 있다.
:
여기서 H는 모자행렬 또는 선형 회귀에서의 투영 행렬이다.