잔차 제곱합

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

잔차 제곱합(RSS)은 통계학에서 회귀 모델의 적합성을 평가하는 데 사용되는 지표이다. 독립 변수가 하나인 모델에서 RSS는 예측값과 실제 값의 차이(잔차)를 제곱하여 합산한 값으로 계산된다. RSS는 피어슨 상관 계수와 관련이 있으며, 결정 계수가 1에 가까울수록 RSS는 작아져 회귀 모델이 데이터를 더 잘 설명함을 의미한다. RSS는 카이제곱 분포와 관련이 있으며, 자유도와 함께 회귀 모형의 적합도를 평가하는 데 사용될 수 있다.

잔차 제곱합
개요
분야통계학
하위 분야회귀 분석
측정 대상데이터와 추정 모델 간의 불일치
정의
잔차 제곱합관측값과 예측값 사이의 차이를 제곱하여 모두 더한 값
계산'각 데이터 포인트에 대해: (실제 값 - 예측 값)2을 계산하고, 모든 데이터 포인트에 대해 이 값들을 더함'
활용
사용 목적모델 적합도 평가
가설 검정
모수 추정
관련 개념평방합의 분해
총 제곱합
설명 제곱합
📚 더 읽어볼만한 페이지
  • 최소제곱법 - 평균 제곱 오차
    평균 제곱 오차(MSE)는 추정량 또는 예측 변수의 정확성을 평가하는 척도로, 추정값과 실제 값 또는 예측값과 실제 관측값 사이의 오차 제곱 평균으로 계산되며, 추정량의 분산과 편향 제곱의 합으로 분해될 수 있고, 모델 적합성 평가 및 추정기 효율성 비교에 사용된다.
  • 최소제곱법 - 정규방정식
    정규 방정식은 선형 모델에서 파라미터를 추정하는 데 사용되는 공식으로, 최소제곱법을 통해 파라미터를 추정하고 예측값을 계산하며, `X<sup>T</sup>X`가 가역 행렬일 경우 ${\hat {\beta }}=(X^{T}X)^{-1}X^{T}y$ 로 표현되는 OLS 추정량을 구할 수 있다.

2. 정의

잔차 제곱합(Residual Sum of Squares, RSS)은 예측값과 실제 값의 차이, 즉 잔차를 제곱하여 모두 더한 값이다. 이 값은 회귀 모형의 적합도를 평가하는 데 사용된다.

단일 설명 변수를 사용하는 모형에서 잔차 제곱합은 다음과 같이 주어지며,

:\operatorname{RSS} = \sum_{i=1}^n (y_i - f(x_i))^2

이는 하나의 종속변수에 대해서 계산하는 식이다.

n개의 관측치와 k개의 설명변수를 갖는 다중 회귀 모형에서, 잔차 제곱합은 다음과 같이 행렬을 사용하여 표현할 수 있다.

: y = X \beta + e

여기서,
* y는 종속 변수 관측값의 n × 1 벡터이다.
* Xn × k 행렬로, 각 열은 k개 설명변수 각각에 대한 관측값 벡터이다.
* \beta 는 실제 계수의 k × 1 벡터이다.
* e는 실제 오차의 n × 1 벡터이다.

이때 잔차 제곱합은 다음과 같다.

:\operatorname{RSS} = \hat e ^\operatorname{T} \hat e = \| \hat e \|^2

이는 잔차의 노름 제곱과 같다.

2.1. 하나의 독립변수

독립변수가 하나인 모델에서 잔차 제곱합(RSS)은 다음과 같이 계산된다.

:\operatorname{RSS} = \sum_{i=1}^n (y_i - f(x_i))^2

여기서 yii번째 예측할 변수 값이고, xii번째 독립변수의 값이며, f(x_i)yi의 예측값(\hat{y_i}라고도 함)이다. 표준 선형 단순 회귀모델에서는 y_i = \alpha + \beta x_i+\varepsilon_i\,와 같이 표현되며, 여기서 \alpha\beta계수이고, yx는 각각 종속변수독립변수이며, ε는 오차이다.

잔차 제곱합은 잔차 \widehat{\varepsilon\,}_i의 제곱합이며, 다음과 같이 표현된다.

:\operatorname{RSS} = \sum_{i=1}^n (\widehat{\varepsilon\,}_i)^2 = \sum_{i=1}^n (y_i - (\widehat{\alpha\,} + \widehat{\beta\,} x_i))^2

여기서 \widehat{\alpha\,}는 상수 \alpha의 추정 값이고, \widehat{\beta\,}는 기울기 계수 \beta의 추정 값이다.

2.2. 일반적인 경우 (행렬 표현식)

n개의 관측값과 k개의 설명변수(첫 번째 설명변수는 상수항을 의미하는 단위 벡터)를 갖는 일반적인 선형 회귀 모형에서 잔차 제곱합(RSS)은 행렬을 사용하여 표현할 수 있다.

선형 회귀 모형은 다음과 같다.

: y = X \beta + e

여기서,
* y는 종속 변수 관측값의 n × 1 벡터이다.
* Xn × k 행렬로, 각 열은 k개 설명변수 각각에 대한 관측값 벡터이다.
* \beta 는 실제 계수의 k × 1 벡터이다.
* e는 실제 오차의 n × 1 벡터이다.

최소제곱법으로 추정된 회귀 계수 \hat \beta는 다음과 같다.

: \hat \beta = (X^\operatorname{T} X)^{-1}X^\operatorname{T} y.

잔차 벡터 \hat e = y - X \hat \beta = y - X (X^\operatorname{T} X)^{-1}X^\operatorname{T} y를 이용해 RSS를 계산하면 다음과 같다.

:\operatorname{RSS} = \hat e ^\operatorname{T} \hat e = \| \hat e \|^2

이는 잔차의 노름 제곱과 같다. 위 식은 다음과 같이 다시 정리할 수 있다.

:\operatorname{RSS} = y^\operatorname{T} y - y^\operatorname{T} X(X^\operatorname{T} X)^{-1} X^\operatorname{T} y = y^\operatorname{T} [I - X(X^\operatorname{T} X)^{-1} X^\operatorname{T}] y = y^\operatorname{T} [I - H] y

여기서 H는 모자행렬 또는 선형 회귀에서의 투영 행렬이다.

3. 피어슨 상관 계수와의 관계

최소제곱 회귀선y=ax+b로 표현될 때, 잔차 제곱합(\operatorname{RSS})은 피어슨 상관 계수(r)를 통해 다음과 같이 나타낼 수 있다.

:\operatorname{RSS}=S_{yy}(1-r^2).

여기서 r은 피어슨 상관 계수이고, S_{yy}=\sum_{i=1}^n (\bar{y}-y_i)^2 이다. r^2는 결정 계수를 의미하며, 결정 계수가 1에 가까울수록 \operatorname{RSS}는 작아진다. 이는 회귀 모형이 데이터를 더 잘 설명한다는 것을 의미한다.

4. 추가 설명자료

카이제곱 분포는 잔차 제곱합과 관련이 있으며, 자유도와 함께 고려하여 회귀 모형의 적합도를 평가하는 데 사용될 수 있다. 아카이케 정보 기준(AIC)은 최소제곱법과 비교하여 모형의 복잡성과 적합도의 균형을 평가하는 데 사용되는 또 다른 지표이다.