잔차 제곱합

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 정의
- 2.1. 하나의 독립변수
- 2.2. 일반적인 경우 (행렬 표현식)
3. 피어슨 상관 계수와의 관계
4. 추가 설명자료
참조

1. 개요

잔차 제곱합(RSS)은 통계학에서 회귀 모델의 적합성을 평가하는 데 사용되는 지표이다. 독립 변수가 하나인 모델에서 RSS는 예측값과 실제 값의 차이(잔차)를 제곱하여 합산한 값으로 계산된다. RSS는 피어슨 상관 계수와 관련이 있으며, 결정 계수가 1에 가까울수록 RSS는 작아져 회귀 모델이 데이터를 더 잘 설명함을 의미한다. RSS는 카이제곱 분포와 관련이 있으며, 자유도와 함께 회귀 모형의 적합도를 평가하는 데 사용될 수 있다.

더 읽어볼만한 페이지

최소제곱법 - 평균 제곱 오차
평균 제곱 오차(MSE)는 추정량 또는 예측 변수의 정확성을 평가하는 척도로, 추정값과 실제 값 또는 예측값과 실제 관측값 사이의 오차 제곱 평균으로 계산되며, 추정량의 분산과 편향 제곱의 합으로 분해될 수 있고, 모델 적합성 평가 및 추정기 효율성 비교에 사용된다.
최소제곱법 - 정규방정식
정규 방정식은 선형 모델에서 파라미터를 추정하는 데 사용되는 공식으로, 최소제곱법을 통해 파라미터를 추정하고 예측값을 계산하며, `X^TX`가 가역 행렬일 경우 ${\hat {\beta }}=(X^{T}X)^{-1}X^{T}y$ 로 표현되는 OLS 추정량을 구할 수 있다.

잔차 제곱합
개요
분야	통계학
하위 분야	회귀 분석
측정 대상	데이터와 추정 모델 간의 불일치
정의
잔차 제곱합	관측값과 예측값 사이의 차이를 제곱하여 모두 더한 값
계산	'각 데이터 포인트에 대해: (실제 값 - 예측 값)²을 계산하고, 모든 데이터 포인트에 대해 이 값들을 더함'
활용
사용 목적	모델 적합도 평가 가설 검정 모수 추정
관련 개념	평방합의 분해 총 제곱합 설명 제곱합

2. 정의

잔차 제곱합(Residual Sum of Squares, RSS)은 예측값과 실제 값의 차이, 즉 잔차를 제곱하여 모두 더한 값이다. 이 값은 회귀 모형의 적합도를 평가하는 데 사용된다.^[1]

단일 설명 변수를 사용하는 모형에서 잔차 제곱합은 다음과 같이 주어지며,

: $\operatorname{RSS} = \sum_{i=1}^n (y_i - f(x_i))^2$

이는 하나의 종속변수에 대해서 계산하는 식이다.

n개의 관측치와 k개의 설명변수를 갖는 다중 회귀 모형에서, 잔차 제곱합은 다음과 같이 행렬을 사용하여 표현할 수 있다.

: $y = X \beta + e$

여기서,

''y''는 종속 변수 관측값의 ''n'' × 1 벡터이다.
''X''는 ''n'' × ''k'' 행렬로, 각 열은 ''k''개 설명변수 각각에 대한 관측값 벡터이다.
$\beta$ 는 실제 계수의 ''k'' × 1 벡터이다.
''e''는 실제 오차의 ''n'' × 1 벡터이다.

이때 잔차 제곱합은 다음과 같다.

:

\operatorname{RSS} = \hat e ^\operatorname{T} \hat e =  \| \hat e \|^2

이는 잔차의 노름 제곱과 같다.

2. 1. 하나의 독립변수

독립변수가 하나인 모델에서 잔차 제곱합(RSS)은 다음과 같이 계산된다.^[3]

:

\operatorname{RSS} = \sum_{i=1}^n (y_i - f(x_i))^2

여기서 ''y''_''i''는 ''i''번째 예측할 변수 값이고, ''x''_''i''는 ''i''번째 독립변수의 값이며,

f(x_i)

는 ''y''_''i''의 예측값(

\hat{y_i}

라고도 함)이다. 표준 선형 단순 회귀모델에서는

y_i = \alpha + \beta x_i+\varepsilon_i\,

와 같이 표현되며, 여기서

\alpha

와

\beta

는 계수이고, ''y''와 ''x''는 각각 종속변수와 독립변수이며, ε는 오차이다.

잔차 제곱합은 잔차

\widehat{\varepsilon\,}_i

의 제곱합이며, 다음과 같이 표현된다.^[1]

:

\operatorname{RSS} = \sum_{i=1}^n (\widehat{\varepsilon\,}_i)^2 = \sum_{i=1}^n (y_i - (\widehat{\alpha\,} + \widehat{\beta\,} x_i))^2

여기서

\widehat{\alpha\,}

는 상수

\alpha

의 추정 값이고,

\widehat{\beta\,}

는 기울기 계수

\beta

의 추정 값이다.

2. 2. 일반적인 경우 (행렬 표현식)

''n''개의 관측값과 ''k''개의 설명변수(첫 번째 설명변수는 상수항을 의미하는 단위 벡터)를 갖는 일반적인 선형 회귀 모형에서 잔차 제곱합(RSS)은 행렬을 사용하여 표현할 수 있다.

선형 회귀 모형은 다음과 같다.

:

y = X \beta + e

여기서,

''y''는 종속 변수 관측값의 ''n'' × 1 벡터이다.
''X''는 ''n'' × ''k'' 행렬로, 각 열은 ''k''개 설명변수 각각에 대한 관측값 벡터이다.
$\beta$ 는 실제 계수의 ''k'' × 1 벡터이다.
''e''는 실제 오차의 ''n'' × 1 벡터이다.

최소제곱법으로 추정된 회귀 계수

\hat \beta

는 다음과 같다.

:

\hat \beta = (X^\operatorname{T} X)^{-1}X^\operatorname{T} y.

잔차 벡터

\hat e = y - X \hat \beta = y - X (X^\operatorname{T} X)^{-1}X^\operatorname{T} y

를 이용해 RSS를 계산하면 다음과 같다.

:

\operatorname{RSS} = \hat e ^\operatorname{T} \hat e = \| \hat e \|^2

이는 잔차의 노름 제곱과 같다. 위 식은 다음과 같이 다시 정리할 수 있다.

:

\operatorname{RSS} = y^\operatorname{T} y - y^\operatorname{T} X(X^\operatorname{T} X)^{-1} X^\operatorname{T} y = y^\operatorname{T} [I - X(X^\operatorname{T} X)^{-1} X^\operatorname{T}] y = y^\operatorname{T} [I - H] y

여기서 ''H''는 모자행렬 또는 선형 회귀에서의 투영 행렬이다.

3. 피어슨 상관 계수와의 관계

최소제곱 회귀선은 $y=ax+b$ 로 표현될 때, 잔차 제곱합( $\operatorname{RSS}$ )은 피어슨 상관 계수(r)를 통해 다음과 같이 나타낼 수 있다.^[1]

: $\operatorname{RSS}=S_{yy}(1-r^2).$

여기서 $r$ 은 피어슨 상관 계수이고, $S_{yy}=\sum_{i=1}^n (\bar{y}-y_i)^2$ 이다. $r^2$ 는 결정 계수를 의미하며, 결정 계수가 1에 가까울수록 $\operatorname{RSS}$ 는 작아진다. 이는 회귀 모형이 데이터를 더 잘 설명한다는 것을 의미한다.

4. 추가 설명자료

카이제곱 분포는 잔차 제곱합과 관련이 있으며, 자유도와 함께 고려하여 회귀 모형의 적합도를 평가하는 데 사용될 수 있다.^[1] 아카이케 정보 기준(AIC)은 최소제곱법과 비교하여 모형의 복잡성과 적합도의 균형을 평가하는 데 사용되는 또 다른 지표이다.^[2]

참조

_[1] 서적 Correlation and regression analysis : a historian's guide University of Wisconsin Press 1994
_[2] 서적 統計・OR活用辞典東京書籍
_[3] 서적 Correlation and regression analysis : a historian's guide University of Wisconsin Press 1994

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com