맨위로가기

결정계수

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

결정 계수는 회귀 모형의 적합도를 측정하는 통계적 척도이다. 피어슨 상관 계수의 제곱으로 정의되며, 0과 1 사이의 값을 갖는다. 결정 계수는 종속 변수의 변동성을 회귀 모형이 얼마나 잘 설명하는지를 나타내며, 값이 클수록 모형의 설명력이 높다고 해석할 수 있다. 조정된 결정 계수는 독립 변수의 개수를 고려하여 결정 계수의 단점을 보완하며, 부분 결정 계수는 회귀 모형에 추가 변수의 유용성을 평가하는 데 사용된다. 로지스틱 회귀 분석에서는 유사 결정 계수가 활용된다. 결정 계수는 인과 관계, 누락 변수 편향, 회귀 분석의 적절성 등을 나타내지 않으며, 모델의 성능을 판단할 때 주의해야 한다.

더 읽어볼만한 페이지

  • 최소제곱법 - 평균 제곱 오차
    평균 제곱 오차(MSE)는 추정량 또는 예측 변수의 정확성을 평가하는 척도로, 추정값과 실제 값 또는 예측값과 실제 관측값 사이의 오차 제곱 평균으로 계산되며, 추정량의 분산과 편향 제곱의 합으로 분해될 수 있고, 모델 적합성 평가 및 추정기 효율성 비교에 사용된다.
  • 최소제곱법 - 잔차 제곱합
    잔차 제곱합(RSS)은 통계학에서 회귀 모델의 적합도를 평가하는 지표로, 예측값과 실제 값의 차이를 제곱하여 합산한 값이며, 결정 계수가 1에 가까울수록 회귀 모델이 데이터를 더 잘 설명한다.
  • 회귀분석 - 회귀 분석
    회귀 분석은 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링하고 분석하는 통계적 기법으로, 최소 제곱법 개발 이후 골턴의 연구로 '회귀' 용어가 도입되어 다양한 분야에서 예측 및 인과 관계 분석에 활용된다.
  • 회귀분석 - 로지스틱 회귀
    로지스틱 회귀는 범주형 종속 변수를 다루는 회귀 분석 기법으로, 특히 이항 종속 변수에 널리 사용되며, 오즈에 로짓 변환을 적용하여 결과값이 0과 1 사이의 값을 가지도록 하는 일반화 선형 모형의 특수한 경우이다.
  • 통계학 용어 - 퍼센트 포인트
    퍼센트포인트는 전체 비율을 나타내는 퍼센트와 달리 두 퍼센트 값의 차이를 나타내는 단위로, 경제 지표나 여론조사 등에서 명확한 정보 전달을 위해 중요하며 절대적 변화량을 나타낸다.
  • 통계학 용어 - 편차
    편차는 관측값과 참값의 차이인 오차를 의미하며 통계적 분산 측정에 중요하고, 데이터 분석, 과학 실험, 무선 공학 등에서 활용된다.
결정계수
개요
정의통계학에서, 결정 계수는 종속 변수의 변동 중 독립 변수로 설명되는 변동의 비율을 나타내는 척도임.
설명회귀 모형의 설명력을 나타내는 0에서 1 사이의 값임.
다른 이름설명력
R 제곱
R2
계산
공식R2 = 1 - (SSE / SST)
SSE오차 제곱합 (Sum of Squares for Error)
SST총 제곱합 (Sum of Squares for Total)
변수 설명R2 값이 1에 가까울수록 회귀 모형이 데이터를 잘 설명함.
R2 값이 0에 가까울수록 회귀 모형의 설명력이 낮음.
해석
의미독립 변수가 종속 변수의 변동을 얼마나 설명하는지 나타냄.
주의점결정 계수가 높다고 해서 반드시 모형이 적합한 것은 아님.
과적합의 가능성을 고려해야 함.
인과관계를 나타내는 것은 아님.
활용
분야경제학
사회과학
공학
자연과학
사용 예시회귀 모형의 성능 평가
변수 선택
모형 비교
장점 및 단점
장점이해하기 쉬움.
계산하기 쉬움.
모형의 설명력을 직관적으로 나타냄.
단점과적합에 민감함.
모형의 적합성을 완벽하게 평가할 수 없음.
변수의 중요도를 평가하기 어려움.
R 제곱의 일반화
수식R2 = 1 - (VARerr / VARtot)
VARerr예측 오차의 분산, 이는 예측 변수의 특정 모델을 사용하여 달성할 수 없는 예측 불가능한 부분의 분산을 의미.
VARtot해당 변수의 표본 분산. 즉, 모델에 의존하지 않고 변동하는 정도.
조정된 R 제곱
설명회귀식에 독립변수가 추가되면 결정 계수가 증가하는 경향이 있는데, 이를 보정하기 위해 조정된 결정 계수가 사용됨.
공식1-(1-R2)(n-1)/(n-p-1)
n표본 크기
p독립변수의 개수
해석시 유의사항
설명R2는 항상 0과 1 사이의 값을 가지지만, 0.0은 모형이 완전히 잘못되었음을 의미하고 1.0은 모형이 완벽하게 정확함을 의미하지는 않음.
설명 (추가)R2가 통계적으로 중요한지 여부를 결정하기 위해 적합도 검정을 수행하여 귀무 가설이 기각되면 모형은 유용하다고 할 수 있음.

2. 정의

결정계수는 피어슨 상관 계수(PCC) r의 제곱값(r^2)으로 표현된다. 피어슨 상관 계수는 -1과 1 사이의 값을 가지므로, 결정계수(r^2)는 0과 1 사이의 값을 가진다.

데이터 집합에 ''n''개의 값 ''y''1, ..., ''y''''n''이 있고, 각각에 대응하는 예측값 ''f''1, ..., ''f''''n''이 있을 때, 잔차는 e_i = y_i - f_i로 정의된다.

관측된 데이터의 평균을 \bar{y}라고 하면, 다음과 같이 표현할 수 있다.

\bar{y}=\frac{1}{n}\sum_{i=1}^n y_i

이때 데이터 집합의 변동성은 다음 두 가지 제곱합 공식을 사용하여 측정할 수 있다.


  • 잔차 제곱합(SSR): SS_\text{res}=\sum_i (y_i - f_i)^2=\sum_i e_i^2\,
  • 총 제곱합(SST) (데이터의 분산에 비례): SS_\text{tot}=\sum_i (y_i - \bar{y})^2


결정 계수의 가장 일반적인 정의는 다음과 같다.

R^2 = 1 - {SS_{\rm res}\over SS_{\rm tot}}

최상의 경우, 예측값은 관측값과 정확히 일치하여 SS_\text{res}=0이고, R^2 = 1이 된다. 항상 \bar{y}를 예측하는 기준 모델은 R^2 = 0을 갖는다.

결정 계수 R^2에 대한 명확하게 합의된 정의는 없지만, 타롤 쿼르세스[30][31]는 다음 식을 정의로 사용하는 것이 일반적이라고 언급했다.

:R^2\equiv1-\frac{\displaystyle\sum_{i=1}^N\left(y_i-f_i\right)^2}{\displaystyle\sum_{j=1}^N\left(y_j-\overline{y}\right)^2}

이는 잔차의 제곱합을 표본 값의 평균 \overline{y}로부터의 편차 제곱합으로 나눈 것을 1에서 뺀 값이며, 1에 가까울수록 상대적인 잔차가 적다는 것을 나타낸다. 최소제곱법은 이 값을 최대로 하는 파라미터를 선택하는 방법이다. 값의 범위는 1 이하의 실수이며, 주로 0과 1 사이의 값을 가진다.

회귀 방정식이 최소제곱법에 의한 단일 회귀의 회귀선인 경우, 결정 계수는 피어슨 상관 계수의 제곱이 되며, 0 이상 1 이하의 실수가 된다.

일반적인 선형 회귀의 경우, 다음 식들이 등가이며, 이를 정의식으로 사용하기도 한다.

; 추정값의 분산을 표본 값의 분산으로 나눈 것

:R^2\equiv\frac{\displaystyle\sum_{i=1}^N\left(f_i-\overline{f}\right)^2}{\displaystyle\sum_{j=1}^N\left(y_j-\overline{y}\right)^2}

; 표본 값과 추정값과의 상관계수의 제곱

:R^2\equiv\frac{\left\{\displaystyle\sum_{i=1}^N\left(f_i-\overline{f}\right)\left(y_i-\overline{y}\right)\right\}^2}{\left\{\displaystyle\sum_{j=1}^N\left(f_j-\overline{f}\right)^2\right\}\left\{\displaystyle\sum_{k=1}^N\left(y_k-\overline{y}\right)^2\right\}}

선형 회귀 이외의 경우나 최소제곱법 이외의 방법으로 회귀한 경우에는 이 식들이 위의 정의와 동일하지 않을 수 있으므로 주의해야 한다.

2. 1. 일반적인 정의

선형 회귀(오른쪽)가 단순 평균(왼쪽 그래프)에 비해 데이터에 더 잘 맞을수록 ''R''2의 값은 1에 더 가까워진다. 파란색 사각형의 면적은 선형 회귀에 대한 제곱 잔차를 나타낸다. 빨간색 사각형의 면적은 평균값에 대한 제곱 잔차를 나타낸다.


결정 계수의 가장 일반적인 정의는 다음과 같다.

:R^2 = 1 - {SS_{\rm res}\over SS_{\rm tot}}

여기서,

  • 잔차 제곱합(SSR): SS_\text{res}=\sum_i (y_i - f_i)^2=\sum_i e_i^2\,
  • 총 제곱합(SST): SS_\text{tot}=\sum_i (y_i - \bar{y})^2


\bar{y}는 관측된 데이터의 평균값이다.

\bar{y}=\frac{1}{n}\sum_{i=1}^n y_i

최상의 경우, 모델링된 값은 관측된 값과 정확히 일치하여 SS_\text{res}=0R^2 = 1이 된다. 항상 \bar{y}를 예측하는 기준 모델은 R^2 = 0을 갖는다.

일반적인 형태에서, ''R''2은 설명되지 않은 분산의 비율(FVU)과 관련이 있는 것으로 볼 수 있다.[4]

R^2 = 1 - \text{FVU}

''R''2 값이 클수록 회귀 모델이 더 성공적임을 의미한다. 예를 들어 R^2 = 0.49라고 하면, 이는 종속 변수 변동성의 49%가 설명되었고 나머지 51%는 아직 설명되지 않았음을 의미한다.

단순 선형 회귀의 경우, 총 제곱합은 잔차 제곱합과 회귀 제곱합의 합과 같다.

: SS_\text{res}+SS_\text{reg}=SS_\text{tot}

이 결과의 유도는 설명된 제곱합#일반적인 OLS 모델의 분할에서 확인할 수 있다.

이 제곱합 분할은 모델 값 ''ƒ''''i''선형 회귀에 의해 얻어진 경우에 적용된다. 더 완화된 충분 조건은 다음과 같다.

: f_i=\widehat\alpha+\widehat\beta q_i

여기서 ''q''''i''는 ''i'' 또는 다른 자유 매개변수에 의존할 수도 있고 의존하지 않을 수도 있는 임의의 값이다(일반적인 선택 ''q''''i'' = ''x''''i''는 특별한 경우 중 하나이다). 그리고 계수 추정 \widehat\alpha\widehat\beta는 잔차 제곱합을 최소화하여 얻어진다.

이 조건 집합은 중요하며, 적합된 잔차와 모델링된 값의 속성에 대한 여러 가지 함의를 갖는다. 특히, 이 조건 하에서는 다음과 같다.

: \bar{f}=\bar{y}.\,

선형 최소 자승법 다중 회귀 분석(적합된 절편과 기울기 사용)에서 ''R''2은 종속 변수의 관찰된 y와 모델링(예측)된 f 데이터 값 사이의 피어슨 상관 계수 제곱인 \rho^2(y,f)와 같다.

단일 설명 변수를 사용하는 선형 최소 자승법 회귀 분석(적합된 절편과 기울기 사용)에서, 이는 종속 변수 y와 설명 변수 x 사이의 제곱된 피어슨 상관 계수 \rho^2(y,x)와 같다.

이는 다음과 같이 정의된 두 설명 변수 간의 상관 계수와 혼동해서는 안 된다.

: \rho_{\widehat\alpha,\widehat\beta} = {\operatorname{cov}\left(\widehat\alpha,\widehat\beta\right) \over \sigma_{\widehat\alpha} \sigma_{\widehat\beta}},

여기서 두 계수 추정치의 공분산과 표준 편차는 계수 추정치의 공분산 행렬인 (X^T X)^{-1}에서 얻어진다.

더 일반적인 모델링 조건에서 예측된 값이 선형 최소 자승법 회귀 분석과 다른 모델에서 생성될 수 있는 경우, ''R''2 값은 원래 y와 모델링된 f 데이터 값 사이의 상관 계수 제곱으로 계산될 수 있다. 이 경우, 이 값은 모델링된 값이 얼마나 좋은지에 대한 직접적인 척도가 아니라, 모델링된 값에서 α + βƒ_i 형태의 수정된 예측 변수를 생성하여 예측 변수가 얼마나 잘 구성될 수 있는지에 대한 척도이다. Everitt에 따르면,[10] 이 용법은 "결정 계수"라는 용어의 정의, 즉 두 (일반) 변수 간의 상관 관계 제곱이다.

다음과 같은 형태의 다중 회귀 분석을 포함하는 선형 모형을 생각해 보자.

: Y_i = \beta_0 + \sum_{j=1}^p \beta_j X_{i,j} + \varepsilon_i,

여기서 ''i''번째 사례에 대해 {Y_i}는 반응 변수, X_{i,1},\dots,X_{i,p}는 ''p''개 설명 변수, \varepsilon_i는 평균 0을 갖는 오차 항이다. \beta_0,\dots,\beta_p는 알려지지 않은 계수이며, 그 값은 최소 제곱법으로 추정된다.

결정 계수 ''R''2는 모형의 전반적인 적합도를 측정하는 지표이며 [0, 1] 사이의 값이다. ''Y''''i''의 변동성 중 ''X''의 설명 변수들의 선형 조합으로 설명될 수 있는 비율을 나타낸다.[13]

''R''2는 종종 모형의 설명 변수에 의해 "설명되는" 반응 변동의 비율로 해석된다.

  • ''R''2 = 1은 적합된 모형이 y의 모든 변동성을 설명함을 나타낸다.
  • ''R''2 = 0은 '선형' 관계가 없음을 나타낸다(단순 선형 회귀의 경우, 이는 직선 모형이 반응 변수와 설명 변수 사이에서 상수선(기울기 = 0, 절편 = \bar{y})임을 의미한다).
  • ''R''2 = 0.7과 같은 중간 값은 "반응 변수의 분산의 70%는 설명 변수에 의해 설명될 수 있다. 나머지 30%는 알려지지 않은 잠재 변수 또는 내재된 변동성에 기인할 수 있다."와 같이 해석할 수 있다.


''R''2뿐만 아니라 상관 관계 및 연관성에 대한 다른 통계적 설명에도 "상관 관계가 인과 관계를 의미하지는 않는다"는 주의사항이 적용된다. 상관 관계가 변수 간의 인과 관계를 밝히는 데 귀중한 단서를 제공할 수 있지만, 두 변수 간의 추정된 0이 아닌 상관 관계가 한 변수의 값을 변경하면 다른 변수의 값이 변경된다는 증거가 되지는 않는다.

최소 제곱법으로 적합된 단일 설명 변수의 경우, ''R''2는 설명 변수와 반응 변수를 연결하는 피어슨 곱 모멘트 상관 계수의 제곱이다. 더 일반적으로 ''R''2는 구성된 예측 변수와 반응 변수 간의 상관 관계 제곱이다. 하나 이상의 설명 변수가 있는 경우, ''R''2를 다중 결정 계수라고 할 수 있다.

결정 계수 R^2에 대한 명확하게 합의된 정의는 없다. 타롤 쿼르세스[30]에 따르면 8가지 정의가 있으며 주의가 필요하다고 한다.[31] 그러나 다음 식을 정의로 하는 것이 일반적인 듯하다.

표본 값(실측값, 관측값)을 y=\left\{y_1,\ y_2,\ \cdots,\ y_N\right\}, 회귀 방정식에 의한 추정값을 f=\left\{f_1,\ f_2,\ \cdots,\ f_N\right\}으로 한다.

:R^2\equiv1-\frac{\displaystyle\sum_{i=1}^N\left(y_i-f_i\right)^2}{\displaystyle\sum_{j=1}^N\left(y_j-\overline{y}\right)^2}

즉, 잔차의 제곱합을 표본 값의 평균 \overline{y}로부터의 편차 제곱합으로 나눈 것을 1에서 뺀 값이며, 1에 가까울수록 상대적인 잔차가 적다는 것을 나타낸다. 최소제곱법은 이 정의를 최대로 하는 파라미터 선택 방법이다. 값의 범위는 1 이하의 실수이며, 자주 보이는 값은 0~1 정도이다.

회귀 방정식이 최소제곱법에 의한 단일 회귀의 회귀선인 경우, 결정 계수는 피어슨 상관 계수의 제곱이 되며, 0 이상 1 이하의 실수가 된다.

또한, 일반적인 선형 회귀의 경우 다음 식이 등가이며, 이를 정의식으로 사용하는 경우도 있다.

; 추정값의 분산을 표본 값의 분산으로 나눈 것

:R^2\equiv\frac{\displaystyle\sum_{i=1}^N\left(f_i-\overline{f}\right)^2}{\displaystyle\sum_{j=1}^N\left(y_j-\overline{y}\right)^2}

; 표본 값과 추정값과의 상관계수의 제곱

:R^2\equiv\frac{\left\{\displaystyle\sum_{i=1}^N\left(f_i-\overline{f}\right)\left(y_i-\overline{y}\right)\right\}^2}{\left\{\displaystyle\sum_{j=1}^N\left(f_j-\overline{f}\right)^2\right\}\left\{\displaystyle\sum_{k=1}^N\left(y_k-\overline{y}\right)^2\right\}}

선형 회귀 이외의 경우, 원점을 통과하는 것을 요구하는 경우, 최소제곱법 이외의 방법으로 회귀한 경우에는 이 식이 위의 정의와 등가가 되지 않을 수 있으므로 주의해야 한다.

2. 2. 결정계수의 여러 정의 (쿠볼세스)

쿠볼세스(Kvalseth)는 8가지 결정계수의 정의를 다음과 같이 제시했다.[32][33]

쿠볼세스의 결정계수 정의
이름정의
R121-\frac{\displaystyle\sum_{i=1}^N\left(y_i-f_i\right)^2}{\displaystyle\sum_{j=1}^N\left(y_j-\overline{y}\right)^2}
R22\frac{\displaystyle\sum_{i=1}^N\left(f_i-\overline{y}\right)^2}{\displaystyle\sum_{j=1}^N\left(y_j-\overline{y}\right)^2}
R32\frac{\displaystyle\sum_{i=1}^N\left(f_i-\overline{f}\right)^2}{\displaystyle\sum_{j=1}^N\left(y_j-\overline{y}\right)^2}
R421-\frac{\displaystyle\sum_{i=1}^N\left(e_i-\overline{e}\right)^2}{\displaystyle\sum_{j=1}^N\left(y_j-\overline{y}\right)^2},\ \ \ \ e_i\equiv y_i-f_i
R52독립 변수와 종속 변수 사이의 중상관계수의 제곱
R62yf 사이의 상관계수의 제곱
R721-\frac{\displaystyle\sum_{i=1}^N\left(y_i-f_i\right)^2}{\displaystyle\sum_{j=1}^N y_j^2}
R82\frac{\displaystyle\sum_{i=1}^N f_i^2}{\displaystyle\sum_{j=1}^N y_j^2}


3. 해석

피어슨 상관 계수(PCC) r의 결정계수는 r^2이다. 피어슨 상관 계수가 -1 \sim r \sim 1 사이의 값을 가지므로 r^2은 0~1 사이의 값을 갖는다.

결정 계수의 가장 일반적인 정의는 다음과 같다.

R^2 = 1 - {SS_{\rm res}\over SS_{\rm tot}}



최상의 경우, 모델링된 값은 관측된 값과 정확히 일치하여 SS_\text{res}=0R^2 = 1이 된다. 항상 \bar{y}를 예측하는 기준 모델은 R^2 = 0을 갖는다.

''R''2 값이 클수록 회귀 모델의 성공을 의미한다.[4] 예를 들어 R^2 = 0.49라고 하자. 이는 종속 변수의 변동성의 49%가 설명되었고, 나머지 51%의 변동성은 아직 설명되지 않았음을 의미한다.

''R''2는 모델의 적합도를 측정하는 척도이다.[11] 회귀 분석에서 결정 계수인 ''R''2는 회귀 예측이 실제 데이터 포인트를 얼마나 잘 근사하는지에 대한 통계적 척도이다. ''R''2가 1이면 회귀 예측이 데이터에 완벽하게 적합함을 나타낸다.

''R''2는 종종 모형의 설명 변수에 의해 "설명되는" 반응 변동의 비율로 해석된다. 따라서 ''R''2 = 1은 적합된 모형이 y의 모든 변동성을 설명함을 나타내고, ''R''2 = 0은 '선형' 관계가 없음을 나타낸다(단순 선형 회귀의 경우, 이는 직선 모형이 반응 변수와 설명 변수 사이에서 상수선(기울기 = 0, 절편 = \bar{y})임을 의미한다). ''R''2 = 0.7과 같은 중간 값은 다음과 같이 해석할 수 있다. "반응 변수의 분산의 70%는 설명 변수에 의해 설명될 수 있다. 나머지 30%는 알려지지 않은 잠재 변수 또는 내재된 변동성에 기인할 수 있다."

''R''2뿐만 아니라 상관 관계 및 연관성에 대한 다른 통계적 설명에도 적용되는 주의사항은 "상관 관계가 인과 관계를 의미하지는 않는다"는 것이다. 다시 말해, 상관 관계가 때로는 변수 간의 인과 관계를 밝히는 데 귀중한 단서를 제공할 수 있지만, 두 변수 간의 추정된 0이 아닌 상관 관계가 한 변수의 값을 변경하면 다른 변수의 값이 변경된다는 증거가 되지는 않는다. 예를 들어, 성냥(또는 라이터)을 소지하는 것은 폐암 발생과 상관 관계가 있지만, 성냥을 소지하는 것이 암을 유발하지는 않는다( "원인"의 표준적인 의미에서).

결정 계수 R^2에 대한 명확하게 합의된 정의는 없다. 타롤 쿼르세스[30]에 따르면 8가지 정의가 있으며 주의가 필요하다고 한다[31]. 그러나 일반적으로 다음 식으로 정의된다.

:R^2\equiv1-\frac{\displaystyle\sum_{i=1}^N\left(y_i-f_i\right)^2}{\displaystyle\sum_{j=1}^N\left(y_j-\overline{y}\right)^2}

여기서

  • y=\left\{y_1,\ y_2,\ \cdots,\ y_N\right\}: 표본 값(실측값, 관측값)
  • f=\left\{f_1,\ f_2,\ \cdots,\ f_N\right\}: 회귀 방정식에 의한 추정값


즉, 잔차의 제곱합을 표본 값의 평균 \overline{y}로부터의 편차의 제곱합으로 나눈 것을 1에서 뺀 값이며, 1에 가까울수록 상대적인 잔차가 적다는 것을 나타낸다. 최소제곱법은 이 정의를 최대로 하는 파라미터의 선택 방법이다. 값의 범위는 1 이하의 실수이다. 자주 보이는 값은 0~1 정도이다.

4. 확장

결정계수의 확장 개념으로는 조정된 결정계수, 부분 결정 계수, 로지스틱 회귀 분석에서의 결정계수 등이 있다.


  • 조정된 결정계수 (Adjusted R²)


Adjusted R²영어는 모델에 설명 변수(독립 변수)를 추가할 때 결정계수(R²)가 자동적으로 증가하는 현상을 조절하기 위해 사용된다. 일반적인 결정계수(R²)는 모델에 독립 변수가 추가될수록 증가하는데, 이는 모델이 실제로 더 나아지지 않더라도 변수 추가만으로 R² 값이 높아지는 과적합 문제를 야기할 수 있다.[18]

  • 부분 결정 계수 (Coefficient of partial determination)


부분 결정 계수는 축소된 모형에서는 설명할 수 없지만, 전체(확장된) 모형에 지정된 예측 변수로 설명할 수 있는 분산의 비율이다.[21][27][22] 이는 하나 이상의 추가 예측 변수가 더 완벽하게 지정된 회귀 모형에서 유용할 수 있는지에 대한 통찰력을 제공한다.

  • 로지스틱 회귀 분석에서의 결정계수


로지스틱 회귀 분석에서는 최대 우도 추정으로 적합되므로, 일반적인 결정계수를 그대로 적용할 수 없다. 따라서 여러 유사 ''R''2 지표들이 사용된다.

4. 1. 조정된 결정계수 (Adjusted R²)

조정된 결정계수(Adjusted R²영어)는 모델에 설명 변수(독립 변수)를 추가할 때 결정계수(R²)가 자동적으로 증가하는 현상을 조절하기 위해 사용되는 개념이다. 일반적인 결정계수(R²)는 모델에 독립 변수가 추가될수록 증가하는 경향이 있는데, 이는 모델이 실제로 더 나아지지 않더라도 변수 추가만으로 R² 값이 높아지는 과적합 문제를 야기할 수 있다.[18]

이러한 문제를 해결하기 위해 조정된 결정계수(Adjusted R²영어, R̄²)는 독립 변수의 개수와 표본 크기를 고려하여 R² 값을 조정한다. 식으로 표현하면 다음과 같다.

:\bar R^2 = 1-(1-R^2){n-1 \over n-p-1}

여기서 ''p''는 모델의 총 설명 변수 수(절편 제외)이고, ''n''은 표본 크기이다.

조정된 R²는 음수가 될 수 있으며, 그 값은 항상 R²보다 작거나 같다.[15][16][17] 새로운 설명 변수를 포함하여 R²가 증가하더라도, 그 증가가 우연에 의한 것인지 아닌지를 판단하는 데 도움을 준다.

조정된 R²는 모델 적합도를 평가하고 모델 구축의 특징 선택 단계에서 대체 모델을 비교할 때 더 적절하다. 또한, 모집단 R²의 편향이 적은 추정치로 해석될 수 있다.[18]

총 오차에 대한 편향 및 분산 기여도 도식


조정된 R²는 편향-분산 트레이드오프의 한 예로 해석될 수 있다. 모델이 더 복잡해지면 분산은 증가하고 편향의 제곱은 감소하며, 이 두 가지 지표는 더해져서 총 오차가 된다.

4. 2. 부분 결정 계수 (Coefficient of partial determination)

부분 결정 계수는 축소된 모형에서는 설명할 수 없지만, 전체(확장된) 모형에 지정된 예측 변수로 설명할 수 있는 분산의 비율이다.[21][27][22] 이 계수는 하나 이상의 추가 예측 변수가 더 완벽하게 지정된 회귀 모형에서 유용할 수 있는지에 대한 통찰력을 제공하는 데 사용된다.

부분 ''R''2의 계산은 두 모형을 추정하고 해당 모형에 대한 분산 분석 표를 생성한 후 비교적 간단하게 구할 수 있다. 부분 ''R''2의 계산식은 다음과 같다.

:\frac{SS_\text{ res, reduced} - SS_\text{ res, full}}{SS_\text{ res, reduced}},

이것은 일반적인 결정 계수와 유사하다.

:\frac{SS_\text{tot} - SS_\text{res}}{SS_\text{tot}}.

4. 3. 로지스틱 회귀에서의 결정계수

로지스틱 회귀 분석에서는 최대 우도 추정으로 적합되므로, 일반적인 결정계수를 그대로 적용할 수 없다. 따라서 여러 유사 ''R''2 지표들이 사용된다.

Cox & Snell[24]이 처음 제안하고 Magee가 독자적으로 제안한 일반화된 ''R''2는 다음과 같다.[25]

:R^2 = 1 - \left({ \mathcal{L}(0) \over \mathcal{L}(\widehat{\theta}) }\right)^{2/n}

여기서 \mathcal{L}(0)은 절편만 있는 모델의 우도이고, {\mathcal{L}(\widehat{\theta})}은 추정된 모델(즉, 주어진 일련의 매개변수 추정값을 가진 모델)의 우도이며, ''n''은 표본 크기이다. 이는 다음과 같이 다시 쓸 수 있다.

:R^2 = 1 - e^{\frac{2}{n} (\ln(\mathcal{L}(0)) - \ln(\mathcal{L}(\widehat{\theta})))} = 1 - e^{-D/n}

여기서 ''D''는 우도비 검정의 검정 통계량이다.

니코 나겔케르케는 이 통계량이 다음과 같은 속성을 가진다고 언급했다:[26][27]

# 두 가지 모두 계산할 수 있을 때 고전적인 결정 계수와 일치한다.

# 그 값은 모델의 최대 우도 추정으로 최대화된다.

# 표본 크기와 점근적으로 독립적이다.

# 해석은 모델이 설명하는 변동의 비율이다.

# 값은 0과 1 사이이며, 0은 모델이 어떤 변동도 설명하지 않음을 나타내고 1은 관찰된 변동을 완벽하게 설명함을 나타낸다.

# 단위가 없다.

그러나 로지스틱 모델의 경우, \mathcal{L}(\widehat{\theta})가 1보다 클 수 없으므로, ''R''2는 0과 R^2_\max = 1- (\mathcal{L}(0))^{2/n} 사이이다. 따라서 Nagelkerke는 스케일링된 ''R''2를 ''R''2/''R''2max로 정의할 가능성을 제안했다.[27]

5. 한계

결정 계수(''R''2)는 모델의 적합도를 측정하는 유용한 척도이지만, 다음과 같은 한계점을 지닌다.[11]


  • 독립 변수가 종속 변수 변화의 원인인지 여부를 나타내지 않는다.
  • 누락 변수 편향의 존재 여부를 알 수 없다.
  • 올바른 회귀 분석을 사용했는지 여부를 판단할 수 없다.
  • 가장 적절한 독립 변수 집합이 선택되었는지 여부를 알 수 없다.
  • 설명 변수 데이터에 다중 공선성이 존재하는지 여부를 알 수 없다.
  • 기존 독립 변수 집합의 변환된 버전을 사용하여 모델을 개선할 수 있는지 여부를 판단할 수 없다.
  • 견고한 결론을 내릴 수 있을 만큼 충분한 데이터 포인트가 있는지 여부를 알 수 없다.
  • 양호한 표본에 몇 개의 이상치가 있는지 여부를 알 수 없다.


틸-센 추정량(검정색)과 단순 선형 회귀(파란색)를 이상치가 있는 점 집합에 비교한 그림. 많은 이상치로 인해, 두 회귀선 모두 ''R''2가 매우 높지 않다는 사실로 측정될 때, 데이터에 잘 맞지 않는다.


모델의 변수 수가 증가함에 따라 ''R''2는 증가하는 경향이 있다(''R''2는 포함된 변수 수에 따라 단조 함수적으로 증가하며 감소하지 않는다).[11] 이는 ''R''2 값을 높이기 위해 변수를 계속 추가하는 경우(키친 싱크 회귀) 문제가 발생할 수 있음을 의미한다. 예를 들어, 자동차의 연비, 가격, 엔진 출력을 통해 자동차 모델의 판매량을 예측하려는 경우, 모델 이름의 첫 글자나 자동차를 설계한 수석 엔지니어의 키와 같이 관련이 없을 수 있는 요소를 포함할 수 있다. 왜냐하면 ''R''2는 변수를 추가해도 감소하지 않으며, 우연만으로도 증가할 가능성이 높기 때문이다.

이러한 문제점을 보완하기 위해 조정된 ''R''2를 사용하기도 한다. 조정된 ''R''2는 모델에 추가 변수가 포함될 때 통계량에 페널티를 부과한다.

참조

[1] 서적 Principles and Procedures of Statistics with Special Reference to the Biological Sciences McGraw Hill
[2] 서적 Primer of Applied Regression and Analysis of Variance McGraw-Hill
[3] 서적 Applied Regression Analysis Wiley-Interscience
[4] 서적 Probability and Statistics for Engineering and the Sciences Cengage Learning
[5] 서적 The Practice of Econometrics Kluwer
[6] 간행물 An R-squared measure of goodness of fit for some common nonlinear regression models
[7] 간행물 The coefficient of determination R-squared is more informative than SMAPE, MAE, MAPE, MSE and RMSE in regression analysis evaluation
[8] 간행물 Evaluating the use of "goodness-of-fit" measures in hydrologic and hydroclimatic model validation
[9] 간행물 Performance evaluation of hydrological models: statistical significance for reducing subjectivity in goodness-of-fit assessments
[10] 서적 Cambridge Dictionary of Statistics CUP
[11] 서적 Statistical inference Duxbury/Thomson Learning 2002
[12] 간행물 Cautionary Note about R2 1985
[13] 웹사이트 Linear Regression – MATLAB & Simulink https://www.mathwork[...]
[14] 서적 Linear models with R https://www.utstat.t[...] Chapman & Hall/CRC 2005
[15] 간행물 Methodology review: Estimation of population validity and cross-validity, and the use of equal weights in prediction https://doi.org/10.1[...] 1997
[16] Q Q120123877
[17] 간행물 Estimating ''R'' 2 Shrinkage in Multiple Regression: A Comparison of Different Analytical Methods https://digitalcommo[...] 2001-01
[18] 간행물 Improved shrinkage estimation of squared multiple correlation coefficient and squared cross-validity coefficient 2008-04-01
[19] 간행물 Unbiased estimation of certain correlation coefficients https://projecteucli[...] 1958-03
[20] 간행물 Improving on Adjusted R-Squared 2020-09-29
[21] 간행물 Model Comparisons and ''R''2 http://www.tandfonli[...] The American Statistician 1994
[22] 웹사이트 regression – R implementation of coefficient of partial determination https://stats.stacke[...]
[23] 서적 Science: Under Submission Hoornweg Press 2018
[24] 서적 The Analysis of Binary Data Chapman and Hall
[25] 간행물 "''R''2 measures based on Wald and likelihood ratio joint significance tests"
[26] 서적 Maximum Likelihood Estimation of Functional Relationships, Pays-Bas
[27] 간행물 A Note on a General Definition of the Coefficient of Determination http://www.cesarzamu[...] 1991-09
[28] 웹사이트 OriginLab webpage http://www.originlab[...] 2016-02-09
[29] 간행물 Correlation and causation 1921-01
[30] 문서 Tarald O. Kvålseth
[31] 문서 Tarald O. Kvalseth: "Cautionary Note about R2", The American Statistician
[32] 문서 squared multiple correlation coefficient between the regressand and the regressors
[33] 문서 squared correlation coefficient between y and f
[34] 문서 adjusted R2
[35] 서적 기초통계학 학지사



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com