맨위로가기

피어슨 상관 계수

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

피어슨 상관 계수는 등간척도 또는 비례척도 데이터에서 두 변수 간의 선형 관계를 측정하는 지표이다. 공분산을 각 표준 편차의 곱으로 나누어 계산하며, 표본 상관 계수와 모집단 상관 계수로 구분된다. 값은 -1과 1 사이이며, 1 또는 -1에 가까울수록 강한 선형 관계를 나타낸다. 이상치의 영향을 받기 쉬우며, 데이터의 분포에 따라 통계적 추론 결과가 달라질 수 있다. 결정 계수는 피어슨 상관 계수를 제곱한 값으로, 회귀 모형에서 설명되는 분산의 비율을 나타낸다.

더 읽어볼만한 페이지

  • 통계량 - 제곱평균제곱근
    제곱평균제곱근(RMS)은 값들의 크기를 나타내는 통계량으로, 이산 데이터의 경우 각 값의 제곱의 평균의 제곱근, 연속 함수의 경우 함수 제곱의 적분 평균의 제곱근으로 정의되며, 전기공학, 물리학 등 다양한 분야에서 활용되고 표준편차와 밀접한 관련이 있다.
  • 통계량 - 최빈값
    최빈값은 데이터 집합에서 가장 자주 나타나는 값으로, 확률 분포의 중심 경향을 나타내는 척도이며 이상치에 둔감하고 명목형 데이터에도 적용 가능하다.
  • 가설 검정 - 귀무 가설
    귀무 가설은 통계적 유의성 검정에서 검정되는 '영향 없음' 또는 '차이 없음'에 대한 명제로, 대립 가설과 반대되며, 증거를 통해 기각 여부를 판단하고 과학적 주장을 통계적 잡음과 구분하는 데 사용된다.
  • 가설 검정 - 유의 확률
    유의 확률은 통계적 가설 검정에서 귀무 가설이 참일 때 관측된 결과의 극단성을 나타내는 확률값으로, 귀무 가설 기각 여부를 판단하는 기준이 되지만 오용될 수 있어 다른 통계적 추론 방법이 대안으로 제시된다.
피어슨 상관 계수

2. 정의

피어슨 상관 계수는 두 변수의 공분산을 각 변수의 표준 편차의 곱으로 나눈 값이다. 이 정의는 "곱 모멘트" 형식을 사용하는데, 이는 평균 조정된 확률 변수 곱의 평균(원점에 대한 첫 번째 모멘트)을 의미한다.

모집단에 적용되는 피어슨 상관 계수는 일반적으로 그리스 문자 ''ρ''(로)로 표시되며, ''모집단 상관 계수'' 또는 ''모집단 피어슨 상관 계수''라고도 한다. 두 개의 확률 변수 (X,Y)가 주어졌을 때, ''ρ''의 공식[11]은 다음과 같다.[12]

: \rho_{X,Y}= \frac{\operatorname{cov}(X,Y)}{\sigma_X \sigma_Y}

여기서



\operatorname{cov}(X,Y)\rho의 공식은 평균기댓값을 사용하여 나타낼 수 있다.[11]

:\operatorname{cov}(X,Y) = \operatorname\mathbb{E}[(X-\mu_X)(Y-\mu_Y)],

: \rho_{X,Y} = \frac{\operatorname\mathbb{E}[(X - \mu_X)(Y - \mu_Y)]}{\sigma_X\sigma_Y}

여기서

  • \sigma_Y \sigma_X 는 위와 같이 정의된다.
  • \mu_X X 의 평균
  • \mu_Y Y 의 평균
  • \operatorname\mathbb{E} 는 기댓값이다.


\rho의 공식은 중심을 맞추지 않은 적률을 사용하여 나타낼 수도 있다.

:\begin{align}

\mu_X ={} &\operatorname\mathbb{E}[\,X\,] \\

\mu_Y ={} &\operatorname\mathbb{E}[\,Y\,] \\

\sigma_X^2 ={} &\operatorname\mathbb{E}\left[\,\left(X - \operatorname\mathbb{E}[X]\right)^2\,\right] = \operatorname\mathbb{E}\left[\,X^2\,\right] - \left(\operatorname\mathbb{E}[\,X\,]\right)^2 \\

\sigma_Y^2 ={} &\operatorname\mathbb{E}\left[\,\left(Y - \operatorname\mathbb{E}[Y]\right)^2\,\right] = \operatorname\mathbb{E}\left[\,Y^2\,\right] - \left(\,\operatorname\mathbb{E}[\,Y\,]\right)^2 \\

&\operatorname\mathbb{E}[\,\left(X - \mu_X\right)\left(Y - \mu_Y\right)\,] = \operatorname\mathbb{E}[\,\left(X - \operatorname\mathbb{E}[\,X\,]\right)\left(Y - \operatorname\mathbb{E}[\,Y\,]\right)\,] = \operatorname\mathbb{E}[\,X\,Y\,] - \operatorname\mathbb{E}[\,X\,]\operatorname\mathbb{E}[\,Y\,] \,,

\end{align}

:\rho_{X,Y} =

\frac{\operatorname\mathbb{E}[\,X\,Y\,] - \operatorname\mathbb{E}[\,X\,]\operatorname\mathbb{E}[\,Y\,]}{\sqrt{\operatorname\mathbb{E}\left[\,X^2\,\right] - \left(\operatorname\mathbb{E}[\,X\,] \right)^2} ~ \sqrt{\operatorname\mathbb{E}\left[\,Y^2\,\right] - \left(\operatorname\mathbb{E}[\,Y\,] \right)^2}}.

2. 1. 표본 상관 계수

표본 피어슨 상관 계수는 등간척도(간격척도)나 비례척도(비율척도)의 데이터에서 두 변수의 공분산(covariance)을 각각의 표준 편차의 곱으로 나눈 이다.

:\text{피 어 슨 상 관 계 수 }= \over{\text{표 준 편 차 } \cdot \text{표 준 편 차 }}}

: r_{XY}= { { {\sum_{i}^{n} \left( X_i - \overline{X} \right)\left( Y_i - \overline{Y} \right)} \over{n-1} }\over { \sqrt \sqrt{ {\sum_{i}^{n} \left( Y_i - \overline{Y} \right)^2}\over{n-1}} }}

따라서

: r_{XY}=

표본에 적용되는 피어슨 상관 계수는 일반적으로 r_{xy}로 표시되며, "표본 상관 계수" 또는 "표본 피어슨 상관 계수"라고도 한다. n쌍으로 구성된 쌍을 이룬 데이터 \left\{ (x_1,y_1),\ldots,(x_n,y_n) \right\}가 주어지면, r_{xy}는 다음과 같이 정의된다.

:r_{xy} =\frac{\sum ^n _{i=1}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum ^n _{i=1}(x_i - \bar{x})^2} \sqrt{\sum ^n _{i=1}(y_i - \bar{y})^2}}

여기서

  • n은 표본 크기이다.
  • x_i, y_i는 ''i''로 색인된 개별 표본점이다.
  • \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i (표본 평균); 그리고 \bar{y}에 대해서도 마찬가지다.


다시 정리하면 r_{xy}에 대한 다음 공식이 얻어진다.[11]

:r_{xy} = \frac{\sum_i x_i y_i-n\bar{x}\bar{y}}

{\sqrt{\sum_i x_i^2-n\bar{x}^2}~\sqrt{\sum_i y_i^2-n\bar{y}^2}},

여기서 n, x_i, y_i, \bar{x}, \bar{y}는 위와 같이 정의된다.

다시 정리하면 r_{xy}에 대한 다음 공식이 얻어진다.

:r_{xy} = \frac{n\sum x_i y_i - \sum x_i\sum y_i}

{\sqrt{n\sum x_i^2-\left(\sum x_i\right)^2}~\sqrt{n\sum y_i^2-\left(\sum y_i\right)^2}},

여기서 n, x_i, y_i는 위와 같이 정의된다.

이 공식은 표본 상관 관계를 계산하기 위한 편리한 단일 패스 알고리즘을 제안하지만, 관련된 숫자에 따라 때때로 수치적으로 불안정할 수 있다.

동등한 표현은 r_{xy}의 공식을 다음과 같은 표준 점수 곱의 평균으로 제공한다.

:r_{xy} = \frac{1}{n-1} \sum ^n _{i=1} \left( \frac{x_i - \bar{x}}{s_x} \right) \left( \frac{y_i - \bar{y}}{s_y} \right)

여기서

  • n, x_i, y_i, \bar{x}, \bar{y}는 위와 같이 정의되며, s_x, s_y는 아래에 정의된다.
  • \left( \frac{x_i - \bar{x}}{s_x} \right)는 표준 점수이다(그리고 y의 표준 점수에도 마찬가지).


r_{xy}에 대한 다른 공식도 사용할 수 있다. 예를 들어, r_{xy}에 대해 다음 공식을 사용할 수 있다.

:r_{xy} =\frac{\sum x_iy_i-n \bar{x} \bar{y}}{(n-1) s_x s_y}

여기서

  • n, x_i, y_i, \bar{x}, \bar{y}는 위와 같이 정의되며,
  • s_x = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2} (표본 표준 편차); 그리고 s_y에 대해서도 마찬가지다.

2. 2. 모집단 상관 계수

모집단에 적용되는 피어슨 상관 계수는 일반적으로 그리스 문자 ''ρ''(로)로 표시되며, '모집단 상관 계수' 또는 '모집단 피어슨 상관 계수'라고도 한다. 두 개의 확률 변수 (X,Y) (예: 키와 몸무게)가 주어졌을 때, ''ρ''의 공식[11]은 다음과 같다.[12]

\rho_{X,Y}= \frac{\operatorname{cov}(X,Y)}{\sigma_X \sigma_Y}

여기서

\operatorname{cov}(X,Y)의 공식은 평균기댓값을 사용하여 나타낼 수 있다. 다음이 성립한다.[11]

:\operatorname{cov}(X,Y) = \operatorname\mathbb{E}[(X-\mu_X)(Y-\mu_Y)],

따라서 \rho의 공식은 다음과 같이 쓸 수도 있다.

\rho_{X,Y} = \frac{\operatorname\mathbb{E}[(X - \mu_X)(Y - \mu_Y)]}{\sigma_X\sigma_Y}

여기서

  • \sigma_Y \sigma_X 는 위와 같이 정의된다.
  • \mu_X X 의 평균
  • \mu_Y Y 의 평균
  • \operatorname\mathbb{E} 는 기댓값이다.


\rho의 공식은 중심을 맞추지 않은 적률을 사용하여 나타낼 수 있다. 다음이 성립한다.

:\begin{align}

\mu_X ={} &\operatorname\mathbb{E}[\,X\,] \\

\mu_Y ={} &\operatorname\mathbb{E}[\,Y\,] \\

\sigma_X^2 ={} &\operatorname\mathbb{E}\left[\,\left(X - \operatorname\mathbb{E}[X]\right)^2\,\right] = \operatorname\mathbb{E}\left[\,X^2\,\right] - \left(\operatorname\mathbb{E}[\,X\,]\right)^2 \\

\sigma_Y^2 ={} &\operatorname\mathbb{E}\left[\,\left(Y - \operatorname\mathbb{E}[Y]\right)^2\,\right] = \operatorname\mathbb{E}\left[\,Y^2\,\right] - \left(\,\operatorname\mathbb{E}[\,Y\,]\right)^2 \\

&\operatorname\mathbb{E}[\,\left(X - \mu_X\right)\left(Y - \mu_Y\right)\,] = \operatorname\mathbb{E}[\,\left(X - \operatorname\mathbb{E}[\,X\,]\right)\left(Y - \operatorname\mathbb{E}[\,Y\,]\right)\,] = \operatorname\mathbb{E}[\,X\,Y\,] - \operatorname\mathbb{E}[\,X\,]\operatorname\mathbb{E}[\,Y\,] \,,

\end{align}

따라서 \rho의 공식은 다음과 같이 쓸 수도 있다.

\rho_{X,Y} =

\frac{\operatorname\mathbb{E}[\,X\,Y\,] - \operatorname\mathbb{E}[\,X\,]\operatorname\mathbb{E}[\,Y\,]}{\sqrt{\operatorname\mathbb{E}\left[\,X^2\,\right] - \left(\operatorname\mathbb{E}[\,X\,] \right)^2} ~ \sqrt{\operatorname\mathbb{E}\left[\,Y^2\,\right] - \left(\operatorname\mathbb{E}[\,Y\,] \right)^2}}.

3. 역사

칼 피어슨은 1880년대에 프랜시스 골턴이 제시한 관련 아이디어를 바탕으로 이 계수를 개발했으며, 1844년 오귀스트 브라베가 수학 공식을 유도하고 발표했다.[3][4][5][6][7][8][9] 따라서 이 계수의 명명은 스티글러의 법칙의 한 예이다.

4. 수학적 속성

표본 및 모집단 피어슨 상관 계수의 값은 -1과 1 사이 또는 그 사이에 있다. 상관 관계가 +1 또는 -1인 경우, 데이터 포인트가 정확히 선 위에 놓이거나(표본 상관 관계의 경우) 이변량 분포가 완전히 선에 지지되는 경우(모집단 상관 관계의 경우)에 해당한다. 피어슨 상관 계수는 대칭적이다. 즉, corr(X, Y) = corr(Y, X)이다.

피어슨 상관 계수의 핵심적인 수학적 속성은 두 변수의 위치와 척도가 개별적으로 변경될 때 불변한다는 것이다. 즉, 상관 계수를 변경하지 않고도 X를 a + bX로 변환하고 Y를 c + dY로 변환할 수 있다. 여기서 a, b, c, d는 b, d > 0인 상수이다. (이는 모집단 및 표본 피어슨 상관 계수 모두에 적용된다.) 더 일반적인 선형 변환은 상관 관계를 변경한다.

5. 해석

상관 계수는 -1과 1 사이의 값을 갖는다.[15] 상관 계수의 절댓값이 클수록 두 변수 간의 선형 관계가 강하다. +1은 모든 데이터 포인트가 X가 증가함에 따라 Y도 증가하는 선 위에 있음을 의미하고, -1은 X가 증가할 때 Y는 감소하는 선 위에 있음을 의미한다.[15] 0은 변수 사이에 선형 의존성이 없음을 의미한다.[16]

일반적으로 (''X''''i'' − )(''Y''''i'' − )는 ''X''''i''와 ''Y''''i''가 각각 평균의 같은 쪽에 있을 때 양수이다. 따라서 ''X''''i''와 ''Y''''i''가 각각의 평균보다 동시에 크거나 동시에 작아지는 경향이 있다면 상관 계수는 양수이다. 반대로 ''X''''i''와 ''Y''''i''가 각각의 평균의 반대쪽에 놓이는 경향이 있다면 상관 계수는 음수(반상관관계)이다. 이러한 경향이 강할수록 상관 계수의 절댓값은 커진다.

Rodgers와 Nicewander는 상관 관계를 해석하는 13가지 방법을 정리했다.[17]


  • 원시 점수 및 평균의 함수
  • 표준화된 공분산
  • 회귀선의 표준화된 기울기
  • 두 회귀 기울기의 기하 평균
  • 두 분산의 비율의 제곱근
  • 표준화된 변수의 평균 교차 곱
  • 두 표준화된 회귀선 사이의 각도의 함수
  • 두 변수 벡터 사이의 각도의 함수
  • 표준화된 점수 간 차이의 재조정된 분산
  • 풍선 규칙으로 추정
  • 등농도 쌍곡선과 관련됨
  • 설계된 실험의 검정 통계량의 함수
  • 두 평균의 비율




상관 계수의 해석은 맥락과 목적에 따라 달라진다.[21] 고품질 장비를 사용하여 물리 법칙을 확인하는 경우 0.8의 상관 관계는 매우 낮을 수 있지만, 복잡한 요인의 기여가 더 클 수 있는 사회 과학에서는 매우 높게 간주될 수 있다.

5. 1. 기하학적 해석

중심화된 데이터(즉, 각 변수의 표본 평균을 빼서 평균이 0이 되도록 이동한 데이터)의 경우, 상관 계수는 ''N''차원 공간에서 두 개의 관측된 벡터 사이의 각도 ''θ''의 코사인으로 볼 수 있다(각 변수에 대해 ''N''개의 관측치가 존재).[10]

예를 들어, 다섯 개 국가의 국민 총생산이 각각 10억달러, 20억달러, 30억달러, 50억달러, 80억달러이고, 같은 순서로 빈곤율이 11%, 12%, 13%, 15%, 18%라고 가정하자. 그러면 '''x'''와 '''y'''는 다음과 같은 5개 요소 벡터로 표현된다: '''x''' = (1, 2, 3, 5, 8) 및 '''y''' = (0.11, 0.12, 0.13, 0.15, 0.18).

두 벡터 사이의 각도 ''θ''를 구하는 일반적인 절차(내적 참조)에 따라, "중심화되지 않은" 상관 계수는 다음과 같다.

: \cos \theta = \frac { \mathbf{x} \cdot \mathbf{y} } { \left\| \mathbf{x} \right\| \left\| \mathbf{y} \right\|} = \frac {2.93} { \sqrt{103} \sqrt{0.0983} } = 0.920814711.

이 값은 코사인 유사도와 동일하다.

위의 데이터는 y = 0.10 + 0.01x 의 관계를 가지도록 의도적으로 설정되었기 때문에, 피어슨 상관 계수는 정확히 1이어야 한다. 데이터를 중심화(각각의 평균값, \mathcal{E}(x) = 3.8\mathcal{E}(y) = 0.138 만큼 이동)하면 '''x''' = (−2.8, −1.8, −0.8, 1.2, 4.2) 및 '''y''' = (−0.028, −0.018, −0.008, 0.012, 0.042)가 된다. 이를 통해 중심화된 상관 계수를 계산하면 다음과 같다.

: \cos \theta = \frac{\mathbf{x} \cdot \mathbf{y}} {\left\| \mathbf{x} \right\| \left\| \mathbf{y} \right\|} = \frac {0.308}{\sqrt{30.8}\sqrt{0.00308}} = 1 = \rho_{xy},

6. 통계적 추론

피어슨 상관 계수를 사용한 통계적 추론은 주로 두 가지 목표를 갖는다. 첫째는 표본 상관 계수 ''r''을 바탕으로 실제 모집단의 상관 계수 ''ρ''가 0인지 귀무 가설을 검정하는 것이다. 둘째는 반복적인 표본 추출을 통해 ''ρ''를 포함할 가능성이 있는 신뢰 구간을 추정하는 것이다.

이러한 목표를 달성하기 위해 순열 검정, 부트스트랩, 스튜던트 ''t''-분포를 활용하는 방법 등이 사용된다. 큰 표본에서는 점근적 접근법을 사용할 수 있다. 초기 연구에서는 작은 표본 크기에서 일반적인 ''ρ'' 값에 대한 그래프와 표를 제시하고 계산 방법을 설명하기도 했다.[26] 기저 변수가 정규 분포를 따르지 않을 때는 표집 분포가 스튜던트 ''t''-분포를 따르지만, 자유도는 감소한다.[27]

6. 1. 순열 검정 (Permutation Test)

순열 검정은 가설 검정을 수행하고 신뢰 구간을 구성하는 직접적인 접근 방식을 제공한다. 피어슨 상관 계수에 대한 순열 검정은 다음 두 단계로 구성된다.

# 원래의 쌍을 이룬 데이터 (''x''''i'', ''y''''i'')를 사용하여 쌍을 무작위로 재정의하여 새로운 데이터 집합 (''x''''i'', ''y''''i′'')을 만든다. 여기서 ''i′''는 집합 {1,...,''n''}의 순열이다. 순열 ''i′''는 모든 ''n''! 가능한 순열에 동일한 확률을 부여하여 무작위로 선택된다. 이는 집합 {1, ..., ''n''}에서 비복원 추출 방식으로 ''i′''을 무작위로 추출하는 것과 같다. 부트스트래핑은 이와 밀접하게 관련된 접근 방식으로, ''i''와 ''i′''는 같으며 집합 {1, ..., ''n''}에서 복원 추출 방식으로 추출된다.

# 무작위화된 데이터에서 상관 계수 ''r''을 구성한다.

순열 검정을 수행하려면 단계 (1)과 (2)를 여러 번 반복한다. 순열 검정에 대한 p-값은 단계 (2)에서 생성된 ''r'' 값 중 원래 데이터에서 계산된 피어슨 상관 계수보다 큰 값의 비율이다. 여기서 "크다"는 값의 크기가 크거나 부호가 큰 것을 의미할 수 있으며, 이는 양측 검정 또는 단측 검정 중 원하는 바에 따라 달라진다.

6. 2. 부트스트랩 (Bootstrap)

부트스트랩은 피어슨 상관 계수에 대한 신뢰 구간을 구성하는 데 사용될 수 있다. "비모수적" 부트스트랩에서, ''n''개의 쌍(''x''''i'', ''y''''i'')이 관찰된 ''n''개의 쌍 집합에서 "복원 추출" 방식으로 재표본 추출되고, 상관 계수 ''r''은 재표본 추출된 데이터를 기반으로 계산된다. 이 과정은 여러 번 반복되며, 재표본 추출된 ''r'' 값의 경험적 분포는 통계량의 표집 분포를 근사하는 데 사용된다. ''ρ''에 대한 95% 신뢰 구간은 재표본 추출된 ''r'' 값의 2.5번째에서 97.5번째 백분위수에 이르는 구간으로 정의될 수 있다.

6. 3. 스튜던트 t-분포

상관관계가 없는 이변량 정규 분포에서 추출된 쌍의 경우, 학생화된 피어슨 상관 계수의 표집 분포는 자유도가 ''n'' − 2인 스튜던트 ''t''-분포를 따른다. 구체적으로, 기저 변수가 이변량 정규 분포를 갖는 경우, 변수

:t = \frac{r}{\sigma_r} = r\sqrt{\frac{n-2}{1 - r^2}}

는 귀무 가설(0 상관관계)에서 스튜던트 ''t''-분포를 갖는다.[24] 이는 표본 크기가 충분히 큰 경우 비정규 관측값의 경우에도 대략적으로 적용된다.[25] ''r''에 대한 임계값을 결정하려면 역함수가 필요하다.

:r = \frac{t}{\sqrt{n - 2 + t^2}}.

기저 변수가 정규 분포를 따르지 않는 경우, 피어슨 상관 계수의 표집 분포는 스튜던트 ''t''-분포를 따르지만 자유도가 감소한다.[27]

\rho = 0(모집단 상관 관계가 0)인 특수한 경우, 정확한 밀도 함수 ''f''(''r'')은 다음과 같이 쓸 수 있다.

:f(r) = \frac{\left( 1-r^2 \right)^{\frac{n - 4}{2}}}{\operatorname{\Beta}\mathord\left(\tfrac{1}{2}, \tfrac{n - 2}{2}\right)},

여기서 \Beta베타 함수이며, 이는 스튜던트화된 표본 상관 계수에 대한 스튜던트 t-분포의 밀도를 쓰는 한 가지 방법이다.

6. 4. 피셔 변환 (Fisher Transformation)

피셔 변환은 분산 안정화 변환으로, 피어슨 상관 계수 ''ρ''와 관련된 신뢰 구간 및 가설 검정을 수행하는 데 사용된다. 피셔 변환 ''F''는 다음과 같이 정의된다.

:F(r) \equiv \tfrac{1}{2} \, \ln \left(\frac{1 + r}{1 - r}\right) = \operatorname{artanh}(r)

''F''(''r'')은 대략적으로 정규 분포를 따르며, 평균과 표준 오차는 다음과 같다.

:\text{평균} = F(\rho) = \operatorname{artanh}(\rho), 표준 오차 =\text{SE} = \frac{1}{\sqrt{n - 3}}

여기서 ''n''은 표본 크기이다.

근사를 사용하여 z-점수를 계산할 수 있다.

:z = \frac{x - \text{평균}}{\text{SE}} = [F(r) - F(\rho_0)]\sqrt{n - 3}

이는 표본 쌍이 독립적이고 동일하게 분포되어 있고 이변량 정규 분포를 따른다는 가정 하에 \rho = \rho_0라는 귀무 가설 하에서 계산된다. 이를 통해 정규 확률표에서 근사 p-값을 얻을 수 있다.

''ρ''에 대한 신뢰 구간을 얻기 위해서는 먼저 ''F''(''\rho'')에 대한 신뢰 구간을 계산한다.

:100(1 - \alpha)\%\text{CI}: \operatorname{artanh}(\rho) \in [\operatorname{artanh}(r) \pm z_{\alpha/2}\text{SE}]

그 후, 역 피셔 변환을 통해 간격을 다시 상관 관계 척도로 변환한다.

:100(1 - \alpha)\%\text{CI}: \rho \in [\tanh(\operatorname{artanh}(r) - z_{\alpha/2}\text{SE}), \tanh(\operatorname{artanh}(r) + z_{\alpha/2}\text{SE})]

예를 들어, 표본 크기 ''n''=50으로 ''r''=0.7을 관찰하고, ''ρ''에 대한 95% 신뢰 구간을 구하는 경우, 변환된 값은 \operatorname{arctanh} \left ( r \right ) = 0.8673이고, 변환된 척도에 대한 신뢰 구간은 0.8673 \pm \frac{1.96}{\sqrt{47}} , 즉 (0.5814, 1.1532)이다. 이를 다시 상관 관계 척도로 변환하면 (0.5237, 0.8188)을 얻는다.

7. 결정 계수 (Coefficient of Determination)

피어슨 상관 계수를 제곱하면 결정 계수를 얻을 수 있다. 표본 피어슨 상관 계수 r로부터 표본 결정 계수 r^2을, 모집단 피어슨 상관 계수 \rho로부터 모집단 결정 계수 \rho^2을 얻는다.

표본 상관 계수의 제곱은 일반적으로 ''r''2로 표시되며, 이는 결정 계수의 특수한 경우이다. 이 경우, ''r''2는 단순 선형 회귀에서 ''X''가 설명하는 ''Y''의 분산의 비율을 추정한다. 관측된 데이터 집합 Y_1, \dots , Y_n과 적합된 데이터 집합 \hat Y_1, \dots , \hat Y_n이 있는 경우, 평균값을 중심으로 한 ''Y''''i''의 총 변동은 다음과 같이 분해될 수 있다.

:\sum_i (Y_i - \bar{Y})^2 = \sum_i (Y_i-\hat{Y}_i)^2 + \sum_i (\hat{Y}_i-\bar{Y})^2,

여기서 \hat{Y}_i는 회귀 분석에서 적합된 값이다. 이는 다음과 같이 재정렬될 수 있다.

:1 = \frac{\sum_i (Y_i-\hat{Y}_i)^2}{\sum_i (Y_i - \bar{Y})^2} + \frac{\sum_i (\hat{Y}_i-\bar{Y})^2}{\sum_i (Y_i - \bar{Y})^2}.

위의 두 합은 ''X''에 의해 설명되는 ''Y''의 분산의 비율(오른쪽)과 ''X''에 의해 설명되지 않는 분산의 비율(왼쪽)이다.

\hat{Y}_iY_i-\hat{Y}_i 사이의 표본 공분산이 0이라는 최소 제곱 회귀 모형의 속성을 적용하면, 회귀 분석에서 관측된 응답 값과 적합된 응답 값 사이의 표본 상관 계수는 다음과 같이 쓸 수 있다.

:

r(Y,\hat{Y}) = \sqrt{\frac{\sum_i(\hat{Y}_i-\bar{Y})^2}{\sum_i(Y_i-\bar{Y})^2}}.



따라서

:r(Y,\hat{Y})^2 = \frac{\sum_i(\hat{Y}_i-\bar{Y})^2}{\sum_i(Y_i-\bar{Y})^2}

여기서 r(Y,\hat{Y})^2는 ''X''의 선형 함수로 설명되는 ''Y''의 분산의 비율이다.

위의 유도에서, 다음 사실

:\sum_i (Y_i-\hat{Y}_i)(\hat{Y}_i-\bar{Y}) = 0

잔차 제곱합 (RSS)에 대한 편미분 값을 ''β''0과 ''β''1에 대해 계산하면 최소 제곱 모형에서 0이 됨을 알 수 있으므로 증명할 수 있다.

:\text{RSS} = \sum_i (Y_i - \hat{Y}_i)^2.

결론적으로, 방정식은 다음과 같이 쓸 수 있다.

:r(Y,\hat{Y})^2 = \frac{\text{SS}_\text{reg}}{\text{SS}_\text{tot}}

여기서


  • \text{SS}_\text{reg} = \sum_i (\hat{Y}_i-\bar{Y})^2
  • \text{SS}_\text{tot} = \sum_i (Y_i-\bar{Y})^2.


\text{SS}_\text{reg}는 회귀 제곱합이라고 하며, 설명된 제곱합이라고도 하며, \text{SS}_\text{tot}는 총 제곱합(데이터의 분산)에 비례한다.

8. 데이터 분포에 대한 민감도

피어슨 상관 계수는 강건 통계량이 아니므로,[33] 이상치가 존재하면 그 값이 오해를 불러일으킬 수 있다.[34][35] 특히, 피어슨 적률 상관 계수(PMCC)는 분포적으로 강건하지 않으며,[36] 이상치에 강하지 않다.[33] ''X''와 ''Y'' 사이의 산점도를 통해 강건성 부족이 문제가 될 수 있는지 확인할 수 있으며, 이런 경우에는 강건한 연관성 측도를 사용하는 것이 좋다. 그러나 대부분의 강건한 연관성 추정량은 통계적 종속성을 측정하지만, 피어슨 상관 계수와 동일한 척도로 해석하기는 어렵다.

피어슨 상관 계수에 대한 통계적 추론은 데이터 분포에 민감하다. 데이터가 대략 정규 분포를 따르면 정확한 검정과 피셔 변환에 기반한 점근적 검정을 적용할 수 있지만, 그렇지 않으면 오해를 일으킬 수 있다. 어떤 상황에서는 부트스트래핑으로 신뢰 구간을 구성하거나, 순열 검정으로 가설 검정을 수행할 수 있다. 이러한 비모수 통계 접근 방식은 이변량 정규성이 성립하지 않는 상황에서 더 의미 있는 결과를 제공하기도 한다. 그러나 이러한 방법들은 데이터의 교환 가능성에 의존하는데, 이는 상관 추정량의 동작에 영향을 줄 수 있는 데이터 쌍의 순서나 그룹화가 없음을 의미한다.

층화 분석은 이변량 정규성이 없을 때 이를 수용하거나, 다른 요인을 통제하면서 하나의 요인에서 발생하는 상관 관계를 분리하는 방법이다. ''W''가 클러스터 멤버십 또는 통제하려는 다른 요인을 나타내는 경우, ''W'' 값을 기준으로 데이터를 층화 표집하고 각 층 내에서 상관 계수를 계산할 수 있다. 그 후 층 수준의 추정치를 결합하여 ''W''를 통제하면서 전체 상관 관계를 추정할 수 있다.[37]

9. 변형

피어슨 상관 계수는 다양한 목적에 따라 여러 가지로 변형될 수 있다. 주요 변형은 다음과 같다.


  • 조정된 상관 계수: 표본 상관 계수가 모상관 계수의 편향된 추정량이라는 문제를 해결하기 위해 사용된다.
  • 가중 상관 계수: 각 데이터에 가중치를 부여하여 상관 관계를 계산한다.
  • 반사 상관 계수: 데이터가 평균값을 중심으로 정렬되지 않은 경우에 사용되며, 코사인 유사도와 동일하다.
  • 스케일 상관 계수: 시계열 데이터에서 빠른 구성 요소 간의 상관 관계를 파악하는 데 사용된다.
  • 원형 상관 계수: 단위 원에서 정의된 변수 간의 상관 관계를 측정하며, 각도 데이터 분석에 유용하다.
  • 부분 상관 계수: 다른 변수의 영향을 통제한 상태에서 두 변수 간의 상관 관계를 측정한다.

9. 1. 조정된 상관 계수 (Adjusted Correlation Coefficient)

표본 상관 계수는 모상관 계수의 편향되지 않은 추정량이 아니다. 이변량 정규 분포를 따르는 데이터의 경우, 정규 이변량의 표본 상관 계수 에 대한 기대값 는 다음과 같다.[38]

:\operatorname\mathbb{E}\left[r\right] = \rho - \frac{\rho \left(1 - \rho^2\right)}{2n} + \cdots, \quad 따라서 은 \rho의 편향 추정량이다.

최소 분산 불편 추정량 는 다음과 같다.[39]

: r_\text{adj} = r \, \mathbf{_2F_1}\left(\frac{1}{2}, \frac{1}{2}; \frac{n - 1}{2}; 1 - r^2\right),

여기서:

  • r, n은 위와 같이 정의되고,
  • \mathbf{_2 F_1}(a, b; c; z)는 가우스 초기하 함수이다.


근사적으로 불편 추정량 는 을 절단하고 이 절단된 방정식을 풀어서 얻을 수 있다.

: r = \operatorname\mathbb{E}[r] \approx r_\text{adj} - \frac{r_\text{adj} \left(1 - r_\text{adj}^2\right)}{2n}.

위 식의 근사 해는

: r_\text{adj} \approx r \left[1 + \frac{1 - r^2}{2n}\right],

여기서

  • r, n은 위와 같이 정의되고,
  • 는 log(''f''(''r''))을 최대화함으로써 얻을 수도 있고,
  • 는 의 큰 값에 대해 최소 분산을 가지며,
  • 는 의 차수의 편향을 갖는다.


또 다른 제안된[11] 조정 상관 계수는 다음과 같다.

:r_\text{adj}=\sqrt{1-\frac{(1-r^2)(n-1)}{(n-2)}}.

의 큰 값에 대해 이다.

9. 2. 가중 상관 계수 (Weighted Correlation Coefficient)

가중치 벡터 ''w''(모두 길이가 ''n'')를 사용하여 벡터 ''x''와 ''y'' 사이의 상관 관계를 계산하는 방법은 다음과 같다.[40][41]

  • 가중 평균:


::\operatorname{m}(x; w) = \frac{\sum_i w_i x_i}{\sum_i w_i}.

  • 가중 공분산:


::\operatorname{cov}(x,y;w) = \frac{\sum_i w_i \cdot (x_i - \operatorname{m}(x; w)) (y_i - \operatorname{m}(y; w))}{\sum_i w_i }.

  • 가중 상관 관계:


::\operatorname{corr}(x,y;w) = \frac{\operatorname{cov}(x,y;w)}{\sqrt{\operatorname{cov}(x,x;w) \operatorname{cov}(y,y;w)}}.

9. 3. 반사 상관 계수 (Reflective Correlation Coefficient)

반사 상관 계수는 데이터가 평균값을 중심으로 정렬되지 않은 경우 사용되는 피어슨 상관 계수의 변형이다. 모집단 반사 상관은 다음과 같다.

:\operatorname{corr}_r(X,Y) = \frac{\operatorname\mathbb{E}[\,X\,Y\,]}{\sqrt{\operatorname\mathbb{E}[\,X^2\,]\cdot \operatorname\mathbb{E}[\,Y^2\,]}}.

반사 상관은 대칭적이지만, 이동에 대해 불변하지 않다.

:\operatorname{corr}_r(X, Y) = \operatorname{corr}_r(Y, X) = \operatorname{corr}_r(X, bY) \neq \operatorname{corr}_r(X, a + b Y), \quad a \neq 0, b > 0.

표본 반사 상관은 코사인 유사도와 동일하다.

:rr_{xy} = \frac{\sum x_i y_i}{\sqrt{(\sum x_i^2)(\sum y_i^2)}}.

가중 표본 반사 상관은 다음과 같다.

:rr_{xy, w} = \frac{\sum w_i x_i y_i}{\sqrt{(\sum w_i x_i^2)(\sum w_i y_i^2)}}.

9. 4. 스케일 상관 계수 (Scaled Correlation Coefficient)

스케일 상관은 데이터의 범위를 의도적으로 제한하고 제어된 방식으로 시계열의 빠른 구성 요소 간의 상관 관계를 드러내는 피어슨 상관 계수의 변형이다.[42] 스케일 상관은 짧은 데이터 세그먼트의 평균 상관 관계로 정의된다.

''K''를 주어진 스케일 ''s''에 대해 신호 ''T''의 총 길이에 맞출 수 있는 세그먼트의 수라고 하면, 다음과 같이 표현할 수 있다.

:''K'' = round|라운드영어(''T''/''s'')

전체 신호에 대한 스케일 상관 \bar{r}_s는 각 세그먼트 ''k''에 대한 피어슨 상관 계수 r_k를 이용하여 다음과 같이 계산된다.

:\bar{r}_s = \frac{1}{K} \sum\limits_{k=1}^K r_k

파라미터 ''s''를 선택하여 값의 범위를 줄이고 긴 시간 척도의 상관 관계를 걸러내어 짧은 시간 척도의 상관 관계만 드러낼 수 있다. 따라서 느린 구성 요소의 기여는 제거되고 빠른 구성 요소의 기여는 유지된다.

9. 5. 원형 상관 계수 (Circular Correlation Coefficient)

단위 원에서 정의된 변수 ''X'' = {''x''1,...,''x''''n''}와 ''Y'' = {''y''1,...,''y''''n''}에 대해 피어슨 상관 계수의 원형 유사체를 정의할 수 있다.[45] 이는 사인 함수로 ''X''와 ''Y''의 데이터 포인트를 변환하여 수행되며, 상관 계수는 다음과 같이 주어진다.

:r_\text{circular} = \frac{\sum ^n _{i=1}\sin(x_i - \bar{x}) \sin(y_i - \bar{y})}{\sqrt{\sum^n_{i=1} \sin(x_i - \bar{x})^2} \sqrt{\sum ^n_{i=1} \sin(y_i - \bar{y})^2}}

여기서 \bar{x}\bar{y}는 ''X''와 ''Y''의 원형 평균이다. 이 측정 방법은 데이터의 각도 방향이 중요한 기상학과 같은 분야에서 유용할 수 있다.

9. 6. 부분 상관 계수 (Partial Correlation Coefficient)

부분 상관은 다른 변수들의 영향을 통제한 상태에서 두 변수 간의 상관 관계를 측정하는 데 사용되는 상관 계수이다.

10. 컴퓨팅 계산

피어슨 상관 계수는 스프레드시트 프로그램(예: 엑셀의 Correl() 함수)이나 SPSS, PSPP, R, SciPy, Pandas, Polars, 울프럼 매스매티카, Boost 등의 통계 패키지를 사용하여 쉽게 계산할 수 있다.[49]


  • R: 통계 기본 패키지에서 `cor(x, y)`를 사용하여 상관 계수를 계산하고, `cor.test(x, y)`를 사용하여 P 값과 함께 상관 계수를 계산한다.
  • SciPy: 파이썬 라이브러리인 SciPy는 `pearsonr(x, y)`를 통해 피어슨 상관 계수를 계산한다.
  • Pandas: Pandas와 Polars 파이썬 라이브러리는 각각 `pandas.DataFrame.corr`와 `polars.corr` 메서드의 기본 옵션으로 피어슨 상관 계수 계산을 구현한다.
  • 울프럼 매스매티카: `Correlation` 함수 또는 `CorrelationTest` 함수(P 값 포함)를 통해 피어슨 상관 계수를 계산한다.
  • Boost: C++(C++) 라이브러리인 Boost는 `correlation_coefficient` 함수를 통해 피어슨 상관 계수를 계산한다.
  • 엑셀: 엑셀은 내장 함수 `correl(array1, array2)`를 사용하여 피어슨 상관 계수를 계산한다.

11. 양자 시스템에서의 피어슨 상관 계수

이중 양자계에서 두 관측 가능량 XY에 대한 피어슨 상관 계수는 다음과 같이 정의된다.[46][47]

:\mathbb{Cor}(X,Y) = \frac{\mathbb{E}[X \otimes Y] - \mathbb{E}[X] \cdot \mathbb{E}[Y]}{\sqrt{\mathbb{V}[X] \cdot \mathbb{V}[Y]}} \,,

여기서


  • \mathbb{E}[X] 는 관측 가능량 X 의 기대값이고,
  • \mathbb{E}[Y] 는 관측 가능량 Y 의 기대값이며,
  • \mathbb{E}[X \otimes Y] 는 관측 가능량 X \otimes Y 의 기대값이고,
  • \mathbb{V}[X] 는 관측 가능량 X 의 분산이고,
  • \mathbb{V}[Y] 는 관측 가능량 Y 의 분산이다.


\mathbb{Cor}(X,Y)는 대칭적, 즉 \mathbb{Cor}(X,Y)= \mathbb{Cor}(Y, X)이며, 그 절댓값은 아핀 변환에 대해 불변이다.

12. n개 확률 변수의 상관 관계 제거 (Decorrelation)

변수 간의 관계가 비선형인 경우에도 데이터 변환을 사용하여 임의의 수의 확률 변수 간의 모든 쌍의 상관 관계를 제거하는 것이 항상 가능하다. 모집단 분포에 대한 이 결과는 Cox & Hinkley에 의해 발표되었다.[48]

표본 상관 관계를 0으로 줄이는 결과도 존재한다. ''n''개의 확률 변수 벡터가 ''m''번 관찰되었다고 가정한다. ''X''를 X_{i,j}가 관찰 ''i''의 ''j''번째 변수인 행렬이라고 하자. Z_{m,m}을 모든 요소가 1인 ''m'' x ''m'' 정사각 행렬이라고 한다. 그러면 ''D''는 모든 확률 변수가 0의 평균을 갖도록 변환된 데이터이고, ''T''는 모든 변수가 0의 평균과 다른 모든 변수와 0의 상관 관계를 갖도록 변환된 데이터이다. ''T''의 표본 상관 행렬은 단위 행렬이 된다. 단위 분산을 얻기 위해 표준 편차로 추가로 나누어야 한다. 변환된 변수는 독립이 아닐 수 있지만 상관 관계는 없다.

:D = X -\frac{1}{m} Z_{m,m} X

:T = D (D^{\mathsf{T}} D)^{-\frac{1}{2}},

여기서 -\frac{1}{2}의 지수는 행렬의 행렬 제곱근 역수를 나타낸다. ''T''의 상관 행렬은 단위 행렬이 된다. 새로운 데이터 관찰 ''x''가 ''n''개 요소의 행 벡터인 경우, 동일한 변환을 ''x''에 적용하여 변환된 벡터 ''d''와 ''t''를 얻을 수 있다.

:d = x - \frac{1}{m} Z_{1,m} X,

:t = d (D^{\mathsf{T}} D)^{-\frac{1}{2}}.

이 상관 관계 제거는 다변량 데이터에 대한 주성분 분석과 관련이 있다.

참조

[1] 웹사이트 SPSS Tutorials: Pearson Correlation http://libguides.lib[...]
[2] 웹사이트 Correlation Coefficient: Simple Definition, Formula, Easy Steps https://www.statisti[...]
[3] 논문 Typical laws of heredity https://books.google[...] 1877-04-05/1877-04-19
[4] 논문 The British Association: Section II, Anthropology: Opening address by Francis Galton, F.R.S., etc., President of the Anthropological Institute, President of the Section https://books.google[...] 1885-09-24
[5] 논문 Regression towards mediocrity in hereditary stature https://books.google[...]
[6] 논문 Notes on regression and inheritance in the case of two parents https://books.google[...] 1895-06-20
[7] 논문 Francis Galton's account of the invention of correlation
[8] 논문 Analyse mathematique sur les probabilités des erreurs de situation d'un point https://books.google[...]
[9] 논문 Correlation and causation
[10] 웹사이트 How was the correlation coefficient formula derived? https://stats.stacke[...] 2024-10-26
[11] 웹사이트 Basic Concepts of Correlation http://www.real-stat[...] Real Statistics Using Excel 2015-02-22
[12] 웹사이트 Statistical Correlation https://mathworld.wo[...] 2020-08-22
[13] 서적 Progress in Applied Mathematical Modeling https://books.google[...] Nova Science Publishers, Inc.
[14] 논문 Maximum likelihood estimation of the correlation coefficient in a bivariate normal model, with missing data 1998-06-15
[15] 웹사이트 2.6 - (Pearson) Correlation Coefficient r https://online.stat.[...] 2021-07-10
[16] 웹사이트 Introductory Business Statistics: The Correlation Coefficient r https://opentextbc.c[...] 2020-08-21
[17] 논문 Thirteen ways to look at the correlation coefficient https://www.stat.ber[...]
[18] 논문 The relationship between the coefficient of correlation and the angle included between regression lines 1947-12
[19] 웹사이트 Understanding Correlation http://www.hawaii.ed[...]
[20] 서적 Life Time of Correlations and its Applications Wydawnictwo Niezależne 2010-12
[21] 서적 Statistical Power Analysis for the Behavioral Sciences
[22] 논문 The Standard Deviation of the Correlation Coefficient https://www.jstor.or[...] 1928
[23] 웹사이트 Derivation of the standard error for Pearson's correlation coefficient https://stats.stacke[...] 2021-07-30
[24] 문서 A Course in Theoretical Statistics Charles Griffin and Company
[25] 서적 The Advanced Theory of Statistics, Volume 2: Inference and Relationship Griffin
[26] 논문 On the distribution of the correlation coefficient in small samples. Appendix II to the papers of "Student" and R.A. Fisher. A co-operative study https://zenodo.org/r[...]
[27] 논문 Filtering induces correlation in fMRI resting state data 2013-01
[28] 논문 New Light on the Correlation Coefficient and its Transforms 1953
[29] 서적 Mathematics of Statistics Van Nostrand
[30] 웹사이트 Correlation Coefficient—Bivariate Normal Distribution http://mathworld.wol[...]
[31] 논문 Confidence in Correlation 2020
[32] 논문 A robust correlation analysis framework for imbalanced and dichotomous data with uncertainty http://eprints.white[...] 2019-01
[33] 서적 Introduction to robust estimation and hypothesis testing Academic Press
[34] 논문 Robust estimation and outlier detection with correlation coefficients
[35] 서적 Robust Statistics Wiley
[36] 서적 Asymptotic Statistics http://dx.doi.org/10[...] Cambridge University Press 1998-10-13
[37] 서적 Multivariable Analysis – A Practical Guide for Clinicians Cambridge University Press 2006
[38] 논문 New Light on the Correlation Coefficient and its Transforms
[39] 논문 Unbiased Estimation of Certain Correlation Coefficients 1958-03
[40] 웹사이트 Re: Compute a weighted correlation http://sci.tech-arch[...]
[41] 웹사이트 Weighted Correlation Matrix – File Exchange – MATLAB Central http://www.mathworks[...]
[42] 논문 Scaled correlation analysis: a better way to compute a cross-correlogram http://www.danko-nik[...]
[43] 서적 Bioinformatics: Applications in Life and Environmental Sciences Springer 2009
[44] 논문 Minimum Pearson distance detection for multilevel channels with gain and / or offset mismatch https://www.research[...] 2018-02-11
[45] 서적 Topics in circular statistics https://books.google[...] World Scientific 2016-09-21
[46] 논문 Demonstration of the Einstein-Podolsky-Rosen paradox using nondegenerate parametric amplification https://journals.aps[...] 1989-07-01
[47] 논문 Complementarity and Correlations https://journals.aps[...] 2015-04-01
[48] 서적 Theoretical Statistics Chapman & Hall
[49] 문서 "([[리브레오피스]]-스프레드 시트) CORREL(A,B)"



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com