상관 분석
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
상관 분석은 두 변수 간의 선형 관계의 강도와 방향을 측정하는 통계적 방법이다. 선형성, 동변량성, 두 변수의 정규분포성, 무선독립표본 등의 기본 가정을 전제로 하며, 단순상관분석, 다중상관분석, 편상관분석 등의 분석 방법을 사용한다. 주요 측정 지표로는 피어슨 상관 계수, 스피어만 상관 계수, 크론바흐 알파 계수 등이 있으며, 피어슨 상관 계수는 -1에서 +1 사이의 값을 가지며 변수 간의 관계 강도를 나타낸다. 상관 관계는 인과 관계를 의미하지 않으며, 상관 행렬을 통해 여러 변수 간의 상관 관계를 파악할 수 있다.
더 읽어볼만한 페이지
- 상관분석 - 공분산
공분산은 두 확률변수가 함께 변하는 정도를 나타내는 통계적 척도로, 변수 간의 선형 종속성 측정 및 비상관 확률변수와 통계적 독립성 판단에 활용되며, 현대 포트폴리오 이론, 자료 동화 등 다양한 분야에 응용된다. - 통계학 - 확률
확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다. - 통계학 - 사분위수
사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.
상관 분석 |
---|
2. 기본 가정
상관 분석은 다음과 같은 기본 가정을 전제로 한다.
- 선형성: 두 변인 X와 Y의 관계가 직선적인지를 알아보는 것으로, 이 가정은 분포를 나타내는 산점도를 통하여 확인할 수 있다.
- 동변량성: X의 값에 관계없이 Y의 흩어진 정도가 같은 것을 의미한다. 이분산성이 반대어이다.
- 두 변인의 정규분포성: 두 변인의 측정치 분포가 모집단에서 모두 정규분포를 이루는 것이다.
- 무선독립표본: 모집단에서 표본을 뽑을 때 표본대상이 확률적으로 선정된다는 것이다.[58]
3. 분석 방법
상관 분석은 변수의 수와 척도에 따라 다양한 방법을 사용한다. 두 변수 사이의 관계 강도를 측정하는 단순상관분석, 여러 변수 간의 관계 강도를 측정하는 다중상관분석이 있다. 다중상관분석에서 다른 변수와의 관계를 고정하고 두 변수 간의 관계 강도만을 나타내는 것을 편상관분석이라고 한다.
상관관계가 0<ρ≤+1 이면 양의 상관, -1≤ρ<0 이면 음의 상관, ρ=0이면 무상관이라고 한다. 하지만 ρ=0인 경우가 상관관계가 없다는 것이 아니라, 선형적인 상관관계가 없다는 것을 의미한다.
3. 1. 피어슨 상관 계수
칼 피어슨이 개발한 피어슨 상관 계수(Pearson correlation coefficient 또는 Pearson's r)는 이변량 상관분석에서 널리 사용되는 방법이다. 두 변수 간의 관련성을 나타내는 척도로, 보통 "상관 계수"라고 하면 피어슨 상관 계수를 의미한다.[31]피어슨 상관 계수는 두 변수의 공분산을 표준 편차의 곱으로 나누어 계산한다.
:
피어슨 상관 계수는 두 표준 편차가 모두 유한하고 양수일 때만 정의된다. 모멘트 관점에서 다음과 같이 표현할 수도 있다.
:
피어슨 상관 계수는 -1에서 +1 사이의 값을 가지며, 실제 데이터가 기댓값에서 얼마나 벗어나는지를 나타낸다.

일반적으로 다음과 같이 해석한다.[7][8]
- -1.0 ~ -0.7: 강한 음적 선형 관계
- -0.7 ~ -0.3: 뚜렷한 음적 선형 관계
- -0.3 ~ -0.1: 약한 음적 선형 관계
- -0.1 ~ +0.1: 거의 무시 가능한 선형 관계
- +0.1 ~ +0.3: 약한 양적 선형 관계
- +0.3 ~ +0.7: 뚜렷한 양적 선형 관계
- +0.7 ~ +1.0: 강한 양적 선형 관계
결정 계수() 는 X로부터 Y를 예측할 수 있는 정도를 의미한다.
피어슨 상관 계수는 두 변수 간의 ''선형'' 관계의 강도만 나타낼 뿐, 관계를 완전히 설명하지는 못한다.[52] 프랜시스 앤스콤의 4분할 자료에서 볼 수 있듯이, 상관 계수가 같더라도 변수 분포는 매우 다를 수 있다.[23]
- 왼쪽 위: 정규 분포, 상관 관계가 예상과 일치
- 오른쪽 위: 정규 분포가 아니며, 선형 관계가 아님
- 왼쪽 아래: 하나의 특이값 때문에 상관 계수가 1에서 0.816으로 감소
- 오른쪽 아래: 관계가 선형이 아니지만 특이값으로 인해 높은 상관 계수
이러한 예는 요약 통계량인 상관 계수가 데이터의 시각적 검토를 대체할 수 없음을 보여준다.[53]
피어슨 상관 계수는 데이터가 다변량 정규 분포를 따를 때 충분 통계량이 되며, 이 경우에만 변수 간의 관계를 완전히 특징짓는다.[31]
만약 두 변수 가 이변량 정규 분포를 따르면, 조건부 평균 는 의 선형 함수이다. 상관 계수 는 주변 평균 및 분산과 함께 이 선형 관계를 결정한다.
:
경험적 상관 은 상관 계수 의 추정량이다. 의 분포 추정량은 다음 식으로 구할 수 있다.[54][55]
:
3. 2. 스피어만 상관 계수
스피어만 상관 계수는 데이터가 서열척도인 경우, 즉 자료의 값 대신 순위를 이용하는 경우의 상관 계수이다. 데이터를 작은 것부터 차례로 순위를 매겨 서열 순서로 바꾼 뒤 순위를 이용해 상관 계수를 구한다. 두 변수 간의 연관 관계가 있는지 없는지를 밝혀주며, 자료에 이상점이 있거나 표본크기가 작을 때 유용하다. 스피어만 상관 계수는 -1과 1 사이의 값을 가지는데, 두 변수 안의 순위가 완전히 일치하면 +1이고, 두 변수의 순위가 완전히 반대이면 -1이 된다. 예를 들어 수학 잘하는 학생이 영어를 잘하는 것과 상관있는지 없는지를 알아보는데 쓰일 수 있다.3. 3. 크론바흐 알파 계수
크론바흐 알파 계수의 신뢰도 계수 α는 검사의 내적 일관성을 나타내는 값으로서, 한 검사 내에서 변수들 간의 평균 상관관계에 근거해 검사 문항들이 동질적인 요소로 구성되어 있는지를 분석하는 것이다. 이는 동일한 개념이라면 서로 다른 독립된 측정 방법으로 측정했을 때 결과가 비슷하게 나타날 것이라는 가정을 바탕으로 한다. 예를 들어, 설문 조사에서 같은 내용의 질문을 다른 형태로 반복하여 질문한 다음 응답이 일관되는지를 검사하여 신뢰도를 파악할 수 있다. 일반적으로 요인 분석을 통해 요인들을 추출하고, 이 요인들이 동질적인 변수들로 구성되어 있는지를 확인할 때 크론바흐 알파 계수가 이용된다. 사전 조사나 같은 속성의 질문을 반복하는 방법을 통해 신뢰도를 높일 수 있다.4. 상관 관계와 인과 관계
"상관관계는 인과관계를 암시하지 않는다"라는 격언은 상관관계만으로는 변수 간의 인과 관계를 추론할 수 없다는 의미이다.[22] 이 격언은 상관관계가 잠재적인 인과 관계의 존재를 나타낼 수 없다는 의미로 받아들여서는 안 된다. 그러나 상관관계의 근본적인 원인(존재하는 경우)은 간접적이고 알려지지 않을 수 있으며, 높은 상관관계는 항등식 관계(동어반복)와 겹칠 수 있고, 이에는 인과 과정이 존재하지 않는다. 결과적으로 두 변수 간의 상관관계는 인과 관계를 확립하기 위한 충분 조건이 아니다(어느 방향으로든).
어린이의 나이와 키 사이의 상관관계는 인과 관계가 비교적 투명하지만, 사람들의 기분과 건강 사이의 상관관계는 그렇지 않다. 기분이 좋아지면 건강이 좋아지는가, 아니면 건강이 좋아지면 기분이 좋아지는가, 아니면 둘 다인가? 아니면 다른 요인이 둘 다의 근본 원인인가? 즉, 상관관계는 가능한 인과 관계에 대한 증거로 받아들여질 수 있지만, 인과 관계가 있다면 무엇일 수 있는지 나타낼 수 없다.
5. 상관 행렬
상관 행렬(Correlation matrix영어)은 여러 변수 간의 상관 관계를 한눈에 보여주는 표이다.
''n''개의 확률 변수 의 상관 행렬은 ''n'' × ''n'' 행렬 ''C''이며, 항목은 다음과 같다.
:
따라서 대각선 항목은 모두 1이다. 사용된 상관 관계 척도가 적률 계수일 경우, 상관 행렬은 에 대한 표준화 변수 의 공분산 행렬과 동일하다. 이는 모집단 상관 행렬(이 경우 는 모집단 표준 편차)과 표본 상관 행렬(이 경우 는 표본 표준 편차) 모두에 적용된다. 결과적으로, 각 행렬은 필연적으로 양의 준정부호 행렬이다. 또한, 다른 변수의 값의 선형 함수로 모든 값을 정확히 생성할 수 있는 변수가 없으면 상관 행렬은 양의 정부호 행렬이다.
상관 행렬은 와 간의 상관 관계가 와 간의 상관 관계와 동일하기 때문에 대칭 행렬이다.
상관 행렬은 예를 들어, 중회귀 분석의 적합성 척도인 결정 계수의 공식 중 하나에 나타난다.
통계 모델링에서 변수 간의 관계를 나타내는 상관 행렬은 서로 다른 상관 구조로 분류되며, 이는 추정해야 하는 매개변수의 수와 같은 요인에 따라 구분된다. 예를 들어, 교환 가능성 상관 행렬에서 모든 변수 쌍은 동일한 상관 관계를 갖도록 모델링되므로 행렬의 모든 비대각선 요소는 서로 같다. 반면, 자기 회귀 모형 행렬은 변수가 시계열을 나타낼 때 종종 사용되며, 측정 시점이 가까울수록 상관 관계가 커질 가능성이 높다.
탐색적 데이터 분석에서 상관 관계의 도상학은 상관 행렬을 "주목할 만한" 상관 관계가 실선(양의 상관 관계) 또는 점선(음의 상관 관계)으로 표시되는 다이어그램으로 대체하는 것으로 구성된다.
6. 추가적인 의존성 척도
피어슨 상관 계수 외에도 다양한 의존성 척도가 존재한다. 연속 변수의 경우, 의존적인 확률 변수에 대해 피어슨 상관 관계가 0이 될 수 있다는 결함을 해결하기 위해 여러 대체 의존성 측정치가 도입되었다.[9] 이들은 모두 0의 값이 독립성을 의미한다는 중요한 속성을 공유한다.
- 거리 상관 관계: 종속 확률 변수에 대해 0이 될 수 있다는 피어슨 상관의 결함을 해결하기 위해 도입되었다. 거리 상관이 0이라는 것은 독립성을 의미한다.[36][37]
- 랜덤 의존성 계수 (RDC): 다변량 확률 변수 간의 계산 효율적인 코퓰라 기반 의존성 측정치이며,[13] 확률 변수의 비선형 스케일링에 대해 불변한다.
- 오즈비: 두 개의 이진 변수의 경우, 의존성을 측정한다.
- Yule의 ''Y'' 및 Yule의 ''Q'': 오즈비를 상관 관계와 유사한 범위로 정규화한다.
- 상관비, 엔트로피 기반 상호 정보량, 총 상관 관계, 이중 총 상관 관계 및 다중 상관 관계: 더 일반적인 의존성을 감지할 수 있다.
- 결정 계수: 상관 계수를 다중 회귀로 일반화한다.
하지만, 대체적인 측정치들은 두 변수가 연관되어 있는지 테스트하는 데 사용될 때 데이터가 다변량 정규 분포를 따르는 경우 피어슨 상관 관계에 비해 낮은 검정력을 갖는 경향이 있다. 또한, 피어슨 상관 관계는 모든 값에 대해 해석할 수 있지만, 대체 측정치는 일반적으로 극단적인 경우에만 의미 있게 해석할 수 있다.[14]
참조
[1]
서적
Applied General Statistics
Pitman
[2]
서적
Uncertainty, Calibration and Probability: The Statistics of Scientific and Industrial Measurement
A. Higler
[3]
서적
Statistical Mathematics
Oliver & Boyd
[4]
논문
Thirteen ways to look at the correlation coefficient
[5]
서적
Statistics for Research
Wiley
[6]
논문
How high can a correlation coefficient be?
[7]
서적
An Introduction to the Theory of Statistics
Charles Griffin & Co.
[8]
서적
Rank Correlation Methods
Charles Griffin & Co.
[9]
논문
Beyond Pearson's Correlation: Modern Nonparametric Independence Tests for Psychological Research
2024-08-04
[10]
arXiv
Comment on "Detecting Novel Associations In Large Data Sets" by Reshef Et Al, Science Dec 16, 2011
[11]
논문
Measuring and testing independence by correlation of distances
[12]
논문
Brownian distance covariance
[13]
간행물
The Randomized Dependence Coefficient
http://papers.nips.c[...]
[14]
논문
On Quantifying Dependence: A Framework for Developing Interpretable Measures
[15]
서적
Research problems and techniques (Report No. 3)
US Govt. print. off.
[16]
논문
Scaled correlation analysis: a better way to compute a cross-correlogram
[17]
논문
Computing the nearest correlation matrix—a problem from finance
2002
[18]
웹사이트
Portfolio Optimizer
https://portfolioopt[...]
2021-01-30
[19]
논문
Computing a Nearest Correlation Matrix with Factor Structure.
http://eprints.maths[...]
2010
[20]
논문
A quadratically convergent Newton method for computing the nearest correlation matrix.
2006
[21]
서적
Fundamentals of Probability and Stochastic Processes with Applications to Communications
Springer
[22]
논문
Correlations Genuine and Spurious in Pearson and Yule
[23]
논문
Graphs in statistical analysis
[24]
논문
The confidence density for correlation
2021
[25]
preprint
Confidence in correlation
http://rgdoi.net/10.[...]
2020
[26]
웹사이트
相関
https://kotobank.jp/[...]
精選版 日本国語大辞典
[27]
웹사이트
相関係数とは何か。その求め方・公式・使い方と3つの注意点
https://atarimae.biz[...]
2020-02-09
[28]
서적
Applied General Statistics
Pitman
[29]
서적
Uncertainty, Calibration and Probability: The Statistics of Scientific and Industrial Measurement
A. Higler
[30]
서적
Statistical Mathematics
Oliver & Boyd
[31]
논문
Thirteen ways to look at the correlation coefficient
[32]
웹사이트
正の相関と負の相関
https://bellcurve.jp[...]
2022-01-03
[33]
웹사이트
なるほど統計学園 10.特徴を捉える
http://www.stat.go.j[...]
2022-01-03
[34]
웹사이트
確率における独立と従属の意味と例
https://mathwords.ne[...]
2018-02-05
[35]
논문
The Non-Misleading Value of Inferred Correlation: An Introduction to the Cointelation Model
[36]
논문
Measuring and testing independence by correlation of distances
[37]
논문
Brownian distance covariance
[38]
간행물
"The Randomized Dependence Coefficient"
http://papers.nips.c[...]
[39]
간행물
確率的依存構造をもつコピュラモデル
https://www.ism.ac.j[...]
統計数理研究所
[40]
웹사이트
ダミー変数
https://kotobank.jp/[...]
世界大百科事典 第2版の解説より
[41]
서적
Research problems and techniques (Report No. 3)
US Govt. print. off.
[42]
웹사이트
18-3. 推定量の性質
https://bellcurve.jp[...]
BellCurve
2022-01-03
[43]
논문
Scaled correlation analysis: a better way to compute a cross-correlogram
[44]
웹사이트
最近傍相関行列の計算
https://www.nag-j.co[...]
NAG
2022-01-03
[45]
논문
Computing the nearest correlation matrix-a problem from finance
2002
[46]
웹사이트
Portfolio Optimizer
https://portfolioopt[...]
2021-01-30
[47]
논문
Computing a Nearest Correlation Matrix with Factor Structure.
2010
[48]
논문
A quadratically convergent Newton method for computing the nearest correlation matrix.
2006
[49]
서적
Fundamentals of Probability and Stochastic Processes with Applications to Communications
Springer
[50]
논문
Correlations Genuine and Spurious in Pearson and Yule
[51]
웹사이트
免疫力低下の原因
https://www.otsuka.c[...]
大塚製薬
2022-01-03
[52]
논문
The Misleading Value of Measured Correlation
[53]
논문
Graphs in statistical analysis
[54]
논문
The Confidence Density for Correlation
https://doi.org/10.1[...]
2021
[55]
논문
Confidence in Correlation
http://rgdoi.net/10.[...]
2020
[56]
논문
The Standard Deviation of the Correlation Coefficient
https://www.jstor.or[...]
1928
[57]
웹사이트
Derivation of the standard error for Pearson's correlation coefficient
https://stats.stacke[...]
2021-07-30
[58]
서적
기초통계학
학지사
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com