상관계수
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
상관계수는 두 변수 간의 관계 정도를 나타내는 지표로, 데이터 유형에 따라 여러 종류가 있다. 피어슨 상관 계수, 스피어만 순위 상관 계수, 켄달의 타우 순위 상관 계수 등이 있으며, 값은 -1에서 +1 사이로, 0은 상관관계가 없음을 의미한다. 상관관계는 인과관계를 보장하지 않으며, 제3의 변수가 영향을 미치는 경우도 있다. 상관 분석은 변수 간의 선형 관계와 강도를 분석하는 방법이며, 회귀 분석과는 다르다. HARKing은 연구 결과 발표 후 가설을 수정하는 행위로, 연구 절차상 문제가 될 수 있다.
더 읽어볼만한 페이지
상관계수 | |
---|---|
개요 | |
이름 | 상관 계수 |
다른 이름 | 피어슨 상관 계수, 피어슨 r, 이변량 상관 |
분야 | 통계학 |
정의 | |
정의 | 두 변수 사이의 선형 관계의 강도와 방향을 측정하는 값 |
값의 범위 | -1에서 +1 사이의 값 |
+1 | 완벽한 양의 상관 관계 |
0 | 상관 관계 없음 |
-1 | 완벽한 음의 상관 관계 |
주의 사항 | 상관 관계는 인과 관계를 의미하지 않음 |
종류 | |
피어슨 상관 계수 | 두 변수 간의 선형 관계의 정도를 측정 |
스피어만 순위 상관 계수 | 두 변수의 순위 간의 상관 관계를 측정 |
켄달의 타우 | 두 변수의 순위 간의 상관 관계를 측정 (스피어만과 유사하지만 계산 방법이 다름) |
폴리코릭 상관 계수 | 두 범주형 변수 간의 상관 관계를 추정 |
사분상관계수 | 두 이분변수 간의 상관 관계를 추정 |
계산 | |
공식 | r = Σ((xi - x̄)(yi - ȳ)) / (√Σ(xi - x̄)² √Σ(yi - ȳ)²) |
설명 | r은 상관 계수, xi와 yi는 각 데이터 포인트의 값, x̄와 ȳ는 각 변수의 평균 |
해석 | |
강도 | 0.7 이상: 강한 상관 관계, 0.3 - 0.7: 중간 상관 관계, 0.3 미만: 약한 상관 관계 |
방향 | 양수: 양의 상관 관계 (한 변수가 증가하면 다른 변수도 증가), 음수: 음의 상관 관계 (한 변수가 증가하면 다른 변수는 감소) |
활용 | |
활용 분야 | 경제학, 심리학, 사회학, 의학, 공학 등 다양한 분야에서 변수 간의 관계를 분석하는 데 사용 |
예시 | 소득과 소비 사이의 관계, 교육 수준과 임금 사이의 관계, 흡연량과 폐암 발병률 사이의 관계 |
주의 사항 | |
주의 사항 | 상관 관계는 인과 관계를 의미하지 않음 이상치의 영향을 크게 받을 수 있음 비선형 관계는 잘 측정하지 못함 |
기타 | |
관련 항목 | 인과관계, 회귀분석, 공분산 |
2. 상관 계수의 종류
데이터의 상관관계 정도를 측정하는 방법에는 데이터 유형에 따라 여러 가지가 있다. 주로 데이터가 측정값인지, 순서형인지, 또는 범주형인지에 따라 달라진다.[4]
상관 계수에는 다음과 같은 것들이 있다.
- 피어슨 상관 계수
- 점-이중 상관 계수영어
- 편상관
- 급내 상관영어
- 순위 상관 계수
- 스피어만 순위 상관 계수
- 켄달의 순위 상관 계수
- 분할표의 연관 계수
- 파이 계수영어
- 크래머의 V영어
- 다중 상관 계수영어
2. 1. 피어슨 상관 계수 (Pearson Correlation Coefficient)
Pearson Correlation Coefficient영어는 ''r'', ''R'', 또는 피어슨 ''r''로도 알려져 있으며, 두 변수 간의 선형 관계의 강도와 방향을 측정하는 지표이다. 변수의 공분산을 표준 편차의 곱으로 나눈 값으로 정의된다.[4] 이는 가장 잘 알려져 있고 가장 일반적으로 사용되는 유형의 상관 계수이다. "상관 계수"라는 용어가 추가적인 설명 없이 사용될 경우, 일반적으로 피어슨 곱 모멘트 상관 계수를 의미한다.피어슨 상관 계수는 확률 변수 사이의 선형 관계를 나타낼 뿐이며[4], 확률 변수 간의 인과 관계를 설명하는 것은 아니다. 상관 계수는 서열 척도이며 비구간 척도이므로, 예를 들어 "상관 계수가 0.2와 0.4이므로 후자가 전자보다 2배의 상관 관계가 있다" 등과 같은 말은 할 수 없다.
종종 상관 관계가 있다는 표현이 마치 인과 관계를 나타내는 것처럼 오해되거나 오용된다. 2개의 변수(A, B) 사이에 상관 관계가 있는 경우, 우연에 의한 상관 관계를 제외하면, 다음 3가지 가능성이 상정된다.
# A가 B를 발생시킨다.
# B가 A를 발생시킨다.
# 제3의 변수 C가 A와 B를 발생시킨다(이 경우, A와 B 사이에는 인과 관계가 없고 허위 상관이라고 불린다).
인과적인 효과를 추정하기 위해서는 단순히 상관 관계를 보는 것만으로는 알 수 없다. 주디아 펄(Judea Pearl)[11]이나 도널드 루빈(Donald Rubin)[12] 등에 의해 정리되어 온 통계적 인과 추론 등에 따른 조사 연구를 실시할 필요가 있다.
2. 2. 급내 상관 계수 (Intraclass Correlation Coefficient, ICC)
급내 상관 계수(ICC)는 정량적 측정이 그룹으로 구성된 단위에서 이루어질 때 사용될 수 있는 기술 통계량으로, 동일한 그룹 내의 단위들이 서로 얼마나 유사한지를 설명한다.2. 3. 순위 상관 계수 (Rank Correlation Coefficient)
순위 상관은 두 변수의 순위, 또는 동일 변수의 두 순위 간의 관계를 측정하는 척도이다.- 스피어만 순위 상관 계수는 두 변수 간의 관계를 간략하게 설명한다.
- 켄달의 타우 순위 상관 계수는 두 데이터 집합 간에 일치하는 순위를 간략하게 설명한다.
- 굿맨과 크루스칼의 감마는 두 변수가 서수 수준에서 측정될 때 교차표로 작성된 데이터의 연관성 강도를 측정하는 척도이다.
상관 계수에는 다음과 같은 것들이 있다.
- 피어슨 상관 계수
- 편상관
- 순위 상관 계수
- * 스피어만 순위 상관 계수
- * 켄달의 순위 상관 계수
- 분할표의 연관 계수
2. 3. 1. 스피어만 순위 상관 계수 (Spearman's Rank Correlation Coefficient)
스피어만 순위 상관 계수는 두 변수 간의 관계가 단조 함수로 얼마나 잘 설명될 수 있는지를 측정하는 척도이다.[1]2. 3. 2. 켄달의 타우 순위 상관 계수 (Kendall's Tau Rank Correlation Coefficient)
켄달의 타우 순위 상관 계수는 두 데이터 집합 간에 일치하는 순위의 비율을 측정하는 척도이다.[1]2. 3. 3. 굿맨과 크루스칼의 감마 (Goodman and Kruskal's Gamma)
굿맨과 크루스칼의 감마는 순위 상관의 하나이다. 두 변수가 서수 수준에서 측정될 때 교차표로 작성된 데이터의 연관성 강도를 측정하는 척도이다.2. 4. 사분 상관 계수 및 다분 상관 계수 (Tetrachoric and Polychoric Correlation Coefficient)
다분 상관 계수는 두 개의 순서형 범주형 변수 간의 연관성을 측정한다. 이는 두 변수가 연속형 척도로 측정되었고, 이변량 정규 분포를 따르는 경우 얻을 수 있는 피어슨 상관 계수의 추정치로 정의된다.[1]두 변수가 모두 이분 변수인 경우, 다분 상관 계수는 사분 상관 계수라고 한다.[1]
3. 상관 계수 값의 해석
상관 계수 값은 -1에서 +1까지의 범위를 가지며, 여기서 ±1은 가능한 가장 강한 상관 관계를 나타내고 0은 변수 간에 상관 관계가 없음을 나타낸다.[5]
r 또는 R | r 또는 R | 변수 간의 연관성의 강도 |
---|---|---|
+1.0 ~ +0.8 | -1.0 ~ -0.8 | 완전하거나 매우 강한 연관성 |
+0.8 ~ +0.6 | -0.8 ~ -0.6 | 강한 연관성 |
+0.6 ~ +0.4 | -0.6 ~ -0.4 | 보통의 연관성 |
+0.4 ~ +0.2 | -0.4 ~ -0.2 | 약한 연관성 |
+0.2 ~ 0.0 | -0.2 ~ 0.0 | 매우 약하거나 연관성이 없음 |
4. 상관관계와 인과관계
피어슨 상관 계수는 확률 변수 사이의 선형 관계를 나타내는 척도일 뿐이며, 서열 척도이고 비구간 척도이므로, "상관 계수가 0.2와 0.4이므로 후자가 전자보다 2배의 상관 관계가 있다"와 같은 표현은 사용할 수 없다.[11][12]
두 변수(A, B) 사이에 상관 관계가 있는 경우, 우연에 의한 상관 관계를 제외하면 다음 세 가지 가능성이 상정된다.
- A가 B를 발생시킨다.
- B가 A를 발생시킨다.
- 제3의 변수 C가 A와 B를 발생시킨다 (이 경우 A와 B 사이에는 인과 관계가 없고 허위 상관이라고 불린다).
4. 1. 인과관계 추론
피어슨 상관 계수는 확률 변수 사이의 선형 관계를 나타내는 척도일 뿐이며, 확률 변수 간의 인과 관계를 설명하는 것은 아니다.[11][12]종종 상관 관계가 있다는 표현이 인과 관계를 나타내는 것처럼 오해되거나 오용된다. 두 변수(A, B) 사이에 상관 관계가 있을 때, 우연에 의한 상관 관계를 제외하면 다음 세 가지 가능성이 있다.
# A가 B를 발생시킨다.
# B가 A를 발생시킨다.
# 제3의 변수 C가 A와 B를 발생시킨다 (이 경우 A와 B 사이에는 인과 관계가 없고 허위 상관이라고 불린다).
인과적 효과를 추정하기 위해서는 단순히 상관 관계를 보는 것만으로는 알 수 없다. 주디아 펄[11]이나 도널드 루빈[12] 등에 의해 정리된 통계적 인과 추론 등에 따른 조사 연구를 실시할 필요가 있다.
5. 상관 계수와 회귀 계수의 혼동
상관 분석은 두 변수 간에 선형 관계가 있는지, 그리고 그 관계가 얼마나 강한지를 분석하는 방법이다. 이때 두 변수 사이에 어떤 인과 관계가 있다고 가정하지는 않는다. 반면 회귀 분석은 변수들 간의 관계를 구체적인 함수 형태로 나타내는 분석 방법이다. 회귀 분석은 설명 변수를 사용하여 목적 변수를 예측하는 데 사용된다.[1]
상관 계수와 회귀 계수는 서로 다른 개념인데, 초보자들은 이를 혼동하는 경우가 많다.[1]
회귀식을 만드는 것은 단지 예측 모델을 만드는 것일 뿐, 회귀 분석으로 인과 관계를 직접적으로 알아낼 수는 없다는 점에 유의해야 한다.[1]
6. HARKing
HARKing은 연구 결과를 바탕으로 사전 가설을 수정하여 논문을 작성하는 행위를 말한다. 가설 검증형 연구에서 HARKing을 한 논문을 발표하면, 우연의 결과를 마치 의미 있는 결과인 것처럼 오인하게 할 수 있다. 이는 1종 오류나 2종 오류를 일으킬 가능성이 높아 연구 절차상 큰 문제가 된다.
참조
[1]
웹사이트
correlation coefficient
http://www.ncme.org/[...]
National Council on Measurement in Education
2014-04-17
[2]
서적
An Introduction to Error Analysis: The Study of Uncertainties in Physical Measurements
http://faculty.kfupm[...]
University Science Books
1997
[3]
서적
Statistical Methods in Practice: For scientists and technologists
Wiley
2009
[4]
웹사이트
Statistical Correlation
https://mathworld.wo[...]
2020-08-22
[5]
서적
An Introduction to Error Analysis: The Study of Uncertainties in Physical Measurements
http://faculty.kfupm[...]
University Science Books
1997
[6]
웹사이트
The Correlation Coefficient (r)
https://sphweb.bumc.[...]
[7]
웹사이트
統計学セミナー 第5回資料 相関 (Correlation)
http://www.saturingi[...]
北海道対がん協会
2016-05-31
[8]
서적
Statistics in Social Science and Agricultural Research
https://books.google[...]
Concept Publishing Company
[9]
서적
Basic Statistics: Tales of Distributions
https://books.google[...]
Cengage Learning
2007-05-16
[10]
간행물
JIS Z 8101-1 : 1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語 1.9 相関
http://kikakurui.com[...]
日本規格協会
[11]
문서
Causality: Models, Reasoning, and Inference
Cambridge University Press
2000
[12]
논문
Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies
[13]
웹인용
correlation coefficient
http://www.ncme.org/[...]
National Council on Measurement in Education
2014-04-17
[14]
서적
An Introduction to Error Analysis: The Study of Uncertainties in Physical Measurements
http://faculty.kfupm[...]
University Science Books
1997
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com