맨위로가기

상관계수

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

상관계수는 두 변수 간의 관계 정도를 나타내는 지표로, 데이터 유형에 따라 여러 종류가 있다. 피어슨 상관 계수, 스피어만 순위 상관 계수, 켄달의 타우 순위 상관 계수 등이 있으며, 값은 -1에서 +1 사이로, 0은 상관관계가 없음을 의미한다. 상관관계는 인과관계를 보장하지 않으며, 제3의 변수가 영향을 미치는 경우도 있다. 상관 분석은 변수 간의 선형 관계와 강도를 분석하는 방법이며, 회귀 분석과는 다르다. HARKing은 연구 결과 발표 후 가설을 수정하는 행위로, 연구 절차상 문제가 될 수 있다.

더 읽어볼만한 페이지

  • 수학 용어 - 정리
    정리는 논리학과 수학에서 공리를 바탕으로 증명된 참인 명제로서, "만약 A이면 B이다" 형태의 가정적 조건문으로 표현되며, 수학 외 다양한 분야에서도 사용되지만 수학에서의 엄밀한 증명과는 차이가 있다.
  • 수학 용어 - 이론
    이론은 특정 주제를 이해, 설명, 예측하기 위한 분석적 도구로, 논리적 원칙을 따르며, 과학에서는 관찰과 실험으로 확인된 사실에 기반한 자연 세계에 대한 설명으로, 반증 가능성을 지니고 학문 분야에서 지식 축적과 논리적 설명에 필수적인 역할을 한다.
상관계수
개요
이름상관 계수
다른 이름피어슨 상관 계수, 피어슨 r, 이변량 상관
분야통계학
정의
정의두 변수 사이의 선형 관계의 강도와 방향을 측정하는 값
값의 범위-1에서 +1 사이의 값
+1완벽한 양의 상관 관계
0상관 관계 없음
-1완벽한 음의 상관 관계
주의 사항상관 관계는 인과 관계를 의미하지 않음
종류
피어슨 상관 계수두 변수 간의 선형 관계의 정도를 측정
스피어만 순위 상관 계수두 변수의 순위 간의 상관 관계를 측정
켄달의 타우두 변수의 순위 간의 상관 관계를 측정 (스피어만과 유사하지만 계산 방법이 다름)
폴리코릭 상관 계수두 범주형 변수 간의 상관 관계를 추정
사분상관계수두 이분변수 간의 상관 관계를 추정
계산
공식r = Σ((xi - x̄)(yi - ȳ)) / (√Σ(xi - x̄)² √Σ(yi - ȳ)²)
설명r은 상관 계수, xi와 yi는 각 데이터 포인트의 값, x̄와 ȳ는 각 변수의 평균
해석
강도0.7 이상: 강한 상관 관계, 0.3 - 0.7: 중간 상관 관계, 0.3 미만: 약한 상관 관계
방향양수: 양의 상관 관계 (한 변수가 증가하면 다른 변수도 증가), 음수: 음의 상관 관계 (한 변수가 증가하면 다른 변수는 감소)
활용
활용 분야경제학, 심리학, 사회학, 의학, 공학 등 다양한 분야에서 변수 간의 관계를 분석하는 데 사용
예시소득과 소비 사이의 관계, 교육 수준과 임금 사이의 관계, 흡연량과 폐암 발병률 사이의 관계
주의 사항
주의 사항상관 관계는 인과 관계를 의미하지 않음
이상치의 영향을 크게 받을 수 있음
비선형 관계는 잘 측정하지 못함
기타
관련 항목인과관계, 회귀분석, 공분산

2. 상관 계수의 종류

데이터의 상관관계 정도를 측정하는 방법에는 데이터 유형에 따라 여러 가지가 있다. 주로 데이터가 측정값인지, 순서형인지, 또는 범주형인지에 따라 달라진다.[4]

상관 계수에는 다음과 같은 것들이 있다.


  • 피어슨 상관 계수
  • 점-이중 상관 계수영어
  • 편상관
  • 급내 상관영어
  • 순위 상관 계수
  • 스피어만 순위 상관 계수
  • 켄달의 순위 상관 계수
  • 분할표의 연관 계수
  • 파이 계수영어
  • 크래머의 V영어
  • 다중 상관 계수영어

2. 1. 피어슨 상관 계수 (Pearson Correlation Coefficient)

Pearson Correlation Coefficient영어는 ''r'', ''R'', 또는 피어슨 ''r''로도 알려져 있으며, 두 변수 간의 선형 관계의 강도와 방향을 측정하는 지표이다. 변수의 공분산을 표준 편차의 곱으로 나눈 값으로 정의된다.[4] 이는 가장 잘 알려져 있고 가장 일반적으로 사용되는 유형의 상관 계수이다. "상관 계수"라는 용어가 추가적인 설명 없이 사용될 경우, 일반적으로 피어슨 곱 모멘트 상관 계수를 의미한다.

피어슨 상관 계수확률 변수 사이의 선형 관계를 나타낼 뿐이며[4], 확률 변수 간의 인과 관계를 설명하는 것은 아니다. 상관 계수는 서열 척도이며 비구간 척도이므로, 예를 들어 "상관 계수가 0.2와 0.4이므로 후자가 전자보다 2배의 상관 관계가 있다" 등과 같은 말은 할 수 없다.

종종 상관 관계가 있다는 표현이 마치 인과 관계를 나타내는 것처럼 오해되거나 오용된다. 2개의 변수(A, B) 사이에 상관 관계가 있는 경우, 우연에 의한 상관 관계를 제외하면, 다음 3가지 가능성이 상정된다.

# A가 B를 발생시킨다.

# B가 A를 발생시킨다.

# 제3의 변수 C가 A와 B를 발생시킨다(이 경우, A와 B 사이에는 인과 관계가 없고 허위 상관이라고 불린다).

인과적인 효과를 추정하기 위해서는 단순히 상관 관계를 보는 것만으로는 알 수 없다. 주디아 펄(Judea Pearl)[11]이나 도널드 루빈(Donald Rubin)[12] 등에 의해 정리되어 온 통계적 인과 추론 등에 따른 조사 연구를 실시할 필요가 있다.

2. 2. 급내 상관 계수 (Intraclass Correlation Coefficient, ICC)

급내 상관 계수(ICC)는 정량적 측정이 그룹으로 구성된 단위에서 이루어질 때 사용될 수 있는 기술 통계량으로, 동일한 그룹 내의 단위들이 서로 얼마나 유사한지를 설명한다.

2. 3. 순위 상관 계수 (Rank Correlation Coefficient)

순위 상관은 두 변수의 순위, 또는 동일 변수의 두 순위 간의 관계를 측정하는 척도이다.

  • 스피어만 순위 상관 계수는 두 변수 간의 관계를 간략하게 설명한다.
  • 켄달의 타우 순위 상관 계수는 두 데이터 집합 간에 일치하는 순위를 간략하게 설명한다.
  • 굿맨과 크루스칼의 감마는 두 변수가 서수 수준에서 측정될 때 교차표로 작성된 데이터의 연관성 강도를 측정하는 척도이다.


상관 계수에는 다음과 같은 것들이 있다.

  • 피어슨 상관 계수
  • 편상관
  • 순위 상관 계수
  • * 스피어만 순위 상관 계수
  • * 켄달의 순위 상관 계수
  • 분할표의 연관 계수

2. 3. 1. 스피어만 순위 상관 계수 (Spearman's Rank Correlation Coefficient)

스피어만 순위 상관 계수는 두 변수 간의 관계가 단조 함수로 얼마나 잘 설명될 수 있는지를 측정하는 척도이다.[1]

2. 3. 2. 켄달의 타우 순위 상관 계수 (Kendall's Tau Rank Correlation Coefficient)

켄달의 타우 순위 상관 계수는 두 데이터 집합 간에 일치하는 순위의 비율을 측정하는 척도이다.[1]

2. 3. 3. 굿맨과 크루스칼의 감마 (Goodman and Kruskal's Gamma)

굿맨과 크루스칼의 감마는 순위 상관의 하나이다. 두 변수가 서수 수준에서 측정될 때 교차표로 작성된 데이터의 연관성 강도를 측정하는 척도이다.

2. 4. 사분 상관 계수 및 다분 상관 계수 (Tetrachoric and Polychoric Correlation Coefficient)

다분 상관 계수는 두 개의 순서형 범주형 변수 간의 연관성을 측정한다. 이는 두 변수가 연속형 척도로 측정되었고, 이변량 정규 분포를 따르는 경우 얻을 수 있는 피어슨 상관 계수의 추정치로 정의된다.[1]

두 변수가 모두 이분 변수인 경우, 다분 상관 계수는 사분 상관 계수라고 한다.[1]

3. 상관 계수 값의 해석

상관 계수 값은 -1에서 +1까지의 범위를 가지며, 여기서 ±1은 가능한 가장 강한 상관 관계를 나타내고 0은 변수 간에 상관 관계가 없음을 나타낸다.[5]

r 또는 Rr 또는 R변수 간의 연관성의 강도
+1.0 ~ +0.8-1.0 ~ -0.8완전하거나 매우 강한 연관성
+0.8 ~ +0.6-0.8 ~ -0.6강한 연관성
+0.6 ~ +0.4-0.6 ~ -0.4보통의 연관성
+0.4 ~ +0.2-0.4 ~ -0.2약한 연관성
+0.2 ~ 0.0-0.2 ~ 0.0매우 약하거나 연관성이 없음


4. 상관관계와 인과관계

피어슨 상관 계수확률 변수 사이의 선형 관계를 나타내는 척도일 뿐이며, 서열 척도이고 비구간 척도이므로, "상관 계수가 0.2와 0.4이므로 후자가 전자보다 2배의 상관 관계가 있다"와 같은 표현은 사용할 수 없다.[11][12]

두 변수(A, B) 사이에 상관 관계가 있는 경우, 우연에 의한 상관 관계를 제외하면 다음 세 가지 가능성이 상정된다.


  • A가 B를 발생시킨다.
  • B가 A를 발생시킨다.
  • 제3의 변수 C가 A와 B를 발생시킨다 (이 경우 A와 B 사이에는 인과 관계가 없고 허위 상관이라고 불린다).

4. 1. 인과관계 추론

피어슨 상관 계수확률 변수 사이의 선형 관계를 나타내는 척도일 뿐이며, 확률 변수 간의 인과 관계를 설명하는 것은 아니다.[11][12]

종종 상관 관계가 있다는 표현이 인과 관계를 나타내는 것처럼 오해되거나 오용된다. 두 변수(A, B) 사이에 상관 관계가 있을 때, 우연에 의한 상관 관계를 제외하면 다음 세 가지 가능성이 있다.

# A가 B를 발생시킨다.

# B가 A를 발생시킨다.

# 제3의 변수 C가 A와 B를 발생시킨다 (이 경우 A와 B 사이에는 인과 관계가 없고 허위 상관이라고 불린다).

인과적 효과를 추정하기 위해서는 단순히 상관 관계를 보는 것만으로는 알 수 없다. 주디아 펄[11]이나 도널드 루빈[12] 등에 의해 정리된 통계적 인과 추론 등에 따른 조사 연구를 실시할 필요가 있다.

5. 상관 계수와 회귀 계수의 혼동

상관 분석은 두 변수 간에 선형 관계가 있는지, 그리고 그 관계가 얼마나 강한지를 분석하는 방법이다. 이때 두 변수 사이에 어떤 인과 관계가 있다고 가정하지는 않는다. 반면 회귀 분석은 변수들 간의 관계를 구체적인 함수 형태로 나타내는 분석 방법이다. 회귀 분석은 설명 변수를 사용하여 목적 변수를 예측하는 데 사용된다.[1]

상관 계수와 회귀 계수는 서로 다른 개념인데, 초보자들은 이를 혼동하는 경우가 많다.[1]

회귀식을 만드는 것은 단지 예측 모델을 만드는 것일 뿐, 회귀 분석으로 인과 관계를 직접적으로 알아낼 수는 없다는 점에 유의해야 한다.[1]

6. HARKing

HARKing은 연구 결과를 바탕으로 사전 가설을 수정하여 논문을 작성하는 행위를 말한다. 가설 검증형 연구에서 HARKing을 한 논문을 발표하면, 우연의 결과를 마치 의미 있는 결과인 것처럼 오인하게 할 수 있다. 이는 1종 오류나 2종 오류를 일으킬 가능성이 높아 연구 절차상 큰 문제가 된다.

참조

[1] 웹사이트 correlation coefficient http://www.ncme.org/[...] National Council on Measurement in Education 2014-04-17
[2] 서적 An Introduction to Error Analysis: The Study of Uncertainties in Physical Measurements http://faculty.kfupm[...] University Science Books 1997
[3] 서적 Statistical Methods in Practice: For scientists and technologists Wiley 2009
[4] 웹사이트 Statistical Correlation https://mathworld.wo[...] 2020-08-22
[5] 서적 An Introduction to Error Analysis: The Study of Uncertainties in Physical Measurements http://faculty.kfupm[...] University Science Books 1997
[6] 웹사이트 The Correlation Coefficient (r) https://sphweb.bumc.[...]
[7] 웹사이트 統計学セミナー 第5回資料 相関 (Correlation) http://www.saturingi[...] 北海道対がん協会 2016-05-31
[8] 서적 Statistics in Social Science and Agricultural Research https://books.google[...] Concept Publishing Company
[9] 서적 Basic Statistics: Tales of Distributions https://books.google[...] Cengage Learning 2007-05-16
[10] 간행물 JIS Z 8101-1 : 1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語 1.9 相関 http://kikakurui.com[...] 日本規格協会
[11] 문서 Causality: Models, Reasoning, and Inference Cambridge University Press 2000
[12] 논문 Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies
[13] 웹인용 correlation coefficient http://www.ncme.org/[...] National Council on Measurement in Education 2014-04-17
[14] 서적 An Introduction to Error Analysis: The Study of Uncertainties in Physical Measurements http://faculty.kfupm[...] University Science Books 1997



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com