맨위로가기

허위 상관

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

허위 상관은 두 변수 간에 실제 인과 관계가 없음에도 불구하고 통계적 상관관계가 나타나는 현상을 의미한다. 이는 제3의 변수(혼재 변수)의 영향, 시계열 자료의 불안정성, 우연의 일치 등으로 인해 발생할 수 있으며, 실험이나 비실험적 통계 분석을 통해 판별하고 대응할 수 있다. 허위 상관은 통계 분석에서 직접 관계, 매개 관계, 조절 관계 등과 구분되며, 한국 사회의 다양한 현상에서도 예시를 찾아볼 수 있다.

더 읽어볼만한 페이지

  • 인과관계의 오류 - 미끄러운 비탈길 논증
    미끄러운 비탈길 논증은 특정 행위를 금지하기 위해 그 행위가 용납할 수 없는 결론으로 이어질 것이라고 주장하는 논증 방식이며, 정치적 논쟁에서 부정적인 결과를 초래할 수 있다는 주장에 사용되고, 개념적, 결정적, 인과적 유형으로 나뉜다.
  • 인과관계의 오류 - 피해자 비난
    피해자 비난은 피해자의 행동이나 특성에서 사건의 원인을 찾는 현상으로, 사회 부조리를 정당화하는 이데올로기이며, 다양한 요인에 의해 전 세계적으로 발생하고 법적 문제를 야기하기도 한다.
  • 통계학 - 확률
    확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다.
  • 통계학 - 사분위수
    사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.
허위 상관
개요
용어겉보기 관계, 가짜 상관
정의두 변수가 인과적으로 독립적이지만, 겉보기에 상관관계가 있는 것처럼 보이는 현상
통계적 의미
원인제3의 변수 (숨겨진 변수)의 영향
표본 선택 편향
우연
예시
아이스크림 판매량과 익사 사고두 변수 모두 여름이라는 제3의 변수에 의해 영향을 받음
범죄율과 아이스크림 판매량높은 기온이라는 숨겨진 변수가 범죄율과 아이스크림 판매량 모두 증가시킴
주의사항
인과관계 오판허위 상관을 실제 인과관계로 오판하는 오류를 범하지 않도록 주의해야 함
활용
통계 분석통계 분석 시 허위 상관에 주의하여 변수 간의 실제 관계를 파악해야 함

2. 허위 상관의 개념 및 유형

두 변수 간에 상관관계가 없다는 귀무 가설을 검정하는 경우가 많으며, 데이터 표본에서 계산된 상관관계가 귀무 가설이 참일 경우 5% 미만의 데이터 표본에서 발생한다면 가설을 기각하기로 미리 결정한다. 참인 귀무 가설은 95%의 경우에 채택되지만, 나머지 5%의 경우에는 상관관계가 없는 참인 귀무 가설 하에서 0의 상관관계가 잘못 기각되어, 가짜 상관관계(제1종 오류라고 알려진 현상)가 채택될 수 있다. 여기서 표본의 가짜 상관관계는 기본 모집단의 실제 특성을 반영하지 못하는 표본의 무작위 선택으로 인해 발생했다.

"허위 상관"이라는 용어는 통계학에서, 특히 직접적인 인과 관계(X → Y)를 이해하고 예측하려는 실험 연구 기법에서 널리 사용된다. 비인과적 상관관계는 두 변수 모두에 영향을 미치는 선행 변수(W → X 및 W → Y)에 의해 허위로 생성될 수 있다. 매개 변수 (X → M → Y)는 감지되지 않으면 매개 변수 M에 대한 조정을 거치지 않고 직접적인 효과가 아닌 전체 효과를 추정한다. 이 때문에 실험적으로 식별된 상관 관계는 허위 관계가 배제되지 않는 한 인과 관계를 나타내지 않는다.

가짜 상관관계의 예시로, 어느 도시의 아이스크림 판매량을 생각해 보자. 아이스크림 판매량이 가장 높은 시기에는 수영장에서의 익사 사고도 가장 많다. 아이스크림 판매량 증가가 익사 증가의 원인(또는 결과)이라고 주장하는 것은, 두 사건 간의 가짜 상관관계를 암암리에 상정하는 것이 된다. 실제로는, 폭염이 양쪽의 원인일 것이다. 폭염은 보이지 않는 잠재 변수의 예이다.

다른 예시로, 네덜란드의 통계에서, 아기의 출생 수와 황새의 수에 양의 상관관계가 보인다는 사례가 있다. 물론, 그들 간에 인과 관계는 없고, 아마 둘 다 9개월 전의 날씨와 상관관계가 있을 뿐이라고 생각된다[10]

2. 1. 혼재 변수에 의한 허위 상관

두 변수 모두에 영향을 미치는 혼재변수


만약 두 변수에 공통적으로 영향을 미치는 제3의 변수가 있다면 두 변수가 상관되어 보일지라도 인과관계가 있다고 볼 수 없다.[11] 두 변수 X와 Y에 공통으로 영향을 미치는 제3의 변수 Z을 혼재변수라고 한다. 두 변수에 공통적으로 영향을 미치는 변수가 존재한다면 X와 Y 사이에 나타난 상관관계는 Z으로 인해 발생한 것이지 X로 인해 Y가 변화했다고 볼 수 없게 된다.

예를 들어, 아이스크림 판매량과 수영장 이용객 수는 양의 상관관계가 있는 것처럼 보일 수 있다. 그러나 두 변수 모두에 영향을 미치는 여름 기온이 높아졌기 때문에 아이스크림 판매량과 수영장 이용객 수가 모두 증가한 것이지, 아이스크림 판매량이 늘어났기 때문에 수영장 이용객 수가 늘어난 것은 아니다.

"허위 상관"이라는 용어는 통계학에서, 특히 직접적인 인과 관계(X → Y)를 이해하고 예측하려는 실험 연구 기법에서 널리 사용된다. 비인과적 상관관계는 두 변수 모두에 영향을 미치는 선행 변수(W → X 및 W → Y)에 의해 허위로 생성될 수 있다.

가짜 상관관계의 예시로, 어느 도시의 아이스크림 판매량을 생각해 보자. 아이스크림 판매량이 가장 높은 시기에는 수영장에서의 익사 사고도 가장 많다. 아이스크림 판매량 증가가 익사 증가의 원인(또는 결과)이라고 주장하는 것은, 두 사건 간의 가짜 상관관계를 암암리에 상정하는 것이 된다. 실제로는, 폭염이 양쪽의 원인일 것이다. 폭염은 보이지 않는 잠재 변수의 예이다.

다른 예시로, 네덜란드의 통계에서, 아기의 출생 수와 황새의 수에 양의 상관관계가 보인다는 사례가 있다. 물론, 그들 간에 인과 관계는 없고, 아마 둘 다 9개월 전의 날씨와 상관관계가 있을 뿐이라고 생각된다[10]

2. 2. 시계열 자료의 허구적 회귀

아무런 관계가 없는 확률보행 과정 시계열과 산점도의 모양


시계열 자료가 불안정적인 경우 두 시계열 변수 사이에 아무런 관계가 없다고 하더라도 산점도에서 볼 때는 상관관계가 있는 것처럼 나타날 수 있다.[12] 오른쪽 그림의 두 시계열은 서로 아무런 관련성 없이 AR(1) 확률보행 과정을 통해 생성되었으나 산점도를 보면 양의 상관관계가 있는 것처럼 보인다.

두 시계열이 서로 아무런 관련성이 없는데도 회귀 모형을 추정하면 유의미한 관계가 있는 것처럼 나타나는 것을 '''허구적 회귀'''(spurious regression)이라 한다.[13] 확률보행 과정을 따르는 시계열 또는 적분된 시계열의 수준을 분석하는 경우에는 두 시계열이 아무런 관계가 없음에도 불구하고 통계적으로 유의하다는 결론을 낼 확률이 상당히 높게 나타나는 문제가 발생한다.

허구적 회귀 문제를 피하는 방법으로는 불안정한 시계열을 차분하여 안정적 시계열을 얻은 후 회귀 분석을 하거나 불안정한 시계열 사이에 공적분 관계가 존재하는지 조사하는 방법이 있다. 시계열을 d회 차분하여 안정적 시계열이 되는 d를 적분 차수라 하고 \operatorname{I}(d)라 표기한다. y_t \sim \operatorname{I}(1)이고 x_t \sim \operatorname{I}(1)이면 두 시계열의 선형 결합은 적분 차수가 1이 되는 게 일반적이지만, y_t - \beta x_t \sim \operatorname{I}(0)이 되는 특별한 예외가 존재하는데 이 경우 두 시계열이 공적분되었다고 한다.[12][14][15] "허위 상관"이라는 용어는 통계학에서 널리 사용된다.

2. 3. 우연에 의한 허위 상관

시계열 문헌에서 허위 상관 관계의 예를 찾을 수 있는데, 여기서 허위 회귀는 독립적인 비정상성 변수 간의 선형 관계에 대한 오해의 소지가 있는 통계적 증거를 제공하는 회귀이다. 실제로 비정상성은 두 변수 모두에 단위근이 존재하기 때문일 수 있다.[3][4] 특히, 두 명목 경제 변수는 서로 인과적 영향을 미치지 않더라도 서로 상관 관계가 있을 가능성이 있는데, 이는 각 변수가 실질 변수에 물가 수준을 곱한 것과 같고, 두 데이터 계열에 물가 수준이 공통적으로 존재하기 때문에 상관 관계가 부여되기 때문이다.[3][4]

도시의 아이스크림 판매량과 수영장의 익사율이 같이 높을때, 아이스크림 판매가 익사를 유발한다는 것은 허위 관계가 있음을 암시하는것이다. 실제로는 폭염이 둘다 유발했을수 있다.

네덜란드 통계에서, 둥지를 트는 황새의 수와 그 당시 태어난 아기의 수가 양의 상관관계를 보였다는 예가 있다. 물론 인과 관계는 없었다. 그들은 두 개의 독립적인 우연의 일치로 인해 서로 상관 관계가 있었다. 최소 600년 전 중세 시대로 거슬러 올라가는 이교 시대에는 여름이 풍요와 관련되어 있었기 때문에 부부가 연례 여름 하지 때 결혼하는 것이 일반적이었다. 동시에 황새는 유럽에서 아프리카까지 날아가는 연례 이동을 시작했다. 그런 다음 새들은 정확히 9개월 후인 다음 해 봄에 돌아올 것이다.[5]

드문 경우지만, 혼재 변수 없이 허위 관계가 발생할 수 있다. 대통령 선거 전에 특정 경기에서 워싱턴 커맨더스 프로 풋볼 팀의 성공과 해당 선거에서 현직 대통령의 정당의 성공( 레드스킨스 규칙)[6][7][8], 미식축구 리그와 관련된 슈퍼볼의 우승 컨퍼런스와 주식 시장의 방향의 상관 관계(슈퍼볼 지표)[9] 등이 있다.

3. 허위 상관 판별 및 대응

3. 1. 실험을 통한 판별

실험 연구에서는 이론적으로 가능한 교란 변수로 확인된 요소를 포함하여 다른 요소를 통제함으로써 허위 상관을 판별할 수 있다. 예를 들어, 새로운 약물이 박테리아를 죽이는지 확인하려는 연구자가 박테리아 배양액에 약물을 투여했을 때 박테리아가 죽는다고 가정하자. 이 때, 교란 변수의 존재를 배제하기 위해, 연구자는 다른 배양액을 첫 번째 배양액과 가능한 한 거의 동일한 조건에 노출시키되, 두 번째 배양액에는 약물을 투여하지 않는다. 만약 이러한 조건에서 보이지 않는 교란 변수가 있다면, 이 대조군 배양액도 죽을 것이므로 첫 번째 배양액의 결과로부터 약물의 효능에 대한 결론을 내릴 수 없다. 반면에 대조군 배양액이 죽지 않으면, 연구자는 약물이 효과가 있다는 가설을 기각할 수 없다.

실험은 일반적으로 (X → Y)라는 인과 관계를 예측하고, 이를 뒷받침하기 위해 수행된다. 인과 관계가 없는 관계가 다른 원인에 의해 (W → X & Y)라는 형태로 만들어지거나, (X → W → Y)와 같이 매개 변수가 있는데도 알아차리지 못하는 경우, 겉으로 보기에는 직접적인 인과 관계가 있는 것처럼 보일 수 있다. 따라서 실험을 통해 얻어진 상관 관계는 허위 상관을 제외하기 전까지는 인과 관계를 나타낸다고 할 수 없다.

X가 Y의 원인이라고 결론 내리기 위해서는 다음 세 가지 조건이 성립해야 한다.

  • X는 Y보다 먼저 발생해야 한다.
  • Y는 X가 일어나지 않을 때는 발생하지 않아야 한다.
  • Y는 X가 일어나면 반드시 발생해야 한다.


이 세 가지 조건 중 하나라도 깨졌을 경우, 허위 상관임이 밝혀지는 경우가 많다.

간접적인 인과 관계의 경우, 세 번째 조건은 완화될 수도 있다. 예를 들어, 권총에 의한 결투에서 두 남자가 서로 마주보고 총을 쏘아 한쪽 남자가 쏜 총에 의해 다른 쪽 남자가 사망한 경우, 쏜 쪽 남자가 죽음의 원인이라고 결론 내릴 수 있다. 그러나 총을 맞은 남자를 의사가 살린 경우(세 번째 조건이 성립하지 않음)에도 직접적인 인과 관계가 무너지는 것은 아니다.

3. 2. 비실험적 통계 분석을 통한 판별

경제학과 같이 관측 데이터를 주로 사용하는 비실험적 학문 분야에서는 인과 관계를 설정하기 위해 관측 데이터를 사용한다. 계량 경제학의 주요 통계 방법인 다변수 회귀 분석은 관련 변수를 회귀 변수로 포함하여 다른 관련 변수를 제어한다. 이는 제3의 기본 변수의 존재로 인한 인과 관계의 잘못된 추론을 피하는 데 도움을 준다. 또한, 다변수 회귀 분석을 사용하면, ''x''1의 간접 효과를 직접 효과로 잘못 추론하는 것을 막을 수 있다. 회귀 분석 외에도, 그레인저 인과 관계 검정을 통해 ''x''가 ''y''보다 선행하고 ''y''에 대한 고유한 정보를 포함하는지 확인할 수 있다.

4. 허위 상관과 관련된 기타 관계

통계 분석에서는 다음과 같이 다른 여러 관계가 정의되어 있다.


  • 직접 관계


통계 분석에서 한 변수가 다른 변수에 직접적인 영향을 미치는 관계를 직접 관계라고 정의한다.

  • 매개 관계


통계 분석에서 매개 관계는 한 변수가 제3의 변수(매개 변수)를 통해 다른 변수에 간접적인 영향을 미치는 관계를 의미한다(X → M → Y). 이는 직접 관계와는 구별된다.

관계설명
매개 관계한 변수가 제3의 변수(매개 변수)를 통해 다른 변수에 간접적인 영향을 미치는 관계 (X → M → Y)
조절 관계


  • 조절 관계


통계 분석에서 한 변수와 다른 변수 간의 관계가 제3의 변수인 조절 변수에 의해 달라지는 관계를 조절 관계라고 한다.

4. 1. 직접 관계

통계 분석에서 한 변수가 다른 변수에 직접적인 영향을 미치는 관계를 직접 관계라고 정의한다.

4. 2. 매개 관계

통계 분석에서 매개 관계는 한 변수가 제3의 변수(매개 변수)를 통해 다른 변수에 간접적인 영향을 미치는 관계를 의미한다(X → M → Y). 이는 직접 관계와는 구별된다.

관계설명
매개 관계한 변수가 제3의 변수(매개 변수)를 통해 다른 변수에 간접적인 영향을 미치는 관계 (X → M → Y)
조절 관계


4. 3. 조절 관계

통계 분석에서 한 변수와 다른 변수 간의 관계가 제3의 변수인 조절 변수에 의해 달라지는 관계를 조절 관계라고 한다.

5. 한국 사회에서의 허위 상관 (예시)

5. 1. 지역별 범죄율과 외국인 비율

5. 2. 소득 수준과 학력 수준

5. 3. 기타 예시

참조

[1] 웹사이트 Spurious Correlations https://web.archive.[...] 1997
[2] 웹사이트 UCLA 81st Faculty Research Lecture Series http://singapore.cs.[...] 2019-11-10
[3] 논문 Why do we Sometimes get Nonsense-Correlations between Time-Series? A Study in Sampling and the Nature of Time-Series 1926-01-01
[4] 서적 Essays in Econometrics: Collected Papers of Clive W. J. Granger https://archive.org/[...] Cambridge University Press 2001
[5] 서적 Data Collection and Analysis Sage 2006
[6] 뉴스 'Redskins Rule': MNF's Hirdt on intersection of football & politics http://www.espnfront[...] ESPN 2012-10-30
[7] 뉴스 Redskins Rule: Barack Obama's victory over Mitt Romney tackles presidential predictor for its first loss. https://www.chicagot[...] 2012-11-07
[8] 서적 Urban Legends & Historic Lore of Washington https://books.google[...] The History Press
[9] 웹사이트 Big Data. Super Bowl. Small Minds. http://www.linkedin.[...] 2015-12-31
[10] 서적 Data Collection and Analysis Sage 2006
[11] 서적
[12] 서적
[13] 간행물
[14] 웹인용 https://www.nobelpri[...] 2022-04-10
[15] 간행물



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com