맨위로가기

데이터 드레징

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

데이터 드레징은 데이터에서 패턴을 찾기 위해 통계적 가설 검정 절차를 악용하는 행위이다. 이는 가설을 검증하기 전에 데이터를 분석하여 가설을 세우거나, 데이터 수집을 중단하는 시점을 조작하는 등의 방식으로 발생한다. 데이터 드레징은 연구 결과의 신뢰성을 저해하며, 선택적 중단, 사후 데이터 제거, 사후 그룹화, 대표성 없는 데이터 사용, 체계적 편향, 다중 모델링 등 다양한 유형으로 나타난다. 데이터 드레징을 해결하기 위해 무작위 표본 외 검증, 본페로니 보정, 거짓 발견률 제어 절차, 등록 보고서, 오픈 사이언스 접근 방식 등이 활용될 수 있다.

2. 데이터 드레징의 유형

데이터 드레징은 다양한 방식으로 이루어질 수 있으며, 이는 그릇된 통계적 결론으로 이어질 수 있다. 데이터 드레징의 주요 유형은 다음과 같다.


  • 가설 검증과 데이터 드레징: 빈도주의 확률을 사용하는 통계적 가설 검정에서는 가설을 설정하고 데이터를 수집한 뒤, 통계적 유의성 검정을 수행하여 가설을 검증해야 한다. 그러나 동일한 데이터로 가설을 만들고 검증하면 우연에 의한 패턴을 실제 결과로 오인할 수 있다.
  • 선택적 중단: 데이터 수집을 특정 기준(예: p-값이 유의 수준 이하)이 충족될 때까지만 진행하는 것은 유효한 절차일 수 있지만, p-값을 왜곡하여 잘못된 결론을 유도할 수 있다.
  • 사후 데이터 제거: 데이터 분석 후 '이상치'라는 이유로 데이터를 제거하면 위양성률(false positive rate)이 증가한다. 즉, 실제로는 효과가 없는데 있다고 판단할 확률이 높아진다.
  • 사후 그룹화: 여러 특징을 가진 데이터에서 다양한 방식으로 그룹화를 시도하면 통계적으로 유의미하지만 실제로는 의미 없는 결과를 얻을 수 있다. 예를 들어, 환자 데이터를 나이, 성별 등 여러 기준으로 계속 그룹화하다 보면 우연히 특정 그룹에서만 효과가 있는 것처럼 보일 수 있다.
  • 대표성 없는 데이터: 일부 데이터에서 발견된 유사점을 일반화하면 재현 불가능한 허위 가설이 만들어질 수 있다. 예를 들어, 특정 생일에 태어난 두 사람에게서 우연히 발견된 공통점을 일반화하여 "특정 생일에 태어난 사람들은 특정 행동을 할 확률이 높다"는 가설을 세우는 경우이다.
  • 체계적 편향: 출판 편향과 같이 분석 과정에서 발생하는 체계적인 오류는 잘못된 결론으로 이어진다. 긍정적인 결과만 출판되는 경향은 실제 효과가 없는 것도 효과가 있는 것처럼 보이게 만든다.
  • 다중 모델링: 데이터를 기반으로 변수를 선택하거나 제거하는 과정에서 편향이 발생할 수 있다. 이는 통계적 추론의 타당성을 훼손하고 잘못된 결론을 유도할 수 있다.

2. 1. 데이터로부터 결론 도출

빈도주의 확률을 사용하는 일반적인 통계적 가설 검정 절차는 "사회 계층이 높은 사람들이 더 오래 산다"와 같은 연구 가설을 설정한 다음 관련 데이터를 수집하는 것이다. 마지막으로, 통계적 유의성 검정을 수행하여 결과가 우연에 의해 발생할 가능성을 확인한다(귀무 가설에 대한 검정이라고도 함).[1]

적절한 통계 분석의 핵심은 가설을 구성하는 데 사용되지 않은 증거(데이터)를 사용하여 가설을 검증하는 것이다.[2] 이는 모든 데이터 집합이 우연에 의해 발생하는 패턴을 포함하고 있기 때문에 매우 중요하다.[2] 만약 동일한 통계 모집단의 다른 데이터 집합에 대해 가설을 검증하지 않는다면, 우연만으로 그러한 패턴이 나타날 가능성을 평가하는 것은 불가능하다.[2]

예를 들어, 동전 던지기를 다섯 번 하여 앞면 2번, 뒷면 3번의 결과가 나왔다면, 동전이 뒷면을 3/5, 앞면을 2/5의 비율로 선호한다는 가설을 세울 수 있다.[3] 만약 이 가설을 기존 데이터 집합으로 검증한다면, 가설은 확정되지만, 이러한 확정은 무의미하다.[3] 올바른 절차는 뒷면이 나올 확률이 무엇인지 미리 가설을 세우고, 동전을 여러 번 던져서 가설이 기각되는지 여부를 확인하는 것이다.[3] 만약 뒷면 3번과 앞면 2번이 관찰되었다면, 뒷면이 나올 확률이 3/5라는 또 다른 가설을 세울 수 있지만, 이는 새로운 동전 던지기 세트를 통해서만 검증할 수 있다.[3] 잘못된 절차 하에서의 통계적 유의성은 완전히 허위이며 유의성 검정은 데이터 드레징을 막아주지 않는다.[3]

2. 2. 선택적 중단

그림은 표본 크기가 증가함에 따라 t-검정에서 계산된 p-값의 변화와 조기 중단이 어떻게 p-해킹을 허용할 수 있는지를 보여준다. 데이터는 두 개의 동일한 정규 분포 N(0, 10)에서 추출된다. 5에서 10^4까지의 각 표본 크기 n에 대해 각 분포에서 처음 n개의 표본에 대해 t-검정이 수행되고 결과 p-값이 플로팅된다. 빨간색 점선은 일반적으로 사용되는 유의 수준 0.05를 나타낸다. 데이터 수집 또는 분석이 p-값이 우연히 유의 수준 아래로 떨어지는 지점에서 중단되면 잘못된 통계적으로 유의미한 차이가 보고될 수 있다.


선택적 중단은 중단 기준이 충족될 때까지 데이터를 수집하는 관행이다. 이는 유효한 절차이지만, 쉽게 오용될 수 있다. 선택적으로 중단된 통계 검정의 p-값은 예상보다 크게 나타나는 문제가 있다. 직관적으로 p-값은 관찰된 것만큼 드문 모든 사건의 합이어야 하는데, 선택적 중단은 더 드문 사건을 설명하기 어렵게 만들기 때문이다. 이러한 사건을 무시하면 p-값이 너무 낮아진다. 귀무 가설이 참일 때, 데이터를 계속 수집하고 원하는 p-값을 얻을 때 중단한다면, 어떤 유의 수준이라도 달성할 수 있다.[6] 공정한 동전 검정의 구체적인 예는 p-값 문서를 참조.

p-값을 적절하게 계산하려면 실험자가 '했을 수도 있는' 데이터와 '했을 수도 있는' 것에 대한 반사실을 설명해야 한다. 무엇이 있었을지 설명하는 것은 정직한 연구자에게도 어렵다.[6] 사전 등록의 한 가지 이점은 모든 반사실을 설명하여 p-값을 올바르게 계산할 수 있다는 것이다.[7]

조기 중단의 문제는 연구자의 부적절한 행위에만 국한되지 않는다. 데이터 수집 비용이 높으면 조기 중단에 대한 압력이 가해지는 경우가 많다. 일부 동물 윤리 위원회는 연구에서 중간에 유의미한 결과를 얻는 경우에도 조기 중단을 의무화하기도 한다.[8]

2. 3. 사후 데이터 제거

데이터 분석이 이미 수행된 ''후''에 데이터를 제거하는 경우, 예를 들어 "이상치 제거"를 핑계로 하는 경우, 위양성률이 증가한다. "이상치"를 대체 데이터로 대체하면 위양성률이 더욱 증가한다.[9]

2. 4. 사후 그룹화

만약 데이터 세트가 여러 특징을 포함하고 있다면, 하나 이상의 특징을 그룹화에 사용할 수 있으며 통계적으로 유의미한 결과를 생성할 수 있다. 예를 들어, 환자 데이터 세트가 나이와 성별을 기록하는 경우, 연구자는 나이별로 그룹화하여 질병 회복률이 나이와 상관관계가 있는지 확인할 수 있다. 만약 효과가 없다면, 연구자는 성별과 상관관계가 있는지 확인할 수 있다. 그렇지 않다면, 성별을 통제한 후 나이와 상관관계가 있는지 확인할 수 있다. 가능한 그룹화의 수는 특징의 수에 따라 기하급수적으로 증가한다.

2. 5. 대표성 없는 데이터에 의한 가설

무작위 표본 연구에서 8월 7일 생일인 사람이 메리와 존, 두 명뿐이라고 가정해 보자. 데이터 드레징을 하는 사람은 메리와 존 사이에서 다른 유사점을 찾으려고 시도할 수 있다. 두 사람 간의 수백, 수천 가지 잠재적인 유사점을 살펴보고 각각의 진실성이 낮을 경우, 특이한 유사점을 찾을 가능성이 높다. 예를 들어, 존과 메이는 대학에서 부전공을 세 번 바꾼 연구 대상 중 유일한 두 사람일 수 있다.[1] 이렇게 데이터 드레징으로 인해 편향된 가설은 "8월 7일에 태어난 사람은 대학에서 두 번 이상 부전공을 바꿀 확률이 훨씬 높다"가 될 수 있다.

다른 생일을 가진 사람 중에는 대학에서 부전공을 세 번 바꾼 사람이 없으므로, 맥락에서 벗어난 데이터 자체는 해당 상관관계를 강력하게 지지하는 것처럼 보일 수 있다. 그러나 이것이 허위 가설이라면, 이 결과는 재현될 수 없을 가능성이 높다. 8월 7일 생일을 가진 다른 사람들의 부전공 변경 비율이 비슷한지 확인하는 것은 거의 즉시 모순된 결과를 낳을 가능성이 높다.[1]

2. 6. 체계적 편향

편향은 분석에서 발생하는 체계적인 오류이다. 예를 들어, 의사가 심혈관 위험이 높은 HIV 환자에게 특정 HIV 치료제인 아바카비르를 처방하고, 위험이 낮은 환자에게 다른 약물을 처방하면 아바카비르와 다른 치료법을 간단하게 비교 평가할 수 없게 된다. 이러한 편향을 수정하지 않은 분석은 아바카비르에 불공정하게 불이익을 주게 되는데, 그 이유는 아바카비르 환자들이 더 위험도가 높아서 더 많은 환자들이 심장 마비를 겪었기 때문이다.[5] 이러한 문제는 관찰 연구에서 매우 심각할 수 있다.[5][10]

누락된 요인, 측정되지 않은 교란 변수, 추적 손실 또한 편향을 야기할 수 있다.[5] 유의미한 ''p''-값을 가진 논문을 선택함으로써, 부정적인 연구가 선택되지 않는데, 이는 출판 편향이다. 이는 덜 유의미한 ''p''-값 결과가 파일 보관함에 남겨져 출판되지 않기 때문에 ''파일 보관함 편향''이라고도 한다.

2. 7. 다중 모델링

데이터에 대한 지식을 통해 통계 검정 조건을 변경하는 것은 또 다른 문제를 야기한다. 이 과정에서 중요한 단계는 하나 이상의 다른 변수를 설명하는 관계에 어떤 공변량을 포함할지 결정하는 것이다. 저자가 다른 모델보다 특정 모델을 선호하도록 이끄는 통계적 고려 사항(단계적 회귀 분석 참조) 및 실질적인 고려 사항이 있으며, 통계 검정을 자유롭게 사용한다. 그러나 데이터에 근거하여 설명 관계에서 하나 이상의 변수를 버리는 것은, 아무 일도 일어나지 않은 것처럼 관계 내에서 유지된 변수에 표준 통계 절차를 유효하게 적용할 수 없다는 것을 의미한다. 결국, 유지된 변수는 버려진 변수가 실패한 일종의 예비 검사(어쩌면 부정확한 직관적 검사)를 통과해야만 한다. 1966년 셀빈(Selvin)과 스튜어트(Stuart)는 모델에 유지된 변수를 그물에서 빠져나가지 않는 물고기에 비유했다. 즉, 그들의 영향은 그물에서 빠져나가는 것들보다 더 클 수밖에 없다. 이는 유지된 설명 모델에 대한 모든 후속 검정의 성능을 변경할 뿐만 아니라, 추정에서 편향을 도입하고 평균 제곱 오차를 변경할 수도 있다.[11][12]

3. 사례

기상학 및 역학 분야 외에도, 언론인 존 보하논이 수행한 초콜릿 체중 감량 사기 연구가 데이터 드레징의 예시로 언급된다.[13]

3. 1. 기상학 및 역학

기상학에서 가설은 종종 현재까지의 기상 데이터를 사용하여 공식화되고, 미래의 기상 데이터에 대해 테스트되는데, 이는 잠재적으로 미래의 데이터가 무의식적으로라도 가설의 공식화에 영향을 미칠 수 없도록 보장한다. 물론, 이러한 방식은 공식화된 이론의 예측력을 귀무 가설과 비교하기 위해 새로운 데이터가 들어오기를 기다려야 할 필요가 있다. 이 프로세스는 아직 다가올 기상 데이터를 사용할 수 없기 때문에, 연구자가 현재 가지고 있는 데이터에 맞춰 예측 모델을 조작했다는 비난을 받지 않도록 보장한다.

또 다른 예로, 특정 마을에서 암 집단 발병이 나타나는 것을 관찰했지만, 이에 대한 명확한 가설이 없는 경우를 가정해 보자. 그러나 이들은 해당 마을과 주변 지역에 대한 방대한 양의 인구 통계 데이터에 접근할 수 있으며, 수백 또는 수천 개의 서로 다른 변수에 대한 측정을 포함하고 있으며, 대부분은 상관관계가 없다. 이러한 모든 변수가 암 발생률과 독립적이라 할지라도, 최소한 하나의 변수는 해당 지역의 암 발생률과 유의미한 상관관계를 가질 가능성이 높다. 이는 가설을 제시할 수 있지만, 동일한 변수를 사용하되 다른 지역의 데이터를 사용하여 추가 테스트를 통해 이를 확인해야 한다. 참고로, 0.01의 ''p''값은 적어도 그 정도의 극단적인 결과가 우연에 의해 1%의 시간 동안 얻어진다는 것을 의미한다; 만약 수백 또는 수천 개의 가설(상호 상대적으로 비상관 독립 변수 포함)을 테스트한다면, 많은 귀무 가설에 대해 0.01 미만의 ''p''값을 얻을 가능성이 높다.

3. 2. 언론에서의 등장

언론인 존 보하논이 수행한 초콜릿 체중 감량 사기 연구는 데이터 드레징의 대표적인 사례이다.[13] 보하논은 ''Gizmodo'' 기사에서 이 연구가 의도적으로 사기 방식으로 수행된 사회 실험이라고 밝혔다.[13] 이 연구는 2015년경 많은 언론 매체에 보도되었고, 많은 사람들이 매일 초콜릿 바를 먹으면 체중이 감소할 것이라는 주장을 분별없이 믿었다. 이 연구는 다이어트 및 건강 연구소에 게재되었다. 보하논에 따르면 p-값을 0.05 미만으로 줄이기 위해, 검사 시 18개의 서로 다른 변수를 고려하는 것이 중요했다.

4. 해결책

데이터에서 패턴을 찾는 것은 정당하지만, 패턴이 나타날 때까지 동일한 데이터에 가설 검정을 적용하는 것은 문제가 될 수 있다. 데이터 드레징을 피하면서 가설을 구성하는 한 가지 방법은 무작위로 표본 외 검증을 수행하는 것이다. 연구자는 데이터를 두 개의 하위 집합 A와 B로 무작위로 분할한다. 하위 집합 A를 사용하여 가설을 만들고, 이 가설은 하위 집합 B에서 테스트한다. B가 가설을 뒷받침하는 경우에만 가설이 유효하다고 믿는 것이 합리적이다. (이것은 교차 검증의 한 유형이며 훈련-테스트 또는 분할-반쪽 검증이라고 한다.)

데이터 드레징의 또 다른 해결책은 연구 중에 수행된 모든 유의성 검정 횟수를 기록하고 유의성 기준(알파)을 이 숫자로 나누는 본페로니 보정이다. 그러나 이것은 매우 보수적인 지표이다. 더 정교한 방법으로는 Benjamini와 Hochberg의 거짓 발견률 제어 절차가 있으며, 이는 여러 가설 검정 제어를 위한 덜 보수적인 접근 방식이다.[14]

위의 두 가지 접근 방식이 모두 실용적이지 않은 경우, 확인적 데이터 분석과 탐색적 데이터 분석을 명확하게 구분할 수 있다. 통계적 추론은 전자에만 적합하다.[12]

검정의 통계적 유의성과 발견의 통계적 신뢰도는 데이터와 데이터를 검사하는 데 사용된 방법의 공동 속성이다. 따라서 통계적 유의성에 대한 주장은 데이터를 평가하는 데 사용된 방법을 고려해야 한다.

학술 저널은 데이터 드레징 및 결과가 알려진 후 가설을 설정하는 행위(HARKing)와 같은 문제를 해결하기 위해 등록 보고서 형식으로 전환하고 있다. 예를 들어, ''네이처 휴먼 비헤이비어''(Nature Human Behaviour)는 등록 보고서 형식을 채택했다.[15] ''유러피언 저널 오브 퍼스낼리티''(European Journal of Personality)는 이 형식을 다음과 같이 정의한다. "등록 보고서에서 저자는 연구 제안을 제출하고, 승인된 경우 연구 결과에 관계없이 논문은 출판된다."[16]

오픈 사이언스 접근 방식과 같이 방법과 결과를 공개적으로 사용하면 데이터 드레징 발생을 더욱 어렵게 만들 수 있다.[17]

참조

[1] 논문 The ASA Statement on p-Values: Context, Process, and Purpose Informa UK Limited 2016-04-02
[2] 잡지 They Studied Dishonesty. Was Their Work a Lie? https://www.newyorke[...] 2023-10-01
[3] 웹사이트 The Band of Debunkers Busting Bad Scientists https://www.wsj.com/[...] 2023-10-08
[4] 웹사이트 APA PsycNet https://psycnet.apa.[...] 2023-10-08
[5] 논문 Deming, data and observational studies http://www.niss.org/[...]
[6] 논문 A practical solution to the pervasive problems of p values http://link.springer[...] 2007-10
[7] 논문 Degrees of Freedom in Planning, Running, Analyzing, and Reporting Psychological Studies: A Checklist to Avoid p-Hacking 2016-11-25
[8] 논문 The Extent and Consequences of P-Hacking in Science 2015-03-13
[9] 논문 A Tutorial on Hunting Statistical Significance by Chasing N 2016-09-22
[10] 논문 Data dredging, bias, or confounding
[11] 논문 Data-Dredging Procedures in Survey Analysis
[12] 논문 Statistical Inference After Model Selection https://repository.u[...]
[13] 웹사이트 I Fooled Millions Into Thinking Chocolate Helps Weight Loss. Here's How. https://gizmodo.com/[...] 2023-10-20
[14] 논문 Statistical learning and selective inference
[15] 논문 Promoting reproducibility with registered reports 2017-01-10
[16] 웹사이트 Streamlined review and registered reports soon to be official at EJP https://www.ejp-blog[...] 2018-02-06
[17] 논문 P-Hacker Confessions: Daryl Bem and Me https://www.csicop.o[...] 2018-08-05
[18] 웹사이트 The garden of forking paths http://www.stat.colu[...] 2013
[19] 논문 The ASA Statement on p-Values: Context, Process, and Purpose Informa UK Limited 2016-04-02
[20] 잡지 They Studied Dishonesty. Was Their Work a Lie? https://www.newyorke[...] 2023-10-01
[21] 웹인용 The Band of Debunkers Busting Bad Scientists https://www.wsj.com/[...] 2023-10-08
[22] 웹인용 APA PsycNet https://psycnet.apa.[...] 2023-10-08
[23] 저널 Deming, data and observational studies http://www.niss.org/[...]



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com