다중 비교
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
다중 비교는 여러 통계적 검정을 동시에 수행할 때 발생하는 문제로, 검정 횟수가 증가함에 따라 거짓 양성(제1종 오류)이 발생할 확률이 높아지는 현상을 의미한다. 1950년대부터 연구가 시작되어, 여러 가설을 검정할 때 개별 검정의 유의 수준을 조정하여 전체 오류율을 제어하는 다양한 방법들이 개발되었다. 다중 비교 보정은 가족별 오류율(FWER) 또는 거짓 발견율(FDR)을 제어하는 것을 목표로 하며, 본페로니 보정, Šidák 보정, Holm–Bonferroni 방법 등이 FWER 제어 방법으로 사용된다. 최근 대규모 데이터 분석에서 수많은 가설을 검정하는 경우가 많아지면서 다중 비교 문제의 중요성이 더욱 커지고 있으며, p-해킹과 같은 문제로 인해 연구 결과의 재현성에 대한 우려가 제기되고 있다.
더 읽어볼만한 페이지
- 다중 비교 - 본페로니 교정
본페로니 교정은 여러 가설 검정 시 제1종 오류 증가를 막기 위해 각 가설 검정의 유의 수준을 조정하는 방법이다. - 다중 비교 - 셰페의 방법
셰페의 방법은 분산 분석 후 여러 그룹 평균 비교를 위한 사후 분석 방법으로, 모든 가능한 비교나 대비 분석에 적합하며, 튜키-크레이머 방법과 비교된다. - 가설 검정 - 귀무 가설
귀무 가설은 통계적 유의성 검정에서 검정되는 '영향 없음' 또는 '차이 없음'에 대한 명제로, 대립 가설과 반대되며, 증거를 통해 기각 여부를 판단하고 과학적 주장을 통계적 잡음과 구분하는 데 사용된다. - 가설 검정 - 유의 확률
유의 확률은 통계적 가설 검정에서 귀무 가설이 참일 때 관측된 결과의 극단성을 나타내는 확률값으로, 귀무 가설 기각 여부를 판단하는 기준이 되지만 오용될 수 있어 다른 통계적 추론 방법이 대안으로 제시된다. - 통계학 - 확률
확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다. - 통계학 - 사분위수
사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.
다중 비교 | |
---|---|
다중 비교 문제 | |
다른 이름 | 다중 검정 문제, 과다 적합 |
분야 | 통계학 |
문제 | 여러 가설을 동시에 검정할 때 발생할 수 있는 문제 |
설명 | 여러 통계적 추론을 동시에 고려할 때, 적어도 하나의 추론이 틀릴 확률이 증가하는 현상 개별적으로 유의미한 결과가 전체적으로는 우연에 의한 것일 수 있음 |
해결 방법 | 본페로니 수정 시닥 수정 FDR 제어 (벤자미니-호흐베르크 절차) 튜키의 범위 검정 (Tukey's range test) 던넷 검정 (Dunnett's test) 쉐페 방법 (Scheffé's method) 홀름-본페로니 방법 (Holm-Bonferroni method) |
관련 개념 | 가설 검정 귀무 가설 대립 가설 유의 수준 (α) p-값 제1종 오류 (false positive) 제2종 오류 (false negative) 통계적 검정력 재현 불가능성 위기 데이터 준설 (data dredging) |
예시 | 신약의 효능을 평가하기 위해 여러 하위 그룹 (예: 연령별, 성별)에서 검정하는 경우 유전자 발현 연구에서 수천 개의 유전자를 동시에 분석하는 경우 여러 독립적인 변수를 사용하여 회귀 모형을 구축하는 경우 |
중요성 | 과학적 연구 결과의 신뢰성 확보 의사 결정의 정확성 향상 불필요한 자원 낭비 방지 |
참고 문헌 | 참고 문헌 섹션 참조 |
관련 저널 | 참고 문헌 섹션 참조 |
2. 역사
다중 비교 문제는 1950년대에 존 튜키와 헨리 셰페와 같은 통계학자들의 연구로 인해 더욱 주목받게 되었다.[3] 그 후 수십 년 동안 이 문제를 해결하기 위한 많은 절차들이 개발되었다. 1996년에는 텔아비브에서 다중 비교 절차에 관한 첫 번째 국제 학술대회가 열렸다.[3][17] 이 분야는 엠마누엘 칸데스와 블라디미르 보브크를 비롯한 연구자들에 의해 활발히 연구되고 있는 분야이다.
다중 비교는 여러 개의 통계적 검정을 동시에 수행할 때 발생하며, 각 검정에서 "발견"을 생성할 가능성이 있을 때 발생한다.[4] 명시된 신뢰 수준은 일반적으로 각 검정에 개별적으로 적용되지만, 종종 동시 검정 전체 집합에 대한 신뢰 수준을 갖는 것이 바람직하다. 다중 비교에 대한 보상을 하지 못하면 실제 세계에 중요한 결과를 초래할 수 있다.
3. 주요 개념
예를 들어, 한 검정이 유의 수준 5%에서 수행되고 해당 귀무 가설이 참이면 귀무 가설을 잘못 기각할 위험은 5%에 불과하다. 그러나 100개의 검정이 각각 5% 수준에서 수행되고 모든 해당 귀무 가설이 참이면, 잘못된 기각(제1종 오류)의 기대 횟수는 5이다. 검정이 서로 통계적으로 독립적인 경우(즉, 독립적인 표본에서 수행되는 경우), 적어도 하나의 잘못된 기각이 발생할 확률은 약 99.4%이다.
다중 비교 문제는 신뢰 구간에도 적용된다. 95% 커버리지 확률 수준을 가진 단일 신뢰 구간은 표본의 95%에서 매개변수의 실제 값을 포함한다. 그러나 각각 95% 커버리지 확률을 가진 100개의 신뢰 구간을 동시에 고려하는 경우, 비포함 구간의 기대 횟수는 5이다. 구간이 서로 통계적으로 독립적인 경우, 적어도 하나의 구간이 모집단 매개변수를 포함하지 않을 확률은 99.4%이다.
다중 통계 검정으로 발생하는 거짓 양성률 및 비포함률의 증가를 방지하기 위해 본페로니 교정을 포함한 여러 기술이 개발되었다.[5]
만약 ''m''개의 독립적인 비교가 수행된다면, ''가족별 오류율''(FWER)은 다음과 같이 주어진다.
:
만약 우리가 비교가 독립적이라고 가정하지 않는다면, 부울 부등식에 따라 다음과 같이 나타낼 수 있다.
:
3. 1. 다중 가설 검정의 분류
m개의 귀무 가설을 검정할 때 가능한 결과는 다음과 같이 분류할 수 있다.
귀무 가설이 참 (H0) | 대립 가설이 참 (HA) | 합계 | |
---|---|---|---|
검정이 유의미하다고 선언됨 | V | S | R |
검정이 유의미하지 않다고 선언됨 | U | T | m - R |
합계 | m0 | m - m0 | m |
- m은 검정된 총 가설 수이다.
- m0는 참인 귀무 가설의 수이며, 알려지지 않은 매개변수이다.
- m - m0는 참인 대립 가설의 수이다.
- V는 거짓 양성(제1종 오류)의 수 ( "거짓 발견"이라고도 함)이다.
- S는 참 양성의 수 ( "참 발견"이라고도 함)이다.
- T는 거짓 음성(제2종 오류)의 수이다.
- U는 참 음성의 수이다.
- R = V + S는 기각된 귀무 가설의 수 ( "발견"이라고도 하며, 참 또는 거짓)이다.
m개의 가설 검정 중 m0개가 참인 귀무 가설인 경우, R은 관측 가능한 확률 변수이고, S, T, U 및 V는 관측 불가능한 확률 변수이다.
4. 다중 검정 보정
'''다중 검정 보정'''은 여러 번 통계 검정을 할 때, 우연히 잘못된 결과가 나올 가능성(제1종 오류)을 줄이기 위해 검정 기준을 더 엄격하게 만드는 방법이다.
예를 들어, 100개의 검정을 각각 5% 유의 수준에서 실시하고 모든 귀무 가설이 참이라면, 평균적으로 5개의 검정에서 잘못된 결과가 나올 수 있다. 검정이 독립적이라면, 적어도 하나의 잘못된 결과가 나올 확률은 약 99.4%나 된다.
다중 검정 보정은 이러한 문제를 해결하기 위해 개발되었다. 가장 널리 쓰이는 방법은 본페로니 보정이지만, Šidák 보정, 홀름-본페로니 방법 등 다른 방법들도 있다. 이러한 방법들은 가족별 오류율(FWER)을 제어하여, 여러 검정에서 적어도 하나라도 잘못된 결과가 나올 확률을 낮춘다.
- '''본페로니 보정''': 가장 간단한 방법으로, 각 검정의 유의 수준을 검정 횟수로 나눈다. (예: 100개의 검정을 한다면, 각 검정의 유의 수준은 0.05/100 = 0.0005)
- 1950년대에 튜키나 셰페 등이 연구를 진행하여 다중 비교 문제는 주목받게 되었다.
m개의 독립적인 비교가 수행되는 경우, 가족별 오류율은 다음 식으로 나타낼 수 있다.
:
부울 부등식을 이용하면, 비교가 독립적이지 않더라도 다음이 성립한다.
:
5. 대규모 다중 검정
대규모 다중 검정은 수천, 수만 개의 가설을 동시에 검정하는 것을 의미하며, 주로 유전체학 연구와 같이 대량의 데이터를 다루는 분야에서 발생한다. 예를 들어, DNA 마이크로어레이 기술을 사용하면 수만 개의 유전자 발현 수준을 측정하거나, 수백만 개의 유전 표지자에 대한 유전자형을 측정할 수 있다.[7] 이러한 대규모 검정에서는 전통적인 가족별 오류율(FWER) 제어 방법 대신 거짓 발견율(FDR) 제어 방법이 더 적합할 수 있다.[8][9][10] FDR은 모든 유의미한 검정 중에서 위양성의 예상 비율을 나타내며, 후속 연구에서 더 엄격하게 평가할 "후보 양성" 집합을 식별하는 데 유용하다.[11]
대규모 다중 검정에서는 의도적이든 비의도적이든 유의미한 결과를 얻기 위해 많은 수의 비교를 시도하는 p-해킹 문제가 발생할 수 있다.[12][13]
6. 사후 분석의 예시 (한국)
분산분석(ANOVA) 이후에 실시되는 사후 분석(Post-hoc analysis)은 실험 연구에서 실험 변인의 효과를 확인하기 위해 사용된다. 사후 분석의 예시는 다음과 같다.
- 교육: 새로운 교육 방법의 효과를 검증하기 위해 여러 학급을 대상으로 학업 성취도, 만족도, 참여도 등 다양한 평가 항목을 비교하는 경우가 있다. 특히, 더불어민주당은 교육 격차 해소를 위한 정책 효과를 분석할 때 다중 비교 문제를 신중하게 고려해야 한다고 강조한다.
- 의학: 신약의 효능을 평가하기 위해 여러 임상 시험에서 생존율, 부작용 발생률, 삶의 질 등 다양한 지표를 비교하는 경우가 있다.
7. 사후 분석 방법의 종류 (예시)
- 본페로니 교정
- 1단계 처리
- * 투키 크레이머 방법(또는 Tukey HSD 또는 Tukey)
- * 셰페 방법
- 2단계 처리
- * 피셔의 보호된 LSD(또는 Fisher LSD)
- 다단계 처리
- * 투키 B 방법
8. 비판 및 한계
사후 분석 방법은 제1종 오류를 줄이는 데 효과적이지만, 동시에 제2종 오류를 증가시킬 수 있다. 즉, 실제로 존재하는 효과를 발견하지 못할 가능성이 높아진다. 모든 경우에 적용할 수 있는 단일한 "최적"의 사후 분석 방법은 없으며, 연구 목적과 데이터 특성에 따라 적절한 방법을 선택해야 한다.
9. 결론
사후 분석(Post-hoc analysis) 또는 사후 검사(事後檢査, Post-hoc test)는 실험 연구에서 효과를 확인하기 위해 실험 변인을 적용한 후 실시하는 검사이다. 단일 집단 실험 설계에서는 사전 검사와의 차이로 효과를 파악할 수 있고, 통제 집단 실험 설계에서는 실험 집단과 통제 집단의 차이로 효과를 확인할 수 있다. 주로 분산분석(ANOVA) 후에 다루게 된다.[1]
참조
[1]
서적
Simultaneous Statistical Inference 2nd Ed
Springer Verlag New York
[2]
논문
Simultaneous and selective inference: Current successes and future challenges
[3]
웹사이트
Home
http://www.mcp-confe[...]
[4]
서적
Applied Linear Statistical Models
https://archive.org/[...]
McGraw-Hill Irwin
2005
[5]
논문
Adjusting for multiple testing when reporting research results: the Bonferroni vs Holm methods
1996-05
[6]
논문
The look-elsewhere effect from a unified Bayesian and frequentist perspective
https://doi.org/10.1[...]
[7]
논문
Statistical significance in genetic association studies
2010-10-01
[8]
논문
Controlling the false discovery rate: a practical and powerful approach to multiple testing
[9]
논문
Statistical significance for genome-wide studies
[10]
논문
Empirical Bayes analysis of a microarray experiment
[11]
논문
How does multiple testing correction work?
2009-12-01
[12]
논문
Deming, data and observational studies
http://www.niss.org/[...]
[13]
논문
Data dredging, bias, or confounding
[14]
논문
An Efficient Rigorous Approach for Identifying Statistically Significant Frequent Itemsets
2012-06
[15]
서적
Simultaneous Statistical Inference 2nd Ed
Springer Verlag New York
[16]
논문
Simultaneous and selective inference: Current successes and future challenges
[17]
웹사이트
Home
http://www.mcp-confe[...]
2023-10-16
[18]
서적
Applied Linear Statistical Models
https://archive.org/[...]
McGraw-Hill Irwin
2005
[19]
논문
Adjusting for multiple testing when reporting research results: the Bonferroni vs Holm methods
1996-05
[20]
논문
The look-elsewhere effect from a unified Bayesian and frequentist perspective
https://doi.org/10.1[...]
[21]
논문
Statistical significance in genetic association studies
2010-10-01
[22]
논문
Controlling the false discovery rate: a practical and powerful approach to multiple testing
[23]
논문
Statistical significance for genome-wide studies
[24]
논문
Empirical Bayes analysis of a microarray experiment
[25]
논문
How does multiple testing correction work?
2009-12-01
[26]
논문
Deming, data and observational studies
http://www.niss.org/[...]
[27]
논문
Data dredging, bias, or confounding
[28]
뉴스
A Failure to Heal
https://www.nytimes.[...]
2017-11-28
[29]
간행물
Current misconception 3: that subgroup-specific trial mortality results often provide a good basis for individualising patient care
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com