크러스컬-월리스 검정
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
크러스컬-월리스 검정은 세 개 이상의 그룹 간의 중앙값 차이를 비교하는 데 사용되는 비모수 통계 검정 방법이다. 이 검정은 각 그룹의 데이터를 함께 순위를 매긴 후, 검정 통계량 H를 계산하여 수행된다. H 값과 임계값을 비교하여 귀무 가설 기각 여부를 결정하며, 묶인 값에 대한 보정과 사후 검정을 통해 추가적인 분석을 수행할 수 있다. 크러스컬-월리스 검정은 R, 파이썬, 자바, 줄리아 등 다양한 프로그래밍 언어와 도구로 구현되어 있다.
더 읽어볼만한 페이지
크러스컬-월리스 검정 | |
---|---|
개요 | |
유형 | 비모수 검정 |
개발자 | 윌리엄 헨리 크러스컬 더블유. 앨런 월리스 |
개발일 | 1952년 |
다른 이름 | Kruskal-Wallis one-way analysis of variance Kruskal-Wallis test by ranks |
목적 | 여러 독립적인 샘플이 동일한 모집단에서 왔는지 여부를 테스트 |
관련 항목 | 만-위트니 U 검정 분산 분석 스피어만 순위 상관 계수 프리드먼 검정 |
세부 사항 | |
분포 | 카이제곱 분포 (근사) |
자유도 | k - 1 (k = 그룹 수) |
검정 통계량 | H |
귀무 가설 | 모든 모집단의 분포가 동일함 |
2. 방법
1. 모든 그룹의 모든 데이터를 함께 순위를 매긴다. 즉, 그룹 구성을 무시하고 1부터 N까지 데이터를 순위를 매긴다. 묶인 값에는 묶이지 않았다면 부여받았을 순위의 평균을 할당한다.
여러 표본을 비교할 때 제1종 오류가 증가하는 경향이 있다. 따라서 본페로니 절차를 사용하여 유의 수준을 조정한다. 즉, 이며, 여기서 는 조정된 유의 수준이고, 는 초기 유의 수준이며, 는 대비의 수이다.[13]
2. 검정 통계량은 다음과 같다.
:
::*은 모든 그룹의 총 관측 횟수이다.
::*는 그룹의 수이다.
::*는 그룹 의 관측 횟수이다.
::*는 그룹 의 관측 의 순위(모든 관측 중)이다.
::*는 그룹 의 모든 관측의 평균 순위이다.
::*은 모든 의 평균이다.
3. 데이터에 묶인 값이 없으면, 식의 분모는 정확히 이고 이다. 따라서
:
:마지막 공식에는 평균 순위의 제곱만 포함되어 있다.
4. 묶인 값에 대한 수정은 를 로 나누어 수행할 수 있다. 여기서 는 서로 다른 묶인 순위의 그룹 수이고, 는 특정 값에서 묶인 그룹 내의 묶인 값의 수이다. 이 수정은 묶인 값이 많이 있지 않는 한 '''' 값에 거의 차이를 만들지 않는다.
5. 여러 표본을 비교할 때 제1종 오류가 증가하는 경향이 있다. 따라서 본페로니 절차를 사용하여 유의 수준을 조정한다. 즉, 이며, 여기서 는 조정된 유의 수준이고, 는 초기 유의 수준이며, 는 대비의 수이다.[13]
6. 귀무 가설을 기각하거나 수용할지 여부에 대한 결정은 주어진 유의 수준 또는 알파 수준에 대해 를 임계값 (표 또는 소프트웨어에서 얻음)과 비교하여 이루어진다. 가 보다 크면 귀무 가설이 기각된다. 가능하다면(묶인 값이 없고, 표본이 너무 크지 않음) 를 의 정확한 분포에서 얻은 임계값과 비교해야 한다. 그렇지 않으면 H의 분포를 자유도를 갖는 카이제곱 분포로 근사할 수 있다. 일부 값이 작은 경우(즉, 5 미만) 의 정확한 확률 분포는 이 카이제곱 분포와 매우 다를 수 있다. 카이제곱 확률 분포표를 사용할 수 있는 경우 자유도로 표에 들어가 원하는 유의성 또는 알파 수준에서 찾아서 카이제곱의 임계값 을 찾을 수 있다.[14]
7. 통계량이 유의하지 않으면 표본 간의 확률적 우위를 나타내는 증거가 없다. 그러나 검정이 유의하다면 최소한 하나의 표본이 다른 표본보다 확률적으로 우위에 있다. 그런 다음 연구자는 개별 표본 쌍 간의 표본 대비 또는 크루스칼-월리스 검정과 동일한 순위를 적절하게 사용하고 (1) 크루스칼-월리스 검정의 귀무 가설에 의해 암시된 풀 분산을 적절하게 사용하여 어떤 표본 쌍이 유의하게 다른지 결정하는 던 검정을 사용하는 ''사후'' 검정을 사용할 수 있다.[4] 여러 표본 대비 또는 검정을 수행하면 제1종 오류율이 증가하는 경향이 있어 다중 비교에 대한 우려가 제기된다.
3. 사후 검정
통계량이 유의하지 않으면 표본 간의 확률적 우위를 나타내는 증거가 없다. 그러나 검정이 유의하다면 최소한 하나의 표본이 다른 표본보다 확률적으로 우위에 있다. 그런 다음 연구자는 개별 표본 쌍 간의 표본 대비 또는 크루스칼-월리스 검정과 동일한 순위를 적절하게 사용하고 (1) 크루스칼-월리스 검정의 귀무 가설에 의해 암시된 풀 분산을 적절하게 사용하여 어떤 표본 쌍이 유의하게 다른지 결정하는 던 검정을 사용하는 ''사후'' 검정을 사용할 수 있다.[4] 여러 표본 대비 또는 검정을 수행하면 제1종 오류율이 증가하는 경향이 있어 다중 비교에 대한 우려가 제기된다.
4. 정확한 확률 계산
모든 그룹의 데이터를 함께 순위를 매긴다. 즉, 그룹 구성을 무시하고 1부터 ''N''까지 데이터를 순위를 매긴다. 묶인 값에는 묶이지 않았다면 부여받았을 순위의 평균을 할당한다.
검정 통계량은 다음과 같다.
:
여기서
데이터에 묶인 값이 없으면 식의 분모는 정확히 이고 이다. 따라서
:
마지막 공식에는 평균 순위의 제곱만 포함되어 있다.
이전에 설명한 지름길 공식을 사용하는 경우 묶인 값에 대한 수정은 를 로 나누어 수행할 수 있다. 여기서 는 서로 다른 묶인 순위의 그룹 수이고 는 특정 값에서 묶인 그룹 내의 묶인 값의 수이다. 이 수정은 묶인 값이 많이 있지 않는 한 '''' 값에 거의 차이를 만들지 않는다.
여러 표본을 비교할 때 제1종 오류가 증가하는 경향이 있다. 따라서 본페로니 절차를 사용하여 유의 수준을 조정한다. 즉, 이며, 여기서 는 조정된 유의 수준이고, 는 초기 유의 수준이며, 는 대비의 수이다.[13]
마지막으로, 귀무 가설을 기각하거나 수용할지 여부에 대한 결정은 주어진 유의 수준 또는 알파 수준에 대해 를 임계값 (표 또는 소프트웨어에서 얻음)과 비교하여 이루어진다. 가 보다 크면 귀무 가설이 기각된다. 가능하다면(묶인 값이 없고, 표본이 너무 크지 않음) 를 의 정확한 분포에서 얻은 임계값과 비교해야 한다. 그렇지 않으면 H의 분포를 자유도를 갖는 카이제곱 분포로 근사할 수 있다. 일부 값이 작은 경우(즉, 5 미만) 의 정확한 확률 분포는 이 카이제곱 분포와 매우 다를 수 있다. 카이제곱 확률 분포표를 사용할 수 있는 경우 자유도로 표에 들어가 원하는 유의성 또는 알파 수준에서 찾아서 카이제곱의 임계값 을 찾을 수 있다.[14]
통계량이 유의하지 않으면 표본 간의 확률적 우위를 나타내는 증거가 없다. 그러나 검정이 유의하다면 최소한 하나의 표본이 다른 표본보다 확률적으로 우위에 있다. 그런 다음 연구자는 개별 표본 쌍 간의 표본 대비 또는 크루스칼-월리스 검정과 동일한 순위를 적절하게 사용하고 (1) 크루스칼-월리스 검정의 귀무 가설에 의해 암시된 풀 분산을 적절하게 사용하여 어떤 표본 쌍이 유의하게 다른지 결정하는 던 검정을 사용하는 ''사후'' 검정을 사용할 수 있다.[4] 여러 표본 대비 또는 검정을 수행하면 제1종 오류율이 증가하는 경향이 있어 다중 비교에 대한 우려가 제기된다.
크루스칼-월리스 검정의 정확한 확률을 계산하려면 많은 양의 컴퓨팅 자원이 필요하다. 기존 소프트웨어는 30명 미만의 참가자 표본 크기에 대해서만 정확한 확률을 제공한다. 이러한 소프트웨어 프로그램은 더 큰 표본 크기에 대한 점근적 근사에 의존한다. 더 큰 표본 크기에 대한 정확한 확률 값도 이용 가능하다. Spurrier (2003)는 최대 45명의 참가자로 구성된 표본에 대한 정확한 확률 표를 발표했다.[15] Meyer와 Seaman (2006)은 최대 105명의 참가자로 구성된 표본에 대한 정확한 확률 분포를 생성했다.[16]
최 등[17]은 의 정확한 분포를 계산하기 위해 개발된 두 가지 방법을 검토하고, 새로운 방법을 제안한 후, 정확한 분포와 카이 제곱 근사를 비교했다.
5. R을 이용한 예제
다음은 Chambers 외[18]의 데이터를 사용한 예시이다. 1973년 5월 1일부터 9월 30일까지 뉴욕시의 일일 오존 측정값을 나타낸다. 데이터는 R 데이터 세트 `airquality`에 있으며, 분석은 R 함수 `kruskal.test`의 설명서에 포함되어 있다. 월별 오존 값의 상자 그림은 아래 그림에 나와 있다.
크러스컬-월리스 검정은 유의미한 차이(p = 6.901e-06)를 찾아 5개월 간 오존이 다르다는 것을 보여준다.
어떤 달이 다른지 확인하기 위해, 다중 가설 검정에 대한 본페로니(Bonferroni) (또는 다른) 보정을 사용하여 각 달의 쌍에 대한 윌콕슨 검정을 수행할 수 있다. 사후 검정은 다중 검정에 대한 본페로니 보정 후, 다음과 같은 차이가 유의미함을 나타낸다(조정된 p < 0.05).
- 5월 vs 7월 및 8월
- 9월 vs 7월 및 8월
6. 구현
참조
[1]
논문
Use of ranks in one-criterion variance analysis
[2]
서적
Nonparametric Statistics for Non-Statisticians
https://archive.org/[...]
John Wiley & Sons
[3]
서적
Nonparametric Statistics for the Behavioral Sciences
McGraw–Hill
[4]
논문
Multiple comparisons using rank sums
[5]
간행물
"On multiple-comparisons procedures"
http://library.lanl.[...]
Los Alamos Scientific Laboratory
2016-10-28
[6]
간행물
"On multiple-comparisons procedures"
http://library.lanl.[...]
Los Alamos Scientific Laboratory
2016-10-28
[7]
문서
Nonparametrics: Statistical methods based on ranks.
Holden-Day.
[8]
뉴스
The Wilcoxon–Mann–Whitney Procedure Fails as a Test of Medians
The American Statistician
[9]
뉴스
Mann-Whitney test is not just a test of medians: differences in spread can be important
BMJ
[10]
뉴스
FAQ: Why is the Mann-Whitney significant when the medians are equal?
UCLA: Statistical Consulting Group
[11]
서적
An introduction to modern nonparametric statistics
Brooks-Cole; Thomson Learning
2004
[12]
서적
Experimental Design
http://link.springer[...]
Springer International Publishing
2018
[13]
문서
Nonparametric Statistics for Non-statisticians: A Step-by-Step Approach.
Wiley
[14]
서적
Applied statistics and probability for engineers
Wiley
2018
[15]
논문
On the null distribution of the Kruskal–Wallis statistic
[16]
논문
Expanded tables of critical values for the Kruskal–Wallis H statistic
2006-04
[17]
논문
An Algorithm for Computing the Exact Distribution of the Kruskal–Wallis Test
[18]
서적
Graphical Methods for Data Analysis
Wadsworth International Group, Duxbury Press
[19]
웹사이트
scipy.stats.kruskal — SciPy v1.11.4 Manual
https://docs.scipy.o[...]
2023-12-06
[20]
웹사이트
kruskal.test function - RDocumentation
https://www.rdocumen[...]
2023-12-06
[21]
웹사이트
Math – The Commons Math User Guide - Statistics
https://commons.apac[...]
2023-12-06
[22]
웹사이트
Nonparametric tests · HypothesisTests.jl
https://juliastats.o[...]
2023-12-06
[23]
웹사이트
Kruskal–Wallis H Test using SPSS Statistics
https://statistics.l[...]
[24]
논문
Use of ranks in one-criterion variance analysis
[25]
서적
Nonparametric Statistics for Non-Statisticians
https://archive.org/[...]
John Wiley & Sons
[26]
서적
Nonparametric Statistics for the Behavioral Sciences
https://archive.org/[...]
McGraw–Hill
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com