맨위로가기

크러스컬-월리스 검정

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

크러스컬-월리스 검정은 세 개 이상의 그룹 간의 중앙값 차이를 비교하는 데 사용되는 비모수 통계 검정 방법이다. 이 검정은 각 그룹의 데이터를 함께 순위를 매긴 후, 검정 통계량 H를 계산하여 수행된다. H 값과 임계값을 비교하여 귀무 가설 기각 여부를 결정하며, 묶인 값에 대한 보정과 사후 검정을 통해 추가적인 분석을 수행할 수 있다. 크러스컬-월리스 검정은 R, 파이썬, 자바, 줄리아 등 다양한 프로그래밍 언어와 도구로 구현되어 있다.

더 읽어볼만한 페이지

  • 통계학 - 확률
    확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다.
  • 통계학 - 사분위수
    사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.
크러스컬-월리스 검정
개요
유형비모수 검정
개발자윌리엄 헨리 크러스컬
더블유. 앨런 월리스
개발일1952년
다른 이름Kruskal-Wallis one-way analysis of variance
Kruskal-Wallis test by ranks
목적여러 독립적인 샘플이 동일한 모집단에서 왔는지 여부를 테스트
관련 항목만-위트니 U 검정
분산 분석
스피어만 순위 상관 계수
프리드먼 검정
세부 사항
분포카이제곱 분포 (근사)
자유도k - 1 (k = 그룹 수)
검정 통계량H
귀무 가설모든 모집단의 분포가 동일함

2. 방법

1. 모든 그룹의 모든 데이터를 함께 순위를 매긴다. 즉, 그룹 구성을 무시하고 1부터 N까지 데이터를 순위를 매긴다. 묶인 값에는 묶이지 않았다면 부여받았을 순위의 평균을 할당한다.

묶인 값에 순위의 평균을 할당하는 방법의 예


2. 검정 통계량은 다음과 같다.

:H = (N-1)\frac{\sum_{i=1}^{g} n_i(\bar{r}_{i\cdot} - \bar{r})^2}{\sum_{i=1}^ {g} \sum_{j=1}^{n_i}(r_{ij} - \bar{r})^2}

::*N은 모든 그룹의 총 관측 횟수이다.

::*g는 그룹의 수이다.

::*n_i는 그룹 i의 관측 횟수이다.

::*r_{ij}는 그룹 i의 관측 j의 순위(모든 관측 중)이다.

::*\bar{r}_{i\cdot} = \frac{\sum_{j=1}^{n_i}{r_{ij}}}{n_i}는 그룹 i의 모든 관측의 평균 순위이다.

::*\bar{r} =\tfrac 12 (N+1)은 모든 r_{ij} 의 평균이다.

3. 데이터에 묶인 값이 없으면, H 식의 분모는 정확히 (N-1)N(N+1)/12이고 \bar{r}=\tfrac{N+1}{2}이다. 따라서

:H = \frac{12}{N(N+1)}\sum_{i=1}^g n_i \left(\bar{r}_{i\cdot} - \frac{N+1}{2}\right)^2 = \frac{12}{N(N+1)}\sum_{i=1}^g n_i \bar{r}_{i\cdot }^2 - 3(N+1)

:마지막 공식에는 평균 순위의 제곱만 포함되어 있다.

4. 묶인 값에 대한 수정은 H1 - \frac{\sum_{i=1}^G (t_i^3 - t_i)}{N^3-N}로 나누어 수행할 수 있다. 여기서 G는 서로 다른 묶인 순위의 그룹 수이고, t_i는 특정 값에서 묶인 그룹 i 내의 묶인 값의 수이다. 이 수정은 묶인 값이 많이 있지 않는 한 ''H'' 값에 거의 차이를 만들지 않는다.

5. 여러 표본을 비교할 때 제1종 오류가 증가하는 경향이 있다. 따라서 본페로니 절차를 사용하여 유의 수준을 조정한다. 즉, \bar{a}=\frac{\alpha}{\Bbbk}이며, 여기서 \bar{a}는 조정된 유의 수준이고, \alpha는 초기 유의 수준이며, \Bbbk는 대비의 수이다.[13]

6. 귀무 가설을 기각하거나 수용할지 여부에 대한 결정은 주어진 유의 수준 또는 알파 수준에 대해 H를 임계값 H_c(표 또는 소프트웨어에서 얻음)과 비교하여 이루어진다. HH_c보다 크면 귀무 가설이 기각된다. 가능하다면(묶인 값이 없고, 표본이 너무 크지 않음) HH의 정확한 분포에서 얻은 임계값과 비교해야 한다. 그렇지 않으면 H의 분포를 g-1 자유도를 갖는 카이제곱 분포로 근사할 수 있다. 일부 n_i 값이 작은 경우(즉, 5 미만) H의 정확한 확률 분포는 이 카이제곱 분포와 매우 다를 수 있다. 카이제곱 확률 분포표를 사용할 수 있는 경우 g-1 자유도로 표에 들어가 원하는 유의성 또는 알파 수준에서 찾아서 카이제곱의 임계값 \chi^2_{\alpha: g-1}을 찾을 수 있다.[14]

7. 통계량이 유의하지 않으면 표본 간의 확률적 우위를 나타내는 증거가 없다. 그러나 검정이 유의하다면 최소한 하나의 표본이 다른 표본보다 확률적으로 우위에 있다. 그런 다음 연구자는 개별 표본 쌍 간의 표본 대비 또는 크루스칼-월리스 검정과 동일한 순위를 적절하게 사용하고 (1) 크루스칼-월리스 검정의 귀무 가설에 의해 암시된 풀 분산을 적절하게 사용하여 어떤 표본 쌍이 유의하게 다른지 결정하는 던 검정을 사용하는 ''사후'' 검정을 사용할 수 있다.[4] 여러 표본 대비 또는 검정을 수행하면 제1종 오류율이 증가하는 경향이 있어 다중 비교에 대한 우려가 제기된다.

3. 사후 검정

여러 표본을 비교할 때 제1종 오류가 증가하는 경향이 있다. 따라서 본페로니 절차를 사용하여 유의 수준을 조정한다. 즉, \bar{a}=\frac{\alpha}{\Bbbk}이며, 여기서 \bar{a}는 조정된 유의 수준이고, \alpha는 초기 유의 수준이며, \Bbbk는 대비의 수이다.[13]

통계량이 유의하지 않으면 표본 간의 확률적 우위를 나타내는 증거가 없다. 그러나 검정이 유의하다면 최소한 하나의 표본이 다른 표본보다 확률적으로 우위에 있다. 그런 다음 연구자는 개별 표본 쌍 간의 표본 대비 또는 크루스칼-월리스 검정과 동일한 순위를 적절하게 사용하고 (1) 크루스칼-월리스 검정의 귀무 가설에 의해 암시된 풀 분산을 적절하게 사용하여 어떤 표본 쌍이 유의하게 다른지 결정하는 던 검정을 사용하는 ''사후'' 검정을 사용할 수 있다.[4] 여러 표본 대비 또는 검정을 수행하면 제1종 오류율이 증가하는 경향이 있어 다중 비교에 대한 우려가 제기된다.

4. 정확한 확률 계산



모든 그룹의 데이터를 함께 순위를 매긴다. 즉, 그룹 구성을 무시하고 1부터 ''N''까지 데이터를 순위를 매긴다. 묶인 값에는 묶이지 않았다면 부여받았을 순위의 평균을 할당한다.

검정 통계량은 다음과 같다.

:H = (N-1)\frac{\sum_{i=1}^{g} {n_i}({\bar{r}_{i\cdot}} - {\bar{r}})^2}{\sum_{i=1}^ {g} \sum_{j=1}^{n_i}({r_{ij}} - {\bar{r}})^2}

여기서


  • N은 모든 그룹의 총 관측 횟수이다.
  • g는 그룹의 수이다.
  • n_i는 그룹 i의 관측 횟수이다.
  • r_{ij}는 그룹 i의 관측 j의 순위(모든 관측 중)이다.
  • {\bar{r}_{i\cdot}} = \frac{\sum_{j=1}^{n_i}{r_{ij}}}{n_i}는 그룹 i의 모든 관측의 평균 순위이다.
  • {\bar{r}} =\tfrac 12 (N+1)은 모든 r_{ij} 의 평균이다.


데이터에 묶인 값이 없으면 H 식의 분모는 정확히 (N-1)N(N+1)/12이고 \bar{r}=\tfrac{N+1}{2}이다. 따라서

:

\begin{align}

H & = \frac{12}{N(N+1)}\sum_{i=1}^g n_i \left(\bar{r}_{i\cdot} - \frac{N+1}{2}\right)^2 \\ & = \frac{12}{N(N+1)}\sum_{i=1}^g n_i \bar{r}_{i\cdot }^2 - 3(N+1)

\end{align}



마지막 공식에는 평균 순위의 제곱만 포함되어 있다.

이전에 설명한 지름길 공식을 사용하는 경우 묶인 값에 대한 수정은 H1 - \frac{\sum_{i=1}^G (t_i^3 - t_i)}{N^3-N}로 나누어 수행할 수 있다. 여기서 G는 서로 다른 묶인 순위의 그룹 수이고 t_i는 특정 값에서 묶인 그룹 i 내의 묶인 값의 수이다. 이 수정은 묶인 값이 많이 있지 않는 한 ''H'' 값에 거의 차이를 만들지 않는다.

여러 표본을 비교할 때 제1종 오류가 증가하는 경향이 있다. 따라서 본페로니 절차를 사용하여 유의 수준을 조정한다. 즉, \bar{a}=\frac{\alpha}{\Bbbk}이며, 여기서 \bar{a}는 조정된 유의 수준이고, \alpha는 초기 유의 수준이며, \Bbbk는 대비의 수이다.[13]

마지막으로, 귀무 가설을 기각하거나 수용할지 여부에 대한 결정은 주어진 유의 수준 또는 알파 수준에 대해 H를 임계값 H_c(표 또는 소프트웨어에서 얻음)과 비교하여 이루어진다. HH_c보다 크면 귀무 가설이 기각된다. 가능하다면(묶인 값이 없고, 표본이 너무 크지 않음) HH의 정확한 분포에서 얻은 임계값과 비교해야 한다. 그렇지 않으면 H의 분포를 g-1 자유도를 갖는 카이제곱 분포로 근사할 수 있다. 일부 n_i 값이 작은 경우(즉, 5 미만) H의 정확한 확률 분포는 이 카이제곱 분포와 매우 다를 수 있다. 카이제곱 확률 분포표를 사용할 수 있는 경우 g-1 자유도로 표에 들어가 원하는 유의성 또는 알파 수준에서 찾아서 카이제곱의 임계값 \chi^2_{\alpha: g-1}을 찾을 수 있다.[14]

통계량이 유의하지 않으면 표본 간의 확률적 우위를 나타내는 증거가 없다. 그러나 검정이 유의하다면 최소한 하나의 표본이 다른 표본보다 확률적으로 우위에 있다. 그런 다음 연구자는 개별 표본 쌍 간의 표본 대비 또는 크루스칼-월리스 검정과 동일한 순위를 적절하게 사용하고 (1) 크루스칼-월리스 검정의 귀무 가설에 의해 암시된 풀 분산을 적절하게 사용하여 어떤 표본 쌍이 유의하게 다른지 결정하는 던 검정을 사용하는 ''사후'' 검정을 사용할 수 있다.[4] 여러 표본 대비 또는 검정을 수행하면 제1종 오류율이 증가하는 경향이 있어 다중 비교에 대한 우려가 제기된다.

크루스칼-월리스 검정의 정확한 확률을 계산하려면 많은 양의 컴퓨팅 자원이 필요하다. 기존 소프트웨어는 30명 미만의 참가자 표본 크기에 대해서만 정확한 확률을 제공한다. 이러한 소프트웨어 프로그램은 더 큰 표본 크기에 대한 점근적 근사에 의존한다. 더 큰 표본 크기에 대한 정확한 확률 값도 이용 가능하다. Spurrier (2003)는 최대 45명의 참가자로 구성된 표본에 대한 정확한 확률 표를 발표했다.[15] Meyer와 Seaman (2006)은 최대 105명의 참가자로 구성된 표본에 대한 정확한 확률 분포를 생성했다.[16]

최 등[17]H의 정확한 분포를 계산하기 위해 개발된 두 가지 방법을 검토하고, 새로운 방법을 제안한 후, 정확한 분포와 카이 제곱 근사를 비교했다.

5. R을 이용한 예제

다음은 Chambers 외[18]의 데이터를 사용한 예시이다. 1973년 5월 1일부터 9월 30일까지 뉴욕시의 일일 오존 측정값을 나타낸다. 데이터는 R 데이터 세트 `airquality`에 있으며, 분석은 R 함수 `kruskal.test`의 설명서에 포함되어 있다. 월별 오존 값의 상자 그림은 아래 그림에 나와 있다.



크러스컬-월리스 검정은 유의미한 차이(p = 6.901e-06)를 찾아 5개월 간 오존이 다르다는 것을 보여준다.

어떤 달이 다른지 확인하기 위해, 다중 가설 검정에 대한 본페로니(Bonferroni) (또는 다른) 보정을 사용하여 각 달의 쌍에 대한 윌콕슨 검정을 수행할 수 있다. 사후 검정은 다중 검정에 대한 본페로니 보정 후, 다음과 같은 차이가 유의미함을 나타낸다(조정된 p < 0.05).

  • 5월 vs 7월 및 8월
  • 9월 vs 7월 및 8월

6. 구현


  • 파이썬의 SciPy 패키지에서 `scipy.stats.kruskal` 함수는 검정 결과와 -값을 반환할 수 있다.[19]
  • R 기본 패키지에는 `kruskal.test`를 사용하여 이 검정을 구현한 것이 있다.[20]
  • 자바에는 아파치 커먼즈에서 제공하는 구현이 있다.[21]
  • 줄리아에서, `HypothesisTests.jl` 패키지에는 p-값을 계산하는 `KruskalWallisTest(groups::AbstractVector{<:Real}...)` 함수가 있다.[22]

참조

[1] 논문 Use of ranks in one-criterion variance analysis
[2] 서적 Nonparametric Statistics for Non-Statisticians https://archive.org/[...] John Wiley & Sons
[3] 서적 Nonparametric Statistics for the Behavioral Sciences McGraw–Hill
[4] 논문 Multiple comparisons using rank sums
[5] 간행물 "On multiple-comparisons procedures" http://library.lanl.[...] Los Alamos Scientific Laboratory 2016-10-28
[6] 간행물 "On multiple-comparisons procedures" http://library.lanl.[...] Los Alamos Scientific Laboratory 2016-10-28
[7] 문서 Nonparametrics: Statistical methods based on ranks. Holden-Day.
[8] 뉴스 The Wilcoxon–Mann–Whitney Procedure Fails as a Test of Medians The American Statistician
[9] 뉴스 Mann-Whitney test is not just a test of medians: differences in spread can be important BMJ
[10] 뉴스 FAQ: Why is the Mann-Whitney significant when the medians are equal? UCLA: Statistical Consulting Group
[11] 서적 An introduction to modern nonparametric statistics Brooks-Cole; Thomson Learning 2004
[12] 서적 Experimental Design http://link.springer[...] Springer International Publishing 2018
[13] 문서 Nonparametric Statistics for Non-statisticians: A Step-by-Step Approach. Wiley
[14] 서적 Applied statistics and probability for engineers Wiley 2018
[15] 논문 On the null distribution of the Kruskal–Wallis statistic
[16] 논문 Expanded tables of critical values for the Kruskal–Wallis H statistic 2006-04
[17] 논문 An Algorithm for Computing the Exact Distribution of the Kruskal–Wallis Test
[18] 서적 Graphical Methods for Data Analysis Wadsworth International Group, Duxbury Press
[19] 웹사이트 scipy.stats.kruskal — SciPy v1.11.4 Manual https://docs.scipy.o[...] 2023-12-06
[20] 웹사이트 kruskal.test function - RDocumentation https://www.rdocumen[...] 2023-12-06
[21] 웹사이트 Math – The Commons Math User Guide - Statistics https://commons.apac[...] 2023-12-06
[22] 웹사이트 Nonparametric tests · HypothesisTests.jl https://juliastats.o[...] 2023-12-06
[23] 웹사이트 Kruskal–Wallis H Test using SPSS Statistics https://statistics.l[...]
[24] 논문 Use of ranks in one-criterion variance analysis
[25] 서적 Nonparametric Statistics for Non-Statisticians https://archive.org/[...] John Wiley & Sons
[26] 서적 Nonparametric Statistics for the Behavioral Sciences https://archive.org/[...] McGraw–Hill



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com