맨위로가기

카이제곱 검정

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

카이제곱 검정은 19세기 말 칼 피어슨에 의해 개발된 통계적 검정 방법으로, 관찰된 빈도가 특정 분포를 따르는지 검증하는 데 사용된다. 동질성 검정과 독립성 검정의 두 가지 유형이 있으며, 동질성 검정은 변인의 분포가 동일한지, 독립성 검정은 두 변수가 독립적인지를 검정한다. 피어슨의 카이제곱 검정은 가장 기본적이며, 적합도 검정과 독립성 검정에 사용된다. 카이제곱 검정을 적용하기 위해서는 변인의 제한, 무선 표집, 기대 빈도의 크기, 관찰의 독립과 같은 기본 가정을 만족해야 한다. 카이제곱 검정은 암호 분석, 생물 정보학 등 다양한 분야에서 활용된다.

더 읽어볼만한 페이지

  • 통계학 - 확률
    확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다.
  • 통계학 - 사분위수
    사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.
카이제곱 검정
개요
이름카이제곱 검정
로마자 표기Kaijaegop geomjeong
영어 이름Chi-squared test
일본어 이름カイ二乗検定 (Kai-nijō kentei)
종류통계적 가설 검정
사용 목적관찰값과 기대값의 차이를 분석하여 가설의 유의미성 검정
역사
개발자칼 피어슨
발표 년도1900년
통계적 세부 사항
검정 통계량χ² (카이제곱)
귀무 가설관찰값과 기대값 사이에 차이가 없다.
대립 가설관찰값과 기대값 사이에 차이가 있다.
자유도범주 수 - 1
분포카이제곱 분포
활용
적합도 검정관찰된 분포가 예상되는 분포와 일치하는지 여부를 평가
독립성 검정두 범주형 변수가 서로 관련이 있는지 여부를 평가
동질성 검정여러 모집단이 동일한 분포를 갖는지 여부를 평가
추가 정보
관련 개념피셔의 정확 검정
G-검정

2. 역사

칼 피어슨은 19세기 말 생물학적 데이터 분석에서 관측치의 분포가 정규 분포를 따르지 않는 경우가 많다는 점에 주목했다. 그는 정규 분포뿐만 아니라 다양한 분포에 적용할 수 있는 피어슨 분포를 고안했다.[3][4][5][6] 1900년, 피어슨은 카이제곱 검정에 관한 논문을 발표하여 현대 통계학의 기초를 다졌다.[1][7] 이 논문에서 피어슨은 적합도 검정을 제시하고, 카이제곱 통계량의 극한 분포가 카이제곱 분포를 따른다는 것을 증명했다.

피어슨은 먼저 모든 셀에서 기대 빈도가 충분히 큰 알려진 수이고, 모든 관측값이 정규 분포를 따른다고 가정하는 경우를 다루었다. 그는 표본 크기가 커짐에 따라 극한에서 특정 통계량이 자유도 k-1인 카이제곱 분포를 따른다는 결론에 도달했다.

그러나 피어슨은 다음으로, 기대 빈도가 표본에서 추정해야 하는 매개변수에 의존하는 경우를 고려했다. 그는 실제 기대 빈도와 추정된 기대 빈도를 구분하는 표기법을 사용했고, 추정된 기대 빈도를 사용하더라도 특정 통계량을 자유도 k-1인 카이제곱 분포로 간주할 때 발생하는 오차가 실제 결정에 큰 영향을 미치지 않을 것이라고 주장했다. 이 결론은 실제 응용 분야에서 논란을 일으켰고, 1922년과 1924년에 발표된 로널드 피셔의 논문이 나오기 전까지 20년 동안 해결되지 않았다.[8][9]

3. 검정 유형

카이제곱 검정에는 크게 동질성 검정과 독립성 검정 두 가지 유형이 있다.[18]


  • 동질성 검정: 모집단의 표본이 그 모집단을 대표하는지 검증한다.
  • 독립성 검정: 두 개 이상의 변인이 서로 상관없이 독립적인지 확인한다.


피어슨의 카이제곱 검정은 카이제곱 검정 중 가장 기본적이고 널리 사용되는 방법으로, "관찰된 사건의 상대적 빈도가 어떤 빈도 분포를 따른다"는 귀무 가설을 검정하는 비모수 검정이다.[17]

표본 공간이 유한 개의 상호 배타적인 사건의 합이라고 가정한다(예: "주사위의 눈", "어떤 사람이 남자인가 여자인가" 등). 카이제곱 검정 통계량은 각 사건에 대한 빈도의 관측값과 이론값의 차이의 제곱을 이론값으로 나눈 값의 총합이다.

: \chi^2 = \sum {(O - E)^2 \over E}

(단, ''O'' = 빈도의 관측값, ''E'' = 귀무 가설 하에서의 빈도의 기대값(이론값))

카이제곱 계산값은 확률 분포가 이항 분포 또는 정규 분포를 따르는 집단에 관해서 정확하게 카이제곱 분포를 따른다. 기대값이 이항 분포:

: E =^d \mbox{Bin}(n,p)

(단, ''p'' = 귀무 가설 하에서의 확률, ''n'' = 표본의 관측값)

를 따르는 경우, 카이제곱은 자유도 1의 카이제곱 분포를 따른다. 또한 이 이항 분포는 표본 크기가 큰 경우에는 다음과 같은 정규 분포로 근사할 수 있다.

: \mbox{Bin}(n,p) \approx^d \mbox{N}(np, np(1-p))

표준 정규 분포를 따르는 k개의 변수 Z로부터 각 제곱의 합을 구하면, 자유도 k의 카이제곱 분포:

: \sum_{i=1}^k Z^2_i =^d \chi^2_k

를 따른다.

그러나 일반적인 빈도 분포에서도 카이제곱은 "근사적으로" 카이제곱 분포를 따르므로, 카이제곱 검정을 적용할 수 있다. 기대값 E가 작은 경우(표본 크기가 작거나 관측 횟수가 적은 경우), 이항 분포를 정규 분포로 근사하기 어려우므로, 우도비 검정의 하나인 G 검정을 사용하는 것이 더 적절하다. 표본 크기가 작은 경우에는 이항 검정, 2x2 분할표로 표시되는 경우에는 피셔의 정확 검정을 사용할 필요가 있다.

3. 1. 동질성 검정

동질성 검정은 '변인의 분포가 이항분포나 정규분포와 동일하다'라는 가설을 설정한다. 이는 어떤 모집단의 표본이 그 모집단을 대표하고 있는지를 검증하는 데 사용한다.[18] 예를 들어, 서로 다른 지역의 유권자들이 특정 정당을 지지하는 비율이 같은지 비교할 때 사용할 수 있다.

관측된 도수분포가 이론 분포와 같은지 검정한다. 예를 들어 표본으로 100명의 사람이 있는 경우, "남자와 여자가 '''동수만'''큼 있는 집단에서 무작위로 추출된 100명이다"라는 가설을 검정하려면, 남녀 인원의 관측 도수와 기대 도수를 비교하면 된다. 관측값이 남자 45명, 여자 55명이라면, 다음과 같이 계산한다.

i속성 Si관측 도수 νi기대 확률 pi기대 도수 npiinpi)2/npi
1남성451/25025/50
2여성551/25025/50
n = 1001100χ2 = 1



: \chi^2 = \sum_i \frac{(\nu_i - np_i)^2}{np_i} = {(45 - 50)^2 \over 50} + {(55 - 50)^2 \over 50} = 1

이 경우의 자유도는 1이다 (2개의 관측값과 이론값의 차이는, 한쪽을 결정하면 다른 쪽도 자동적으로 결정되기 때문이다). 그래서 자유도 1의 카이제곱 분포를 보면, 남녀 인원이 같은 경우에 이러한 차이 (및 여자가 더 많아지는 경우)가 발견될 확률은 대략 0.32이다. 이 확률은 보통 사용되는 통계적 유의 수준 ( α = 0.05, 0.01 등)보다 높기 때문에, "남녀 인원이 같다"라는 귀무 가설을 기각할 이유가 없다.

3. 2. 독립성 검정

독립성 검정은 변인이 두 개 이상일 때 사용되며, 기대빈도는 '두 변인이 서로 상관이 없고 독립적'이라고 기대하는 것을 의미하며 관찰빈도와의 차이를 통해 기대빈도의 진위 여부를 밝힌다.[18] 두 변수에 대한 두 관찰(2x2 분할표)이 서로 독립인지 검정한다. 예를 들어, "다른 지역의 사람들에 대해, 선거에서 특정 후보를 지지하는 빈도가 다른가"를 검정하는 방법이다.

4. 기본 가정

카이제곱 검정을 적용하기 위해서는 다음과 같은 기본 가정을 만족해야 한다.


  • 변인의 제한: 종속변인이 명목변인에 의한 질적변인이거나 범주변인이어야 한다.
  • 무선표집: 표본이 모집단에서 무선으로 추출되어야 한다.
  • 기대빈도의 크기: 각 범주에 포함될 것으로 기대되는 빈도인 기대빈도가 5 이상이어야 한다. 5보다 적으면 사례 수를 증가시켜야 한다.
  • 관찰의 독립: 각 칸에 있는 빈도는 다른 칸의 사례와 상관없이 독립적이어야 한다.

5. 피어슨의 카이제곱 검정

피어슨의 카이제곱 검정은 카이제곱 검정 중 가장 기본적이고 널리 사용되는 방법으로, "관찰된 사건의 상대적 빈도가 어떤 빈도 분포를 따른다"는 귀무 가설을 검정하는 것이다.[17] 이 방법은 비모수 검정에 해당한다.

표본 공간이 유한 개의 상호 배타적인 사건의 합이라고 가정한다(예: "주사위의 눈", "어떤 사람이 남자인가 여자인가" 등). 카이제곱 검정 통계량은 각 사건에 대한 빈도의 관측값과 이론값의 차이의 제곱을 이론값으로 나눈 값의 총합이다.

: \chi^2 = \sum {(O - E)^2 \over E}

(단, 여기서 ''O'' = 빈도의 관측값, ''E'' = 귀무 가설 하에서의 빈도의 기대값(이론값)이다.)

피어슨의 카이제곱 검정은 '''적합도 검정''' 및 '''독립성 검정''' 두 가지 유형의 비교에 사용된다.


  • '''적합도 검정''': 관측된 도수분포가 이론 분포와 같은지 검정한다. 예를 들어, 표본으로 100명의 사람이 있는 경우, "남자와 여자가 '''동수만'''큼 있는 집단에서 무작위로 추출된 100명이다"라는 가설을 검정하려면, 남녀 인원의 관측 도수와 기대 도수를 비교하면 된다. 관측값이 남자 45명, 여자 55명이라면, 다음과 같이 계산할 수 있다.


i속성 Si관측 도수 νi기대 확률 pi기대 도수 npiinpi)2/npi
1남성451/25025/50
2여성551/25025/50
n = 1001100χ2 = 1



: \chi^2 = \sum_i \frac{(\nu_i - np_i)^2}{np_i} = {(45 - 50)^2 \over 50} + {(55 - 50)^2 \over 50} = 1

이 경우 자유도는 1이다 (2개의 관측값과 이론값의 차이는, 한쪽을 결정하면 다른 쪽도 자동적으로 결정되기 때문이다). 그래서 자유도 1의 카이제곱 분포를 보면, 남녀 인원이 같은 경우에 이러한 차이 (및 여자가 더 많아지는 경우)가 발견될 확률은 대략 0.32이다. 이 확률은 보통 사용되는 통계적 유의 수준( α = 0.05, 0.01 등)보다 높기 때문에, "남녀 인원이 같다"라는 귀무 가설을 기각할 이유가 없다.


  • '''독립성 검정''': 두 변수에 대한 두 관찰(2x2 분할표)이 서로 독립인지 검정한다. 예를 들어, "다른 지역의 사람들에 대해, 선거에서 특정 후보를 지지하는 빈도가 다른가"를 검정하는 방법이다.


카이제곱 계산값은 확률 분포가 이항 분포 또는 정규 분포를 따르는 집단에 관해서 정확하게 카이제곱 분포를 따른다.

기대값이 이항 분포:

: E =^d \mbox{Bin}(n,p)

(단, 여기서 ''p'' = 귀무 가설 하에서의 확률, ''n'' = 표본의 관측값)

를 따르는 경우, 카이제곱은 자유도 1의 카이제곱 분포를 따른다. 또한 이 이항 분포는 표본 크기가 큰 경우에는 다음과 같은 정규 분포로 근사할 수 있다.

: \mbox{Bin}(n,p) \approx^d \mbox{N}(np, np(1-p))

표준 정규 분포를 따르는 k개의 변수 Z로부터 각 제곱의 합을 구하면, 자유도 k의 카이제곱 분포:

: \sum_{i=1}^k Z^2_i =^d \chi^2_k

를 따른다.

그러나 일반적인 빈도 분포에서도 카이제곱은 "근사적으로" 카이제곱 분포를 따르므로, 카이제곱 검정을 적용할 수 있다. 기대값 E가 작은 경우(표본 크기가 작거나 관측 횟수가 적은 경우), 이항 분포를 정규 분포로 잘 근사할 수 없으므로, 이 경우에는 우도비 검정의 하나인 G 검정을 사용하는 것이 더 적절하다. 표본 크기가 작은 경우에는 이항 검정, 더욱이 2x2 분할표로 표시되는 경우에는 피셔의 정확 검정을 사용할 필요가 있다.

6. 예시

어떤 도시에 A, B, C, D 네 개의 구역이 있고, 총 거주 인구는 1,000,000명이다. 이 도시의 거주자 중 무작위로 650명을 표본 추출하여 직업을 화이트칼라, 블루칼라 또는 무직으로 기록했다. 귀무 가설은 각 거주자의 거주 구역과 직업 분류가 서로 독립적이라는 것이다.

ABCD합계
화이트칼라906010495349
블루칼라30505120151
무직30404535150
합계150150200150650



구역 A에 거주하는 표본 150명을 가지고, 전체 1,000,000명 중 구역 A에 거주하는 비율을 추정한다. 마찬가지로 전체 표본 650명 중 화이트칼라 노동자가 349명이라는 사실을 이용하여, 1,000,000명 중 화이트칼라 노동자의 비율을 추정한다. 가설 하에서 독립성을 가정하면 구역 A의 화이트칼라 노동자 수를 다음과 같이 "예상"할 수 있다.

:150 × (349 / 650) ≈ 80.54

그런 다음 테이블의 해당 "셀"에서 다음과 같이 계산한다.

:(관측값 - 기대값)2 / 기대값 = (90 - 80.54)2 / 80.54 ≈ 1.11

모든 셀에 대한 이러한 값의 합계가 검정 통계량이다. 이 경우, ≈ 24.57이다. 귀무 가설 하에서, 이 합계는 자유도가 다음과 같은 근사적인 카이제곱 분포를 따른다.

:(행의 수 - 1) × (열의 수 - 1) = (3 - 1) × (4 - 1) = 6

검정 통계량이 해당 카이제곱 분포에 따라 비정상적으로 크면 독립에 대한 귀무 가설을 기각한다. 여기에서 카이제곱 값은 24.57로, 매우 크므로 귀무 가설(H0)을 기각할 증거가 있다. 이는 각 거주자의 거주 구역이 해당 거주자의 직업 분류와 관련이 있음을 의미한다.

7. 연속성 보정 (예이츠 보정)

프랭크 예이츠는 분할표에서 각 관측값과 기대값 간의 절대 차이에서 0.5를 빼서 피어슨의 카이제곱 검정 공식을 조정하는 연속성 보정을 제안했다.[10] 이렇게 하면 얻은 카이제곱 값이 감소하고 따라서 해당 p-값을 증가시킨다.

이는 카이제곱 분포를 사용하여 피어슨 카이제곱 통계량을 해석할 때, 표에 관측된 이항 분포 빈도의 이산 확률 분포가 연속적인 카이제곱 분포로 근사될 수 있다고 가정하는데, 이 가정이 완전히 정확하지 않아 발생하는 오류를 줄이기 위함이다.

예를 들어 "다른 지역의 사람들에 대해, 선거에서 특정 후보를 지지하는 빈도가 다른가"와 같이, 두 변수에 대한 두 관찰(2x2 분할표)이 서로 독립인지 검정하는 데 사용된다.

기대값이 이항 분포를 따르는 경우, 카이제곱은 자유도 1의 카이제곱 분포를 따른다. 표본 크기가 큰 경우에는 이항 분포를 정규 분포로 근사할 수 있지만, 기대값이 작은 경우(표본 크기가 작거나 관측 횟수가 적은 경우)에는 이항 분포를 정규 분포로 잘 근사할 수 없다. 이 경우에는 우도비 검정의 하나인 G 검정을 사용하는 것이 더 적절하며, 표본 크기가 작은 경우에는 이항 검정, 2x2 분할표로 표시되는 경우에는 피셔의 정확 검정을 사용할 필요가 있다.

8. 기타 카이제곱 검정


  • 코크란-만텔-핸젤 카이제곱 검정
  • 맥네마 검정, 특정 2 × 2 테이블에서 짝을 이루어 사용
  • 터키의 가법성 검정
  • 시계열 분석에서의 포트먼토 검정, 자기상관의 존재를 검정
  • 일반적인 통계 모형에서의 우도비 검정, 단순한 모형에서 더 복잡한 모형으로 이동해야 할 증거가 있는지 검정하는 데 사용 (단순 모형은 복잡한 모형 안에 중첩됨)

9. 응용 분야

암호 분석에서 카이제곱 검정은 평문과 (아마도) 해독된 암호문의 분포를 비교하는 데 사용된다. 검정 값이 가장 낮다는 것은 높은 확률로 해독이 성공했음을 의미한다.[11][12] 이 방법은 현대 암호 문제를 해결하는 데 일반화될 수 있다.[13]

생물 정보학에서 카이제곱 검정은 서로 다른 범주(예: 질병 유전자, 필수 유전자, 특정 염색체상의 유전자 등)에 속하는 유전자의 특정 속성(예: 유전체 내용, 돌연변이율, 상호 작용 네트워크 클러스터링 등)의 분포를 비교하는 데 사용된다.[14][15]

참조

[1] 웹사이트 Chi-Square - Sociology 3112 - Department of Sociology - The University of utah https://soc.utah.edu[...] 2022-11-12
[2] 간행물 On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling https://www.tandfonl[...]
[3] 간행물 Contributions to the mathematical theory of evolution [abstract]
[4] 간행물 Contributions to the mathematical theory of evolution, II: Skew variation in homogeneous material https://zenodo.org/r[...]
[5] 간행물 Mathematical contributions to the theory of evolution, X: Supplement to a memoir on skew variation
[6] 간행물 Mathematical contributions to the theory of evolution, XIX: Second supplement to a memoir on skew variation
[7] 간행물 The Chi-square Test of Goodness of Fit
[8] 간행물 On the Interpretation of {{math|χ2}} from Contingency Tables, and the Calculation of P
[9] 간행물 The Conditions Under Which {{math|χ2}} Measures the Discrepancey Between Observation and Hypothesis
[10] 간행물 Contingency table involving small numbers and the {{math|χ2}} test 1934
[11] 웹사이트 Chi-squared Statistic http://practicalcryp[...] 2015-02-18
[12] 웹사이트 Using Chi Squared to Crack Codes http://ibmathsresour[...] British International School Phuket 2014-06-15
[13] 간행물 A new test for randomness and its application to some cryptographic problems http://boris.ryabko.[...] 2015-02-18
[14] 간행물 Network properties of genes harboring inherited disease mutations 2008
[15] 웹사이트 chi-square-tests https://visa.pharmac[...] 2018-06-29
[16] 문서 JIS Z 8101
[17] 문서 伏見康治
[18] 서적 기초통계학 학지사



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com