맨위로가기

카이제곱 분포

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

카이제곱 분포는 독립적인 표준 정규 분포 확률 변수들의 제곱 합으로 정의되는 확률 분포이다. 이 분포는 양의 정수 k를 매개변수로 가지며, k는 자유도를 나타낸다. 카이제곱 분포는 확률 밀도 함수, 누적 분포 함수, 비대칭도, 첨도 등 다양한 성질을 가지며, 독립성 검정, 우도비 검정 등 가설 검정에 널리 사용된다. 또한, 스튜던트 t-분포 및 F-분포 정의의 구성 요소이기도 하다. 카이제곱 분포는 정규 분포에 근사하며, 통계학에서 카이제곱 검정, 분산 추정 등에 응용된다. 이 분포는 1875~6년에 헬메르트에 의해 처음 기술되었고, 1900년 피어슨에 의해 독립적으로 재발견되었으며, 피어슨의 카이제곱 검정 개발에 기여했다.

2. 정의

양의 정수 k가 주어졌다고 하고, k개의 독립적이고 표준정규분포를 따르는 확률변수 X_1, \cdots, X_k를 정의하자.

그렇다면 '''자유도 ''k''의 카이제곱 분포'''는 확률변수

:Q = \sum_{i=1}^{k} X_i^2

의 분포이다. 즉,

:Q\sim\chi^2_k

이다.

만약 Z_1, \cdots, Z_k독립이며, 표준 정규 분포를 따르는 확률 변수라면, 이들의 제곱의 합,

:Q\ = \sum_{i=1}^k Z_i^2,

은 자유도가 k인 카이제곱 분포를 따른다. 이는 일반적으로 다음과 같이 표기한다.

: Q\ \sim\ \chi^2(k)\ \ \text{또는}\ \ Q\ \sim\ \chi^2_k.

카이제곱 분포는 하나의 매개변수를 갖는데, 이는 양의 정수인 k로, 자유도 (합산되는 확률 변수의 개수, Z_i 들)를 지정한다.

3. 성질

카이제곱 분포의 확률밀도함수는 다음과 같다.

:f(x;\,k) = \frac{1}{2^{k/2}\Gamma(k/2)}\,x^{k/2 - 1} e^{-x/2}\, \mathbf{1}_{\{x\geq0\}}

여기에서 \Gamma(k/2)감마 함수이다.

누적분포함수는 다음과 같다.

:F(x;\,k) = \frac{\gamma(k/2,\,x/2)}{\Gamma(k/2)} = P(k/2,\,x/2)

여기에서 \gamma(s,x)는 하부 불완전 감마 함수이다.

만약 Z_i독립이며, 표준 정규 분포를 따르는 확률 변수라면, 이들의 제곱의 합은 다음과 같다.

:Q\ = \sum_{i=1}^k Z_i^2,

이는 자유도가 k인 카이제곱 분포를 따르며, 일반적으로 다음과 같이 표기한다.

: Q\ \sim\ \chi^2(k)\ \ \text{또는}\ \ Q\ \sim\ \chi^2_k.

카이제곱 분포는 하나의 매개변수를 갖는데, 이는 양의 정수인 k로, 자유도 (합산되는 확률 변수의 개수, Z_i 들)를 지정한다.

카이제곱 분포는 주로 가설 검정에 사용되며, 기초 분포가 정규 분포일 때 모집단 분산에 대한 신뢰 구간에는 덜 사용된다. 정규 분포지수 분포와 같이 널리 알려진 분포와 달리, 카이제곱 분포는 자연 현상의 직접적인 모델링에 자주 적용되지 않는다. 다음과 같은 가설 검정에서 나타난다.


  • 독립성에 대한 카이제곱 검정 (분할표)
  • 관측 데이터의 가설적 분포에 대한 적합도에 대한 카이제곱 검정
  • 우도비 검정 (내포 모형)
  • 로그 순위 검정 (생존 분석)
  • 코크란-만텔-헨젤 검정 (층화 분할표)
  • Wald 검정
  • Score 검정


또한, ''t''-검정, 분산 분석 및 회귀 분석에 사용되는 ''t''-분포 및 ''F''-분포 정의의 구성 요소이기도 하다.

카이제곱 분포가 가설 검정에 광범위하게 사용되는 주요 이유는 정규 분포와의 관계 때문이다. 많은 가설 검정은 ''t''-검정의 ''t''-통계량과 같은 검정 통계량을 사용한다. 이러한 가설 검정에서 표본 크기 n이 증가함에 따라 검정 통계량의 표집 분포는 정규 분포에 접근한다(중심 극한 정리). 검정 통계량은 표본 크기가 충분히 클 경우 점근적으로 정규 분포를 따르므로 가설 검정에 사용되는 분포는 정규 분포로 근사될 수 있다. 정규 분포를 사용한 가설 검정은 잘 이해되어 있고 비교적 쉽다. 가장 간단한 카이제곱 분포는 표준 정규 분포의 제곱이다. 따라서 정규 분포를 가설 검정에 사용할 수 있는 곳이면 어디든지 카이제곱 분포를 사용할 수 있다.

Z가 평균이 0이고 분산이 1인 표준 정규 분포에서 추출된 확률 변수라고 가정하면, Z \sim N(0,1)이다. 이제 확률 변수 Q = Z^2을 고려하면, 확률 변수 Q의 분포는 카이제곱 분포의 예가 된다. Q\ \sim\ \chi^2_1. 아래첨자 1은 이 특정 카이제곱 분포가 단 하나의 표준 정규 분포에서 구성되었음을 나타낸다. 단일 표준 정규 분포를 제곱하여 구성된 카이제곱 분포는 자유도가 1이라고 한다. 따라서 가설 검정의 표본 크기가 증가함에 따라 검정 통계량의 분포는 정규 분포에 접근한다. 정규 분포의 극단적인 값은 낮은 확률을 가지므로(작은 p-값을 제공) 카이제곱 분포의 극단적인 값도 낮은 확률을 갖는다.

카이제곱 분포가 널리 사용되는 또 다른 이유는 일반화된 우도비 검정(LRT)의 대규모 표본 분포로 나타나기 때문이다.[8] LRT는 몇 가지 바람직한 속성을 가지고 있다. 특히 간단한 LRT는 일반적으로 귀무 가설을 기각하는 가장 높은 검정력을 제공하며(네이만-피어슨 보조 정리) 이는 일반화된 LRT의 최적성 속성으로 이어진다. 그러나 정규 및 카이제곱 근사는 점근적으로만 유효하다. 이러한 이유로, 작은 표본 크기에는 정규 근사 또는 카이제곱 근사 대신 ''t''-분포를 사용하는 것이 좋다. 마찬가지로, 분할표 분석에서 카이제곱 근사는 작은 표본 크기에 대해 부적절하므로 피셔의 정확 검정을 사용하는 것이 좋다. Ramsey는 정확한 이항 검정이 항상 정규 근사보다 더 강력하다는 것을 보여준다.[9]

Lancaster는 다음과 같이 이항, 정규 및 카이제곱 분포 간의 관계를 보여준다.[10] 드 무아브르와 라플라스는 이항 분포가 정규 분포로 근사될 수 있음을 확립했다. 특히, 그들은 다음 확률 변수의 점근적 정규성을 보여주었다.

: \chi = {m - Np \over \sqrt{Npq}}

여기서 mN번의 시행에서 관측된 성공 횟수이며, 성공 확률은 p이고, q = 1 - p이다.

방정식의 양변을 제곱하면 다음을 얻는다.

: \chi^2 = {(m - Np)^2\over Npq}

N = Np + N(1 - p), N = m + (N - m)q = 1 - p를 사용하면 이 방정식은 다음과 같이 다시 쓸 수 있다.

: \chi^2 = {(m - Np)^2\over Np} + {(N - m - Nq)^2\over Nq}

오른쪽의 표현식은 칼 피어슨이 다음과 같은 형태로 일반화할 형태이다.

: \chi^2 = \sum_{i=1}^n \frac{(O_i - E_i)^2}{E_i}

여기서

: \chi^2 = 피어슨의 누적 검정 통계량으로, 점근적으로 \chi^2 분포에 접근한다.

:O_i = 유형 i의 관측 횟수

:E_i = N p_i = 유형 i의 기대 (이론적) 빈도이며, 모집단에서 유형 i의 비율이 p_i라는 귀무 가설에서 주장한다.

:n = 표의 셀 수.

이항 결과(동전 던지기)의 경우 이항 분포는 정규 분포로 근사될 수 있다(충분히 큰 n의 경우). 표준 정규 분포의 제곱은 자유도가 1인 카이제곱 분포이므로 10번의 시행에서 1개의 앞면과 같은 결과의 확률은 정규 분포를 직접 사용하거나, 관측값과 예상 값 간의 정규화된 제곱 차이에 대한 카이제곱 분포를 사용하여 근사할 수 있다. 그러나 많은 문제는 이항의 두 가지 가능한 결과보다 더 많은 것을 포함하고 3개 이상의 범주가 필요한데, 이는 다항 분포로 이어진다. 드 무아브르와 라플라스가 이항 분포에 대한 정규 근사를 찾고 발견했듯이, 피어슨은 다항 분포에 대한 축퇴된 다변량 정규 근사를 찾고 발견했다(각 범주의 숫자는 총 표본 크기까지 합산되며, 이는 고정된 것으로 간주됩니다). 피어슨은 카이제곱 분포가 다항 분포에 대한 그러한 다변량 정규 근사에서 발생했으며, 다른 범주의 관측 횟수 간의 통계적 종속성(음의 상관 관계)을 신중하게 고려했음을 보여주었다.[10]

카이제곱 분포의 확률 밀도 함수 (pdf)는 다음과 같다.

:

f(x;\,k) =

\begin{cases}

\dfrac{x^{k/2 -1} e^{-x/2}}{2^{k/2} \Gamma\left(\frac k 2 \right)}, & x > 0; \\ 0, & \text{otherwise}.

\end{cases}



여기서 \Gamma(k/2)감마 함수를 나타내며, 정수 k에 대해 닫힌 형식의 값을 갖는다.

자유도 1, 2, k의 경우 pdf 유도는 카이제곱 분포 관련 증명을 참조하라.

400px


이의 누적 분포 함수는 다음과 같다.

:

F(x;\,k) = \frac{\gamma(\frac{k}{2},\,\frac{x}{2})}{\Gamma(\frac{k}{2})} = P\left(\frac{k}{2},\,\frac{x}{2}\right),



여기서 \gamma(s,t)는 불완전 감마 함수이고 P(s,t)는 정규화 감마 함수이다.

k = 2의 특수한 경우 이 함수는 다음과 같은 간단한 형태를 갖는다.

:

F(x;\,2) = 1 - e^{-x/2}



이는 f(x;\,2)=\frac{1}{2}e^{-x/2}를 직접 적분하여 쉽게 유도할 수 있다. 감마 함수의 정수 재귀는 다른 작은 짝수 k에 대해 F(x;\,k)를 쉽게 계산할 수 있게 한다.

카이제곱 누적 분포 함수의 표는 널리 사용 가능하며, 이 함수는 많은 스프레드시트와 모든 통계 패키지에 포함되어 있다.

z \equiv x/k로 놓고, CDF의 하꼬리와 상꼬리에 대한 체르노프 경계를 얻을 수 있다.[11] 0 < z < 1인 경우(이 CDF가 절반 미만인 모든 경우 포함)에 대해 다음이 성립한다.

: F(z k;\,k) \leq (z e^{1-z})^{k/2}.

마찬가지로, z > 1인 경우에 대한 꼬리 경계는 다음과 같다.

:

1-F(z k;\,k) \leq (z e^{1-z})^{k/2}.



가우시안의 세제곱을 모델로 한 CDF에 대한 또 다른 근사는 비중심 카이제곱 분포에서 참조할 수 있다.

n개의 독립 동일 분포(i.i.d.)인 자유도 k의 카이제곱 변수의 표본 평균은 다음과 같은 형상 \alpha와 척도 \theta 매개변수를 가진 감마 분포를 따른다.

: \overline X = \frac{1}{n} \sum_{i=1}^n X_i \sim \operatorname{Gamma}\left(\alpha=n\, k /2, \theta= 2/n \right) \qquad \text{where } X_i \sim \chi^2(k)

점근적으로, 형상 매개변수 \alpha 가 무한대로 갈 때 감마 분포는 기댓값 \mu = \alpha\cdot \theta 와 분산 \sigma^2 = \alpha\, \theta^2 을 갖는 정규 분포로 수렴한다는 점을 고려하면, 표본 평균은 다음과 같이 수렴한다.

\overline X \xrightarrow{n \to \infty} N(\mu = k, \sigma^2 = 2\, k /n )

각 자유도 k의 카이제곱 변수에 대해 기댓값이 k 이고 분산이 2\,k (따라서 표본 평균 \overline{X}의 분산은 \sigma^2 = \frac{2k}{n} )임을 주목하여 중심 극한 정리를 대신 적용해도 동일한 결과를 얻을 수 있다.

미분 엔트로피는 다음과 같이 주어진다.

:

h = \int_{0}^\infty f(x;\,k)\ln f(x;\,k) \, dx

= \frac k 2 + \ln \left[2\,\Gamma \left(\frac k 2 \right)\right] + \left(1-\frac k 2 \right)\, \psi\!\left(\frac k 2 \right),



여기서 \psi(x)디감마 함수이다.

카이제곱 분포는 \operatorname{E}(X)=k\operatorname{E}(\ln(X))=\psi(k/2)+\ln(2)가 고정된 확률 변수 X에 대한 최대 엔트로피 확률 분포이다. 카이제곱 분포는 감마 분포군에 속하므로, 감마 분포의 로그 모멘트의 기댓값에 적절한 값을 대입하여 도출할 수 있다. 더 기본적인 원리로부터의 유도는 충분 통계량의 모멘트 생성 함수의 유도를 참조하라.

카이제곱 분포의 비중심 모멘트(원점 모멘트)는 자유도 k에 대해 다음과 같이 나타낸다.[12][13]

:

\operatorname{E}(X^m) = k (k+2) (k+4) \cdots (k+2m-2) = 2^m \frac{\Gamma\left(m+\frac{k}{2}\right)}{\Gamma\left(\frac{k}{2}\right)}.



누적률은 특성 함수의 로그를 멱급수로 전개하여 쉽게 구할 수 있다.

:\kappa_n = 2^{n-1}(n-1)!\,k

카이제곱 분포는 평균 주위에 강한 집중 현상을 보인다. 표준 로랑-마사르[14] 경계는 다음과 같다.

:\operatorname{P}(X - k \ge 2 \sqrt{k x} + 2x) \le \exp(-x)

:\operatorname{P}(k - X \ge 2 \sqrt{k x}) \le \exp(-x)

이러한 결과 중 하나는 만약 v \sim N(0, 1)^n\R^n에서 가우시안 확률 벡터라면, 차원 n이 커짐에 따라 벡터의 제곱 길이는 n^{1/2 + \alpha} 너비로 n 주위에 밀집된다는 것이다.

Pr(\|v\|^2 \in [n - 2n^{1/2+\alpha}, n + 2n^{1/2+\alpha} + 2n^{\alpha}]) \geq 1-e^{-n^\alpha}

여기서 지수 \alpha(0, 1/2) 범위의 임의의 값으로 선택할 수 있다.

중앙값에 대한 근사 공식 (Wilson–Hilferty 변환에서 가져옴)은 수치적 분위수와 비교 (위); 수치적 분위수와 근사 공식 간의 차이(파란색)와 상대적 차이(빨간색) (아래). 카이제곱 분포의 경우, 자유도의 양의 정수 (원)만 의미가 있다.


중심 극한 정리에 따르면, 카이제곱 분포는 유한한 평균과 분산을 갖는 k개의 독립적인 확률 변수의 합이므로, 큰 k에 대해 정규 분포로 수렴한다. 많은 실용적인 목적을 위해 k>50일 때, 분포는 정규 분포에 충분히 가까워 차이를 무시할 수 있다.[15] 구체적으로, X \sim \chi^2(k)이면, k가 무한대로 갈 때, (X-k)/\sqrt{2k}의 분포는 표준 정규 분포로 수렴한다. 그러나 왜도\sqrt{8/k}이고 초과 첨도가 12/k이므로 수렴 속도는 느리다.

\ln(\chi^2)의 표본 분포는 \chi^2의 표본 분포보다 훨씬 빠르게 정규성에 수렴한다.[16] 로그 변환이 비대칭성을 많이 제거하기 때문이다.[17]

카이제곱 분포의 다른 함수는 정규 분포에 더 빠르게 수렴한다. 몇 가지 예는 다음과 같다.

  • X \sim \chi^2(k)이면 \sqrt{2X}는 평균이 \sqrt{2k-1}이고 분산이 1인(1922, R. A. 피셔에 의함, Johnson의 (18.23), p. 426 참조[5]) 근사적으로 정규 분포를 따른다.
  • X \sim \chi^2(k)이면 \sqrt[3]{X/k}는 평균이 1-\frac{2}{9k}이고 분산이 \frac{2}{9k} .[18]인 근사적으로 정규 분포를 따른다. 이는 '''Wilson–Hilferty 변환'''으로 알려져 있으며, Johnson의 (18.24), p. 426을 참조하라.[5]
  • * 이 정규화 변환은 정규 분포의 평균, 즉 중앙값으로부터 역변환하여 일반적으로 사용되는 중앙값 근사 k\bigg(1-\frac{2}{9k}\bigg)^3\;로 직접 이어진다.

  • k\to\infty일 때, (\chi^2_k-k)/\sqrt{2k} ~ \xrightarrow{d}\ N(0,1) \, (정규 분포)
  • \chi_k^2 \sim {\chi'}^2_k(0) (비중심 카이제곱 분포, 비중심 모수 \lambda = 0 을 가짐)
  • 만약 Y \sim \mathrm{F}(\nu_1, \nu_2)이면, X = \lim_{\nu_2 \to \infty} \nu_1 Y는 카이제곱 분포 \chi^2_{\nu_{1}}를 따른다.

:*특별한 경우로, 만약 Y \sim \mathrm{F}(1, \nu_2)\,이면, X = \lim_{\nu_2 \to \infty} Y\,는 카이제곱 분포 \chi^2_{1}를 따른다.

  • \|\boldsymbol{N}_{i=1,\ldots,k} (0,1) \|^2 \sim \chi^2_k (''k''개의 표준 정규 분포 변수의 노름의 제곱은 자유도 ''k''를 갖는 카이제곱 분포를 따른다.)
  • 만약 X \sim \chi^2_\nu\,이고 c>0 \,이면, cX \sim \Gamma(k=\nu/2, \theta=2c)\,. (감마 분포)
  • 만약 X \sim \chi^2_k이면, \sqrt{X} \sim \chi_k (카이 분포)
  • 만약 X \sim \chi^2_2이면, X \sim \operatorname{Exp}(1/2)지수 분포이다. (더 자세한 내용은 감마 분포를 참고할 것.)
  • 만약 X \sim \chi^2_{2k}이면, X \sim \operatorname{Erlang}(k, 1/2)는 얼랑 분포이다.
  • 만약 X \sim \operatorname{Erlang}(k,\lambda)이면, 2\lambda X\sim \chi^2_{2k}
  • 만약 X \sim \operatorname{Rayleigh}(1)\, (레일리 분포)이면, X^2 \sim \chi^2_2\,
  • 만약 X \sim \operatorname{Maxwell}(1)\, (맥스웰 분포)이면, X^2 \sim \chi^2_3\,
  • 만약 X \sim \chi^2_\nu이면, \tfrac{1}{X} \sim \operatorname{Inv-}\chi^2_\nu\, (역 카이제곱 분포)
  • 카이제곱 분포는 유형 III 피어슨 분포의 특수한 경우이다.
  • 만약 X \sim \chi^2_{\nu_1}\,이고 Y \sim \chi^2_{\nu_2}\,가 독립적이면, \tfrac{X}{X+Y} \sim \operatorname{Beta}(\tfrac{\nu_1}{2}, \tfrac{\nu_2}{2})\, (베타 분포)
  • 만약 X \sim \operatorname{U}(0,1)\, (균일 분포)이면, -2\log(X) \sim \chi^2_2\,
  • 만약 X_i \sim \operatorname{Laplace}(\mu,\beta)\,이면, \sum_{i=1}^n \frac{2 |X_i-\mu|}{\beta} \sim \chi^2_{2n}\,
  • 만약 X_i가 매개변수 \mu,\alpha,\beta를 갖는 일반화된 정규 분포 (버전 1)를 따른다면, \sum_{i=1}^n \frac{2 |X_i-\mu|^\beta}{\alpha} \sim \chi^2_{2n/\beta}\, [19]
  • 카이제곱 분포는 파레토 분포의 변환이다.
  • 스튜던트 t-분포는 카이제곱 분포의 변환이다.
  • 스튜던트 t-분포는 카이제곱 분포와 정규 분포로부터 얻을 수 있다.
  • 비중심 베타 분포는 카이제곱 분포와 비중심 카이제곱 분포의 변환으로 얻을 수 있다.
  • 비중심 t-분포는 정규 분포와 카이제곱 분포로부터 얻을 수 있다.


자유도가 k인 카이제곱 변수는 k개의 독립적인 표준 정규 분포 확률 변수의 제곱의 합으로 정의된다.

만약 Y가 평균 벡터 \mu와 랭크 k 공분산 행렬 C를 갖는 k-차원 가우시안 확률 벡터라면, X = (Y-\mu )^{T}C^{-1}(Y-\mu)는 자유도 k를 갖는 카이제곱 분포를 따른다.

평균이 0이 아닌 통계적으로 독립적인 단위-분산 가우시안 변수의 제곱의 합은 비중심 카이제곱 분포라고 불리는 카이제곱 분포의 일반화를 생성한다.

만약 Yk개의 i.i.d. 표준 정규 확률 변수의 벡터이고 A가 대칭형이며 멱등 행렬이고 랭크가 k-nk\times k 행렬이라면, 2차 형식 Y^TAY는 자유도 k-n를 갖는 카이제곱 분포를 따른다.

만약 \Sigma가 대각선 성분이 엄격하게 양수인 p\times p 반정부호 공분산 행렬이라면, X\sim N(0,\Sigma)이고 wX와 독립적인 랜덤 p-벡터이며 w_1+\cdots+w_p=1이고 w_i\geq 0, i=1,\ldots,p, 이면, 다음이 성립한다.

:\frac{1}{\left(\frac{w_1}{X_1},\ldots,\frac{w_p}{X_p}\right)\Sigma\left(\frac{w_1}{X_1},\ldots,\frac{w_p}{X_p}\right)^\top} \sim \chi_1^2.[17]

카이제곱 분포는 가우시안으로부터 발생하는 다른 분포와도 자연스럽게 관련이 있다. 특히,

  • Y는 F-분포를 따르며, Y \sim F(k_1, k_2) if Y = \frac{ {X_1}/{k_1} }{ {X_2}/{k_2} }, 여기서 X_1 \sim \chi^2_{k_1}이고 X_2 \sim \chi^2_{k_2}는 통계적으로 독립적이다.
  • 만약 X_1 \sim \chi^2_{k_1}이고 X_2 \sim \chi^2_{k_2}가 통계적으로 독립적이면, X_1 + X_2\sim \chi^2_{k_1+k_2}이다. 만약 X_1X_2가 독립적이지 않다면, X_1+X_2는 카이제곱 분포를 따르지 않는다.

카이제곱 분포는 k개의 독립적인, 평균 0, 분산 1인 가우스 확률 변수의 제곱의 합으로 얻어진다. 이 분포의 일반화는 다른 유형의 가우스 확률 변수의 제곱을 합하여 얻을 수 있다. 이러한 분포 중 몇 가지는 다음과 같다.

만약 X_1,\ldots,X_n이 카이제곱 확률 변수이고 a_1,\ldots,a_n\in\mathbb{R}_{>0}이면, X=\sum_{i=1}^n a_i X_i의 분포는 일반화된 카이제곱 분포의 특수한 경우이다.

이 분포에 대한 닫힌 형식의 표현식은 알려져 있지 않다. 그러나 카이제곱 확률 변수의 특성 함수의 성질을 사용하여 효율적으로 근사할 수 있다.[20]

비중심 카이제곱 분포는 단위 분산을 가지는 독립적인 가우시안 확률 변수들의 제곱의 합으로 얻어지며, 이때 각 가우시안 확률 변수들은 "0이 아닌" 평균을 갖는다.

일반화 카이제곱 분포는 임의의 공분산 행렬을 갖는 평균이 0인 가우스 벡터 z와 임의의 행렬 A를 사용한 이차 형식 z'Az로부터 얻어진다.

카이제곱 분포 X \sim \chi_k^2감마 분포의 특수한 경우로, 감마 분포의 비율 모수화(rate parameterization)를 사용하여 X \sim \Gamma \left(\frac{k}2,\frac{1}2\right) (또는 감마 분포의 척도 모수화(scale parameterization)를 사용하여 X \sim \Gamma \left(\frac{k}2,2 \right))와 같다. 여기서 k는 정수이다.

지수 분포 또한 감마 분포의 특수한 경우이므로, X \sim \chi_2^2이면 X\sim \operatorname{Exp}\left(\frac 1 2\right)지수 분포를 따른다.

에를랑 분포 또한 감마 분포의 특수한 경우이므로, X \sim\chi_k^2이고 k가 짝수이면, X는 모양 모수(shape parameter) k/2와 척도 모수(scale parameter) 1/2를 갖는 에를랑 분포를 따른다.

카이제곱 분포의 확률 밀도 함수x \ge 0에 대해 다음을 따른다.

:f(x;k)=\frac{1}{2^{k/2}\Gamma(k/2)} x^{k/2 - 1} e^{-x/2}

또한 x \le 0에 대해 f_k(x) = 0의 형태를 가진다. 여기서 \Gamma감마 함수이다.

누적 분포 함수

:F(x;k)=\frac{\gamma(k/2,x/2)}{\Gamma(k/2)}

(단, \gamma(k, z)불완전 감마 함수)이다.

3. 1. 추가 성질

비대칭도\sqrt{8/k}, 첨도12/k이다. 따라서 k가 충분히 크지 않은 경우 카이제곱 분포를 중심극한정리를 통해 곧바로 정규분포로 근사하는 것은 오차가 많이 발생한다. 그 대신, 다른 방식의 근사 방식이 제안되어 있다.

  • 로널드 피셔\sqrt{2 \chi^2_k}를 정규분포로 근사하는 방법을 제안했다. 이때 평균은 \sqrt{2k-1}, 분산은 1이 된다.
  • \sqrt[3]{\chi^2_k /k}를 정규분포로 근사할 수 있다. 평균은 1-2/(9k), 분산은 2/(9k)가 된다.


Y = \frac{X_1 / \nu_1}{X_2 / \nu_2}(단, X_1 \sim \chi_{\nu_1}^2X_2 \sim \chi_{\nu_2}^2는 카이제곱 분포를 따르는 독립적인 확률 변수)라고 하면, Y \sim \mathrm{F}(\nu_1, \nu_2) 즉, 자유도로 나누어 비를 취하면 F-분포를 따른다.

X \sim \chi_2^2(자유도 2)이면, X는 기대값 2의 지수 분포를 따른다.

자유도 k의 카이제곱 분포를 따르는 확률 변수의 기댓값은 k이고, 분산은 2k이다. 중앙값은 근사적으로

:k-\frac{2}{3}+\frac{4}{27k}-\frac{8}{729k^2}

가 된다.

카이제곱 분포는 재생성을 가진다. 즉, X \sim \chi_m^2, \ Y \sim \chi_n^2이면, X+Y\sim \chi_{m+n}^2이 된다.

3. 2. 코크란의 정리

코크란의 정리(Cochran's theorem영어)는 통계학에서 사용되는 중요한 정리 중 하나로, 특수한 경우에 다음과 같이 적용된다.

'''정리.''' Z_1,...,Z_n독립이고 동일한 분포(i.i.d.)를 따르는 표준 정규 분포 확률 변수일 때,

:\sum_{t=1}^n(Z_t - \bar Z)^2 \sim \chi^2_{n-1}

여기서 \bar Z = \frac{1}{n} \sum_{t=1}^n Z_t이다.

'''증명.''' Z\sim\mathcal{N}(\bar 0,1\!\!1)n개의 독립적인 정규 분포 확률 변수 벡터라고 하고, \bar Z를 이들의 평균이라고 하면, 다음이 성립한다.

:

\sum_{t=1}^n(Z_t-\bar Z)^2 ~=~ \sum_{t=1}^n Z_t^2 -n\bar Z^2 ~=~ Z^\top[1\!\!1 -{\textstyle\frac1n}\bar 1\bar 1^\top]Z ~=:~ Z^\top\!M Z



여기서 1\!\!1은 항등 행렬이고, \bar 1은 모든 성분이 1인 벡터이다. M은 고유값 0을 갖는 하나의 고유 벡터 b_1:={\textstyle\frac{1}{\sqrt{n}}} \bar 1과 고유값 1을 갖는 n-1개의 고유 벡터 b_2,...,b_n(모두 b_1에 직교)을 갖는다. Q:=(b_1,...,b_n)이 직교 행렬이 되도록 선택할 수 있다.

또한 X:=Q^\top\!Z\sim\mathcal{N}(\bar 0,Q^\top\!1\!\!1 Q) =\mathcal{N}(\bar 0,1\!\!1)이므로, 다음이 성립한다.

:

\sum_{t=1}^n(Z_t-\bar Z)^2 ~=~ Z^\top\!M Z ~=~ X^\top\!Q^\top\!M Q X ~=~ X_2^2+...+X_n^2 ~\sim~ \chi^2_{n-1},



따라서, 주어진 주장이 증명된다.

4. 정규분포 근사

중심극한정리에 따르면, 카이제곱 분포는 유한한 평균과 분산을 갖는 k개의 독립적인 확률 변수의 합이므로, 큰 k에 대해 정규 분포로 수렴한다.[15] 많은 실용적인 목적을 위해 k>50일 때, 분포는 정규 분포에 충분히 가까워 차이를 무시할 수 있다. 구체적으로, X \sim \chi^2(k)이면, k가 무한대로 갈 때, (X-k)/\sqrt{2k}의 분포는 표준 정규 분포로 수렴한다. 그러나 왜도\sqrt{8/k}이고 초과 첨도가 12/k이므로 수렴 속도는 느리다.

\ln(\chi^2)의 표본 분포는 \chi^2의 표본 분포보다 훨씬 빠르게 정규성에 수렴하는데,[16] 로그 변환이 비대칭성을 많이 제거하기 때문이다.[17] 카이제곱 분포의 다른 함수는 정규 분포에 더 빠르게 수렴한다. 몇 가지 예는 다음과 같다.


  • X \sim \chi^2(k)이면 \sqrt{2X}는 평균이 \sqrt{2k-1}이고 분산이 1인 근사적으로 정규 분포를 따른다.(1922, R. A. 피셔[5])
  • X \sim \chi^2(k)이면 \sqrt[3]{X/k}는 평균이 1-\frac{2}{9k}이고 분산이 \frac{2}{9k}인 근사적으로 정규 분포를 따른다.[18] 이는 '''Wilson–Hilferty 변환'''으로 알려져 있다.[5] 이 정규화 변환은 정규 분포의 평균, 즉 중앙값으로부터 역변환하여 일반적으로 사용되는 중앙값 근사 k\bigg(1-\frac{2}{9k}\bigg)^3\;로 직접 이어진다.

5. 응용

카이제곱 분포는 주로 가설 검정에 사용되며, 모집단의 분산에 대한 신뢰 구간을 구하는 데에도 사용된다. 하지만 정규 분포지수 분포처럼 자연 현상을 직접적으로 설명하는 데에는 자주 쓰이지 않는다.

카이제곱 분포는 다음과 같은 가설 검정에서 활용된다.


  • 독립성 카이제곱 검정 (분할표)
  • 적합도 카이제곱 검정
  • 우도비 검정 (내포 모형)
  • 로그 순위 검정 (생존 분석)
  • 코크란-만텔-헨젤 검정 (층화 분할표)
  • Wald 검정
  • Score 검정


또한, 카이제곱 분포는 ''t''-검정, 분산 분석, 회귀 분석에 사용되는 ''t''-분포와 ''F''-분포를 정의하는 데에도 중요한 역할을 한다.

카이제곱 분포가 가설 검정에 널리 사용되는 이유는 정규 분포와의 관계 때문이다. 많은 가설 검정에서 사용되는 검정 통계량은 표본 크기가 커짐에 따라 중심 극한 정리에 의해 정규 분포에 가까워진다. 표준 정규 분포를 제곱하면 자유도가 1인 카이제곱 분포를 얻을 수 있으므로, 정규 분포를 사용할 수 있는 곳에는 카이제곱 분포도 사용할 수 있다.

카이제곱 분포는 일반화된 우도비 검정(LRT)의 대규모 표본 분포로도 나타난다.[8] LRT는 여러 유용한 성질을 가지고 있으며, 특히 귀무 가설을 기각하는 데 가장 강력한 검정력을 제공한다.(네이만-피어슨 보조 정리) 하지만 정규 분포와 카이제곱 근사는 점근적으로만 유효하므로, 작은 표본에서는 ''t''-분포나 피셔의 정확 검정을 사용하는 것이 더 적절하다.

칼 피어슨은 이항 분포, 정규 분포, 카이제곱 분포 간의 관계를 보였다. 그는 이항 분포가 정규 분포로 근사될 수 있음을 보였고, 더 나아가 다항 분포에 대한 다변량 정규 근사에서 카이제곱 분포가 발생함을 증명했다.[10]

카이제곱 분포는 카이제곱 검정분산 추정 등 통계학의 여러 분야에 응용된다. 또한, 스튜던트 t-분포와 F-분포를 통해 분산 분석 문제에도 적용된다.

다음은 카이제곱 분포가 가우스 분포를 따르는 표본에서 발생하는 몇 가지 예시이다.

  • X_1, ..., X_n이 i.i.d. N(\mu, \sigma^2) 확률 변수일 때, \sum_{i=1}^n(X_i - \overline{X_i})^2 \sim \sigma^2 \chi^2_{n-1} (여기서 \overline{X_i} = \frac{1}{n} \sum_{i=1}^n X_i)

  • 다음 표는 독립 확률 변수 X_i \sim N(\mu_i, \sigma^2_i), i= 1, \ldots, k를 기반으로 하는 통계량과 그에 따른 확률 분포를 나타낸다.


이름통계량
카이제곱 분포\sum_{i=1}^k \left(\frac{X_i-\mu_i}{\sigma_i}\right)^2
비중심 카이제곱 분포\sum_{i=1}^k \left(\frac{X_i}{\sigma_i}\right)^2
카이 분포\sqrt{\sum_{i=1}^k \left(\frac{X_i-\mu_i}{\sigma_i}\right)^2}
비중심 카이 분포\sqrt{\sum_{i=1}^k \left(\frac{X_i}{\sigma_i}\right)^2}



카이제곱 분포는 자기 공명 영상에서도 자주 사용된다.

6. 역사

카이제곱 분포는 1875~6년에 독일의 측지학자이자 통계학자인 프리드리히 로베르트 헬메르트가 처음 기술했다.[24] 헬메르트는 정규 모집단의 표본 분산의 표본 분포를 계산했다. 그래서 독일에서는 전통적으로 이를 '헬메르트'sche("Helmertian")' 또는 "헬메르트 분포"라고 불렀다.

1900년에는 영국의 수학자 칼 피어슨이 피어슨의 카이제곱 검정을 개발하면서 이 분포를 독립적으로 재발견했다. 이 검정에 사용되는 값은 에 표로 계산되어 출판되었고, 에 수집되었다. "카이제곱"이라는 이름은 피어슨이 다변량 정규 분포의 지수를 그리스 문자 키(Chi)를 사용하여 간결하게 표현한 것에서 유래했다. 현대 표기법에서 (Σ는 공분산 행렬)로 나타나는 것을 로 표기했다.[25] 하지만 "카이제곱 분포" 계열이라는 아이디어는 피어슨이 아닌 1920년대 피셔의 추가적인 발전에 의해 만들어졌다.

와 템플릿은 제거되어야 한다.

와 템플릿은 제거되어야 한다.

최종 수정:

카이제곱 분포는 1875~6년에 독일의 측지학자이자 통계학자인 프리드리히 로베르트 헬메르트가 처음 기술했다.[24] 헬메르트는 정규 모집단의 표본 분산의 표본 분포를 계산했다. 그래서 독일에서는 전통적으로 이를 '헬메르트'sche("Helmertian")' 또는 "헬메르트 분포"라고 불렀다.

1900년에는 영국의 수학자 칼 피어슨이 피어슨의 카이제곱 검정을 개발하면서 이 분포를 독립적으로 재발견했다. "카이제곱"이라는 이름은 피어슨이 다변량 정규 분포의 지수를 그리스 문자 키(Chi)를 사용하여 간결하게 표현한 것에서 유래했다. 현대 표기법에서 -½'''x'''TΣ−1'''x''' (Σ는 공분산 행렬)로 나타나는 것을 −½χ2로 표기했다.[25] 하지만 "카이제곱 분포" 계열이라는 아이디어는 피어슨이 아닌 1920년대 피셔의 추가적인 발전에 의해 만들어졌다.

참조

[1] 웹사이트 Characteristic function of the central chi-square distribution http://www.planetmat[...] 2009-03-06
[2] 웹사이트 Chi-Squared Distribution https://mathworld.wo[...] 2024-10-11
[3] Abramowitz Stegun ref Abramowitz Stegun ref
[4] 웹사이트 Engineering Statistics Handbook – Chi-Squared Distribution http://www.itl.nist.[...] NIST 2006
[5] 서적 Continuous Univariate Distributions John Wiley and Sons
[6] 서적 Introduction to the Theory of Statistics McGraw-Hill
[7] 웹사이트 The Chi-Squared Distribution https://uregina.ca/~[...]
[8] 서적 Understanding Advanced Statistical Methods CRC Press 2013
[9] 논문 Evaluating the Normal Approximation to the Binomial Test 1988
[10] 간행물 The Chi-squared Distribution Wiley
[11] 논문 An Elementary Proof of a Theorem of Johnson and Lindenstrauss http://cseweb.ucsd.e[...] 2012-05-01
[12] MathWorld Chi-squared distribution http://mathworld.wol[...] MathWorld 2009-02-11
[13] 서적 Probability Distributions Involving Gaussian Random Variables Springer
[14] 논문 Adaptive estimation of a quadratic functional by model selection 2000-10-01
[15] 서적 Statistics for experimenters https://archive.org/[...] Wiley
[16] 논문 The Statistical Analysis of Variance-Heterogeneity and the Logarithmic Transformation
[17] 논문 An unexpected encounter with Cauchy and Lévy
[18] 논문 The distribution of chi-squared
[19] 논문 Fast Randomization for Distributed Low-Bitrate Coding of Speech and Audio https://research.aal[...] 2018-01
[20] 논문 On the Efficient Calculation of a Linear Combination of Chi-Square Random Variables with an Application in Counting String Vacua
[21] 간행물 Data distributions in magnetic resonance images: a review https://dx.doi.org/1[...] 2014
[22] 웹사이트 Chi-Squared Test http://www2.lv.psu.e[...] Dr. Jacqueline S. McLaughlin at The Pennsylvania State University 2013-11-18
[23] 웹사이트 Chi-squared Distribution | R Tutorial https://www.r-tutor.[...]
[24] 논문 Ueber die Wahrscheinlichkeit der Potenzsummen der Beobachtungsfehler und über einige damit im Zusammenhange stehende Fragen http://gdz.sub.uni-g[...] 1876
[25] 간행물 Karl Pearson and the Chi-Squared Test https://www.jstor.or[...] 1983
[26] 논문 The Modified-Half-Normal distribution: Properties and an efficient sampling scheme https://figshare.com[...] 2021-06-22
[27] 간행물 Ueber die Berechnung des wahrscheinlichen Fehlers aus einer endlichen Anzahl wahrer Beobachtungsfehler 1875
[28] 간행물 On the Criterion that a Given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it Can Reasonably Be Supposed to have Arisen from Random Sampling 1900
[29] 웹인용 Characteristic function of the central chi-square distribution http://www.planetmat[...] 2009-03-06



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com