다항 분포

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

다항 분포는 k가지 값을 가질 수 있는 시행을 n번 반복했을 때, 각 값이 특정 횟수만큼 나타날 확률을 나타내는 이산 확률 분포이다. 확률 질량 함수를 통해 확률을 계산하며, 이항 분포의 확장으로 볼 수 있다. 다항 분포는 각 시행 결과의 기댓값, 분산, 공분산 등의 성질을 가지며, 극한 분포는 카이제곱 분포로 수렴한다. 자연어 처리 등 다양한 분야에 응용되며, 통계적 추론을 통해 모수에 대한 검정 및 신뢰 구간 추정이 가능하다.

다항 분포

유형

종류	질량

모수

시도 횟수 (n)	n ∈ {0, 1, 2, …}
상호 배타적인 사건 수 (k)	k > 0 (정수)
사건 확률	p₁, …, pₖ, 여기서 p₁ + … + pₖ = 1

범위

지지	'{(x₁, …, xₖ) \| Σᵢ=₁ᵏ xᵢ = n, xᵢ ≥ 0 (i=1,…,k)}'

확률 질량 함수

확률 밀도 함수 (pdf)	n! / (x₁!⋯xₖ!) * p₁ˣ¹ * ⋯ * pₖˣₖ

누적 분포 함수

누적 분포 함수 (cdf)	해당 없음

기대값 및 분산

평균 (E[Xᵢ])	n * pᵢ
중앙값	해당 없음
최빈값	해당 없음
분산 (Var[Xᵢ])	n * pᵢ * (1 - pᵢ)
공분산 (Cov[Xᵢ, Xⱼ]) (i ≠ j)	-n * pᵢ * pⱼ

기타 특성

왜도	해당 없음
첨도	해당 없음
적률 생성 함수 (mgf)	(Σᵢ=₁ᵏ pᵢ * e^(tᵢ))^n
특성 함수	(Σⱼ=₁ᵏ pⱼ * e^(itⱼ))^n (여기서 i² = -1)
확률 생성 함수 (pgf)	(Σᵢ=₁ᵏ pᵢ * zᵢ)^n for (z₁, …, zₖ) ∈ ℂᵏ
엔트로피	-log(n!) - n * Σᵢ=₁ᵏ pᵢ * log(pᵢ) + Σᵢ=₁ᵏ Σₓᵢ=₀ⁿ binom(n, xᵢ) * pᵢ^(xᵢ) * (1 - pᵢ)^(n - xᵢ) * log(xᵢ!)

📚 더 읽어볼만한 페이지

이산분포 - 푸아송 분포
푸아송 분포는 주어진 시간 안에 특정 사건이 일어날 횟수를 나타내는 이산 확률 분포이며, 사건 발생 횟수가 많고 각 사건이 드문 시스템에 적용되고 이항 분포의 극한 사례로 볼 수 있다.
이산분포 - 베르누이 시행
베르누이 시행은 '성공' 또는 '실패' 두 가지 결과만 존재하는 독립적인 시행을 반복하는 실험으로, 각 시행의 성공 확률 <math>p</math>와 실패 확률 <math>q</math>의 합은 1이며, 확률 변수와 이항 분포, 음이항 분포, 포아송 분포 등 다른 확률 분포와 관련된다.
계승과 이항식 주제 - 이항 정리
이항 정리는 이변수 다항식 (x + y)ⁿ을 전개하는 공식으로, 이항 계수를 사용하며, 조합론적 증명과 수학적 귀납법을 통해 증명할 수 있고, 다양한 분야에 응용되며, 이항 급수, 다항 정리 등 일반화된 형태가 존재한다.
계승과 이항식 주제 - 감마 분포
감마 분포는 형상 모수와 척도 모수로 정의되는 연속 확률 분포로, 확률 밀도 함수가 감마 함수로 표현되며, 베이즈 통계학에서 켤레 사전 분포로 활용되고, 형상 모수가 양의 정수일 때는 얼랑 분포를 나타낸다.
확률분포 - 베르누이 분포
베르누이 분포는 성공 확률 p를 가지며, 단 한 번의 시행에서 성공 또는 실패 두 가지 결과를 나타내는 이산 확률 분포로, 기댓값은 p, 분산은 p(1-p)이며 다른 여러 확률 분포와 관련되어 불확실성과 정보량을 측정할 수 있다.
확률분포 - 로그 정규 분포
로그 정규 분포는 확률 변수 X의 로그가 정규 분포를 따르며, 양의 실수 값을 갖고 평균 μ와 표준 편차 σ를 매개변수로 갖는 확률 분포이다.

1. 개요
2. 정의
- 2.1. 예시
3. 성질
- 3.1. 기댓값과 분산
- 3.2. 행렬 표기법
4. 극한 분포
5. 관련 분포
6. 통계적 추론
7. 응용

2. 정의

어떤 시행에서 k가지의 값이 나타날 수 있고, 그 값들이 나타날 확률을 각각 $p_1, p_2, \cdots, p_k$ 라고 할 때, n번의 시행에서 i번째 값이 $x_i$ 회 나타날 확률은 다음과 같다.

: $p(x_1, x_2, \cdots, x_k; n, p_1, \cdots, p_k) = \frac{n!}{x_1! x_2! \cdots x_k!} p_1^{x_1} p_2^{x_2} \cdots p_k^{x_k}$

이때 $x_1 + \cdots + x_k = n$ 이어야 한다. 그렇지 않은 경우의 확률값은 0으로 정의된다.

경우에 따라서, 다항 분포는 값이 나타나는 횟수가 아니라 독립 시행에서 나타나는 값 자체를 가리키기도 한다. 엄밀하게는 이러한 분포는 categorical 분포라고 부르며, 다음과 같이 정의된다. 만약 i번째 값이 $c_i$ 일 경우,

: $p(c_i ; p_1, \cdots, p_k) = p_i$

가 된다.

확률 질량 함수는 감마 함수를 사용하여 다음과 같이 표현할 수 있다.

: $f(x_1,\dots, x_{k}; p_1,\ldots, p_k) = \frac{\Gamma(\sum_i x_i + 1)}{\prod_i \Gamma(x_i+1)} \prod_{i=1}^k p_i^{x_i}.$

2.1. 예시

어떤 대규모 국가의 3자 선거에서 A 후보가 20%, B 후보가 30%, C 후보가 50%의 득표율을 얻었다고 가정하자. 6명의 유권자를 무작위로 선택했을 때, 표본에서 A 후보 지지자 1명, B 후보 지지자 2명, C 후보 지지자 3명이 나올 확률은 얼마인가?

투표 인구가 많다고 가정하므로, 표본을 위해 유권자가 선택된 후에도 확률이 변하지 않는다고 보는 것이 합리적이다. 엄밀히 말하면 이는 비복원 추출이므로, 정확한 분포는 다변량 초기하 분포이지만, 모집단이 고정된 표본 크기에 비해 커질수록 분포는 수렴한다.

: $\Pr(A=1, B=2, C=3) = \frac{6!}{1! 2! 3!}(0.2^1) (0.3^2) (0.5^3) = 0.135$

3. 성질

다항 분포는 다음과 같이 정규화된다.

: $\sum_{\sum_{j=1}^k x_j=n} f(x_1,...,x_k;n,p_1,...,p_k) = 1$

여기서 합은 $\sum_{j=1}^k x_j=n$ 이 되도록 하는 모든 $x_j$ 의 순열에 대한 것이다.

3.1. 기댓값과 분산

총 n번의 시행에서 결과 i가 관찰될 기댓값은 다음과 같다.

: $\operatorname{E}(X_i) = n p_i.\,$

공분산 행렬은 다음과 같다. 각 대각선 요소는 이항 분포를 따르는 확률 변수의 분산이며, 따라서

: $\operatorname{Var}(X_i)=np_i(1-p_i).\,$

비대각선 요소는 공분산이다.

: $\operatorname{Cov}(X_i,X_j)=-np_i p_j\,$

여기서 i, j는 서로 다르다.

모든 공분산은 고정된 n에 대해 다항 벡터의 한 구성 요소가 증가하면 다른 구성 요소가 감소해야 하므로 음수이다.

해당 상관 행렬의 요소는 다음과 같다.

: $\rho(X_i,X_i) = 1.$

: $\rho(X_i,X_j) = \frac{\operatorname{Cov}(X_i,X_j)}{\sqrt{\operatorname{Var}(X_i)\operatorname{Var}(X_j)}} = \frac{-p_i p_j}{\sqrt{p_i(1-p_i) p_j(1-p_j)}} = -\sqrt{\frac{p_i p_j}{(1-p_i)(1-p_j)}}.$

이 식에서 시행 횟수 n이 사라진다는 점에 유의하라.

각각의 k 구성 요소는 적절한 첨자 i 값에 대해 매개변수가 n 및 p_i인 이항 분포를 갖는다.

다항 분포의 지지 집합은 다음과 같다.

: $\{(n_1,\dots,n_k)\in \mathbb{N}^k \mid n_1+\cdots+n_k=n\}.\,$

그 요소의 수는 다음과 같다.

: ${n+k-1 \choose k-1}.$

3.2. 행렬 표기법

행렬 표기법으로 기댓값은 다음과 같다.

: $\operatorname{E}(\mathbf{X}) = n \mathbf{p},\,$

그리고 분산은 다음과 같다.

: $\operatorname{Var}(\mathbf{X}) = n \lbrace \operatorname{diag}(\mathbf{p}) - \mathbf{p} \mathbf{p}^{\rm T} \rbrace ,\,$

여기서 $\mathbf{p}^{\rm T}$ 는 열 벡터 $\mathbf{p}$ 의 행 벡터 전치이다.

4. 극한 분포

스털링 공식을 사용하면, 점근적으로 다음이 성립함을 보일 수 있다. 큰 $n$ 에 대해, 확률 질량은 $p$ 의 작은 주변에 집중된다. $n$ 이 무한대로 갈 때, $n \sum_{i=1}^k \frac{(\hat p_i - p_i)^2}{p_i} = \sum_{i=1}^k \frac{(x_i - n p_i)^2}{n p_i}$ 는 카이제곱 분포 $\chi^2(k-1)$ 로 분포 수렴한다.

다항 분포 \mathrm{Multinomial}(n; 0.2, 0.3, 0.5)에서 표본을 추출하고 2차원 심플렉스 내 표본의 히트맵을 그리면(검은색 삼각형), n \to \infty일 때 분포가 점 (0.2, 0.3, 0.5) 주변의 정규 분포로 수렴하고, 등고선은 타원 형태로 수렴하며, 반경은 1/\sqrt n으로 수렴한다. 이산 다항 분포는 연속적인 정규 분포로 수렴한다. — 다항 분포 $\mathrm{Multinomial}(n; 0.2, 0.3, 0.5)$ 에서 표본을 추출하고 2차원 심플렉스 내 표본의 히트맵을 그리면(검은색 삼각형), $n \to \infty$ 일 때 분포가 점 $(0.2, 0.3, 0.5)$ 주변의 정규 분포로 수렴하고, 등고선은 타원 형태로 수렴하며, 반경은 $1/\sqrt n$ 으로 수렴한다. 이산 다항 분포는 연속적인 정규 분포로 수렴한다.

선형 제약 조건이 있는 경우에도 위와 유사한 결과가 성립하며, 이는 피어슨의 카이 제곱 검정의 이론적 근거가 된다.

5. 관련 분포

* k = 2일 때, 다항 분포는 이항 분포이다.
* 범주형 분포는 각 시행의 분포이다. k = 2일 때, 이는 베르누이 분포이다.
* 디리클레 분포는 베이즈 통계에서 다항 분포의 켤레 사전 분포이다.
* 디리클레-다항 분포
* 베타-이항 분포
* 음이항 분포
* 하디-바인베르크 평형 원리 (확률이 θ²^영어, 2θ(1-θ)^영어, (1-θ)²^영어인 삼항 분포)

6. 통계적 추론

다항 분포의 모수에 대한 동등성 검정은 이론적인 다항 분포와 실제 관찰된 빈도 간의 일치 여부를 확인하는 것을 목표로 한다. 이론적 분포는 완전히 주어지거나, 모수적 계열의 형태일 수 있다.

$q$ 를 이론적 다항 분포, $p$ 를 실제 분포라고 할 때, 거리 $d$ 와 허용 오차 $\varepsilon>0$ 에 대해 $d(p,q)<\varepsilon$ 이면 두 분포는 동등하다고 간주한다. 동등성 검정은 $H_0=\{d(p,q)\geq\varepsilon\}$ (두 분포가 동등하지 않음) 대 $H_1=\{d(p,q)<\varepsilon\}$ (두 분포가 동등함)의 가설을 검정한다. 실제 분포 $p$ 는 알 수 없으므로, 표본 크기 $n$ 에서의 빈도 $p_n$ 을 사용하여 $H_0$ 기각 여부를 결정한다. $H_0$ 이 기각되면 주어진 유의 수준에서 $p$ 와 $q$ 는 동등하다고 결론 내릴 수 있다.

실제 분포 $p$ 와 다항 분포의 계열 $\mathcal{M}$ 사이의 거리는 $d(p, \mathcal{M})=\min_{h\in\mathcal{M}}d(p,h)$ 로 정의된다. 이 경우 동등성 검정은 $H_0=\{d(p,\mathcal{M})\geq \varepsilon\}$ 대 $H_1=\{d(p,\mathcal{M})< \varepsilon\}$ 로 설정되며, 거리 $d(p,\mathcal{M})$ 는 수치적 최적화를 통해 계산된다.

다항 분포에서 두 사건의 관측 비율 차이 $p_i-p_j$ 에 대한 신뢰 구간을 구할 때는, 표본 추정량 $\hat{p}_i = \frac{X_i}{n}$ 과 $\hat{p}_j = \frac{X_j}{n}$ 사이의 음의 공분산을 고려해야 한다.

비율 차이의 왈드(Wald) 표준 오차(SE)는 다음과 같이 추정할 수 있다.

: $\widehat{\operatorname{SE}(\hat{p}_i - \hat{p}_j)} = \sqrt{\frac{(\hat{p}_i + \hat{p}_j) - (\hat{p}_i - \hat{p}_j)^2}{n}}$

$100(1 - \alpha)\%$ 근사 신뢰 구간은 표준 정규 분포의 $z_{\alpha/2}$ 분위수를 사용하여 다음과 같이 계산할 수 있다.

: $(\hat{p}_i - \hat{p}_j) \pm z_{\alpha/2} \cdot \widehat{\operatorname{SE}(\hat{p}_i - \hat{p}_j)}$

연속성 보정을 적용하면 오차 한계에 $\frac{1}{n}$ 을 더한다.

: $(\hat{p}_i - \hat{p}_j) \pm \left(z_{\alpha/2} \cdot \widehat{\operatorname{SE}(\hat{p}_i - \hat{p}_j)} + \frac{1}{n}\right)$

제프리스 사전 확률을 이용한 베이즈 추정량을 사용하는 방법도 있으며, 이 경우의 표준 오차는 다음과 같다.

: $\widehat{\operatorname{SE}(\hat{p}_i - \hat{p}_j)}_{wald+\frac{k}{2}} =\sqrt{\frac{\left(\hat{p}_i + \hat{p}_j + \frac{1}{n}\right)\frac{n}{n+\frac{k}{2}} -\left(\hat{p}_i - \hat{p}_j\right)^2 \left(\frac{n}{n+\frac{k}{2}}\right)^2 }{n+\frac{k}{2}}}$

7. 응용

다항 분포는 자연어 처리 등 다양한 분야에서 활용된다. 다항 분포의 확률 변수 생성 방법이 연구되어 있다. R 패키지 MultinomialCI는 다항 분포의 확률에 대한 동시 신뢰 구간을 계산하는 기능을 제공한다.