맨위로가기

다항 분포

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

다항 분포는 k가지 값을 가질 수 있는 시행을 n번 반복했을 때, 각 값이 특정 횟수만큼 나타날 확률을 나타내는 이산 확률 분포이다. 확률 질량 함수를 통해 확률을 계산하며, 이항 분포의 확장으로 볼 수 있다. 다항 분포는 각 시행 결과의 기댓값, 분산, 공분산 등의 성질을 가지며, 극한 분포는 카이제곱 분포로 수렴한다. 자연어 처리 등 다양한 분야에 응용되며, 통계적 추론을 통해 모수에 대한 검정 및 신뢰 구간 추정이 가능하다.

더 읽어볼만한 페이지

  • 이산분포 - 푸아송 분포
    푸아송 분포는 주어진 시간 안에 특정 사건이 일어날 횟수를 나타내는 이산 확률 분포이며, 사건 발생 횟수가 많고 각 사건이 드문 시스템에 적용되고 이항 분포의 극한 사례로 볼 수 있다.
  • 이산분포 - 베르누이 시행
    베르누이 시행은 '성공' 또는 '실패' 두 가지 결과만 존재하는 독립적인 시행을 반복하는 실험으로, 각 시행의 성공 확률 p와 실패 확률 q의 합은 1이며, 확률 변수와 이항 분포, 음이항 분포, 포아송 분포 등 다른 확률 분포와 관련된다.
  • 확률분포 - 베르누이 분포
    베르누이 분포는 성공 확률 p를 가지며, 단 한 번의 시행에서 성공 또는 실패 두 가지 결과를 나타내는 이산 확률 분포로, 기댓값은 p, 분산은 p(1-p)이며 다른 여러 확률 분포와 관련되어 불확실성과 정보량을 측정할 수 있다.
  • 확률분포 - 로그 정규 분포
    로그 정규 분포는 확률 변수 X의 로그가 정규 분포를 따르며, 양의 실수 값을 갖고 평균 μ와 표준 편차 σ를 매개변수로 갖는 확률 분포이다.
  • 계승과 이항식 주제 - 이항 정리
    이항 정리는 이변수 다항식 (x + y)ⁿ을 전개하는 공식으로, 이항 계수를 사용하며, 조합론적 증명과 수학적 귀납법을 통해 증명할 수 있고, 다양한 분야에 응용되며, 이항 급수, 다항 정리 등 일반화된 형태가 존재한다.
  • 계승과 이항식 주제 - 감마 분포
    감마 분포는 형상 모수와 척도 모수로 정의되는 연속 확률 분포로, 확률 밀도 함수가 감마 함수로 표현되며, 베이즈 통계학에서 켤레 사전 분포로 활용되고, 형상 모수가 양의 정수일 때는 얼랑 분포를 나타낸다.
다항 분포
유형
종류질량
모수
시도 횟수 (n)n ∈ {0, 1, 2, …}
상호 배타적인 사건 수 (k)k > 0 (정수)
사건 확률p₁, …, pₖ, 여기서 p₁ + … + pₖ = 1
범위
지지'{(x₁, …, xₖ) | Σᵢ=₁ᵏ xᵢ = n, xᵢ ≥ 0 (i=1,…,k)}'
확률 질량 함수
확률 밀도 함수 (pdf)n! / (x₁!⋯xₖ!) * p₁ˣ¹ * ⋯ * pₖˣₖ
누적 분포 함수
누적 분포 함수 (cdf)해당 없음
기대값 및 분산
평균 (E[Xᵢ])n * pᵢ
중앙값해당 없음
최빈값해당 없음
분산 (Var[Xᵢ])n * pᵢ * (1 - pᵢ)
공분산 (Cov[Xᵢ, Xⱼ]) (i ≠ j)-n * pᵢ * pⱼ
기타 특성
왜도해당 없음
첨도해당 없음
적률 생성 함수 (mgf)(Σᵢ=₁ᵏ pᵢ * e^(tᵢ))^n
특성 함수(Σⱼ=₁ᵏ pⱼ * e^(itⱼ))^n (여기서 i² = -1)
확률 생성 함수 (pgf)(Σᵢ=₁ᵏ pᵢ * zᵢ)^n for (z₁, …, zₖ) ∈ ℂᵏ
엔트로피-log(n!) - n * Σᵢ=₁ᵏ pᵢ * log(pᵢ) + Σᵢ=₁ᵏ Σₓᵢ=₀ⁿ binom(n, xᵢ) * pᵢ^(xᵢ) * (1 - pᵢ)^(n - xᵢ) * log(xᵢ!)

2. 정의

어떤 시행에서 k가지의 값이 나타날 수 있고, 그 값들이 나타날 확률을 각각 p_1, p_2, \cdots, p_k라고 할 때, n번의 시행에서 i번째 값이 x_i회 나타날 확률은 다음과 같다.

:p(x_1, x_2, \cdots, x_k; n, p_1, \cdots, p_k) = \frac{n!}{x_1! x_2! \cdots x_k!} p_1^{x_1} p_2^{x_2} \cdots p_k^{x_k}

이때 x_1 + \cdots + x_k = n이어야 한다. 그렇지 않은 경우의 확률값은 0으로 정의된다.

경우에 따라서, 다항 분포는 값이 나타나는 횟수가 아니라 독립 시행에서 나타나는 값 자체를 가리키기도 한다. 엄밀하게는 이러한 분포는 categorical 분포라고 부르며, 다음과 같이 정의된다. 만약 i번째 값이 c_i일 경우,

:p(c_i ; p_1, \cdots, p_k) = p_i

가 된다.

확률 질량 함수는 감마 함수를 사용하여 다음과 같이 표현할 수 있다.

:f(x_1,\dots, x_{k}; p_1,\ldots, p_k) = \frac{\Gamma(\sum_i x_i + 1)}{\prod_i \Gamma(x_i+1)} \prod_{i=1}^k p_i^{x_i}.

2. 1. 예시

어떤 대규모 국가의 3자 선거에서 A 후보가 20%, B 후보가 30%, C 후보가 50%의 득표율을 얻었다고 가정하자. 6명의 유권자를 무작위로 선택했을 때, 표본에서 A 후보 지지자 1명, B 후보 지지자 2명, C 후보 지지자 3명이 나올 확률은 얼마인가?[1]

투표 인구가 많다고 가정하므로, 표본을 위해 유권자가 선택된 후에도 확률이 변하지 않는다고 보는 것이 합리적이다. 엄밀히 말하면 이는 비복원 추출이므로, 정확한 분포는 다변량 초기하 분포이지만, 모집단이 고정된 표본 크기에 비해 커질수록 분포는 수렴한다.[1]

:\Pr(A=1, B=2, C=3) = \frac{6!}{1! 2! 3!}(0.2^1) (0.3^2) (0.5^3) = 0.135

3. 성질

다항 분포는 다음과 같이 정규화된다.[1]

:\sum_{\sum_{j=1}^k x_j=n} f(x_1,...,x_k;n,p_1,...,p_k) = 1

여기서 합은 \sum_{j=1}^k x_j=n 이 되도록 하는 모든 x_j의 순열에 대한 것이다.

3. 1. 기댓값과 분산

총 ''n''번의 시행에서 결과 ''i''가 관찰될 기댓값은 다음과 같다.

:\operatorname{E}(X_i) = n p_i.\,

공분산 행렬은 다음과 같다. 각 대각선 요소는 이항 분포를 따르는 확률 변수의 분산이며, 따라서

:\operatorname{Var}(X_i)=np_i(1-p_i).\,

비대각선 요소는 공분산이다.

:\operatorname{Cov}(X_i,X_j)=-np_i p_j\,

여기서 ''i'', ''j''는 서로 다르다.

모든 공분산은 고정된 ''n''에 대해 다항 벡터의 한 구성 요소가 증가하면 다른 구성 요소가 감소해야 하므로 음수이다.

해당 상관 행렬의 요소는 다음과 같다.

:\rho(X_i,X_i) = 1.

:\rho(X_i,X_j) = \frac{\operatorname{Cov}(X_i,X_j)}{\sqrt{\operatorname{Var}(X_i)\operatorname{Var}(X_j)}} = \frac{-p_i p_j}{\sqrt{p_i(1-p_i) p_j(1-p_j)}} = -\sqrt{\frac{p_i p_j}{(1-p_i)(1-p_j)}}.

이 식에서 시행 횟수 ''n''이 사라진다는 점에 유의하라.

각각의 ''k'' 구성 요소는 적절한 첨자 ''i'' 값에 대해 매개변수가 ''n'' 및 ''p''''i''인 이항 분포를 갖는다.

다항 분포의 지지 집합은 다음과 같다.

: \{(n_1,\dots,n_k)\in \mathbb{N}^k \mid n_1+\cdots+n_k=n\}.\,

그 요소의 수는 다음과 같다.

: {n+k-1 \choose k-1}.

3. 2. 행렬 표기법

행렬 표기법으로 기댓값은 다음과 같다.

:\operatorname{E}(\mathbf{X}) = n \mathbf{p},\,

그리고 분산은 다음과 같다.

:\operatorname{Var}(\mathbf{X}) = n \lbrace \operatorname{diag}(\mathbf{p}) - \mathbf{p} \mathbf{p}^{\rm T} \rbrace ,\,

여기서 \mathbf{p}^{\rm T}는 열 벡터 \mathbf{p}의 행 벡터 전치이다.

4. 극한 분포

스털링 공식을 사용하면, 점근적으로 다음이 성립함을 보일 수 있다. 큰 n에 대해, 확률 질량은 p의 작은 주변에 집중된다. n이 무한대로 갈 때, n \sum_{i=1}^k \frac{(\hat p_i - p_i)^2}{p_i} = \sum_{i=1}^k \frac{(x_i - n p_i)^2}{n p_i}카이제곱 분포 \chi^2(k-1)로 분포 수렴한다.[2]

다항 분포 \mathrm{Multinomial}(n; 0.2, 0.3, 0.5)에서 표본을 추출하고 2차원 심플렉스 내 표본의 히트맵을 그리면(검은색 삼각형), n \to \infty일 때 분포가 점 (0.2, 0.3, 0.5) 주변의 정규 분포로 수렴하고, 등고선은 타원 형태로 수렴하며, 반경은 1/\sqrt n으로 수렴한다. 이산 다항 분포는 연속적인 정규 분포로 수렴한다.


선형 제약 조건이 있는 경우에도 위와 유사한 결과가 성립하며, 이는 피어슨의 카이 제곱 검정의 이론적 근거가 된다.[2]

5. 관련 분포


  • ''k'' = 2일 때, 다항 분포는 이항 분포이다.[1]
  • 범주형 분포는 각 시행의 분포이다. ''k'' = 2일 때, 이는 베르누이 분포이다.[1]
  • 디리클레 분포는 베이즈 통계에서 다항 분포의 켤레 사전 분포이다.[1]
  • 디리클레-다항 분포[1]
  • 베타-이항 분포[1]
  • 음이항 분포[1]
  • 하디-바인베르크 평형 원리 (확률이 θ2|테타 제곱영어, 2θ(1-θ)|이 테타 곱하기 일 빼기 테타영어, (1-θ)2|일 빼기 테타의 제곱영어인 삼항 분포)[1]

6. 통계적 추론

다항 분포의 모수에 대한 동등성 검정은 이론적인 다항 분포와 실제 관찰된 빈도 간의 일치 여부를 확인하는 것을 목표로 한다. 이론적 분포는 완전히 주어지거나, 모수적 계열의 형태일 수 있다.[5][6][7]

q를 이론적 다항 분포, p를 실제 분포라고 할 때, 거리 d와 허용 오차 \varepsilon>0에 대해 d(p,q)<\varepsilon이면 두 분포는 동등하다고 간주한다. 동등성 검정은 H_0=\{d(p,q)\geq\varepsilon\} (두 분포가 동등하지 않음) 대 H_1=\{d(p,q)<\varepsilon\} (두 분포가 동등함)의 가설을 검정한다. 실제 분포 p는 알 수 없으므로, 표본 크기 n에서의 빈도 p_n을 사용하여 H_0 기각 여부를 결정한다. H_0이 기각되면 주어진 유의 수준에서 pq는 동등하다고 결론 내릴 수 있다.

실제 분포 p와 다항 분포의 계열 \mathcal{M} 사이의 거리는 d(p, \mathcal{M})=\min_{h\in\mathcal{M}}d(p,h) 로 정의된다. 이 경우 동등성 검정은 H_0=\{d(p,\mathcal{M})\geq \varepsilon\}H_1=\{d(p,\mathcal{M})< \varepsilon\}로 설정되며, 거리 d(p,\mathcal{M})는 수치적 최적화를 통해 계산된다.[8]

다항 분포에서 두 사건의 관측 비율 차이 p_i-p_j에 대한 신뢰 구간을 구할 때는, 표본 추정량 \hat{p}_i = \frac{X_i}{n} \hat{p}_j = \frac{X_j}{n} 사이의 음의 공분산을 고려해야 한다.[9][10]

비율 차이의 왈드(Wald) 표준 오차(SE)는 다음과 같이 추정할 수 있다.

:

\widehat{\operatorname{SE}(\hat{p}_i - \hat{p}_j)} = \sqrt{\frac{(\hat{p}_i + \hat{p}_j) - (\hat{p}_i - \hat{p}_j)^2}{n}}



100(1 - \alpha)\% 근사 신뢰 구간은 표준 정규 분포의 z_{\alpha/2} 분위수를 사용하여 다음과 같이 계산할 수 있다.

:(\hat{p}_i - \hat{p}_j) \pm z_{\alpha/2} \cdot \widehat{\operatorname{SE}(\hat{p}_i - \hat{p}_j)}

연속성 보정을 적용하면 오차 한계에 \frac{1}{n}을 더한다.[11]

:(\hat{p}_i - \hat{p}_j) \pm \left(z_{\alpha/2} \cdot \widehat{\operatorname{SE}(\hat{p}_i - \hat{p}_j)} + \frac{1}{n}\right)

제프리스 사전 확률을 이용한 베이즈 추정량을 사용하는 방법도 있으며,[12] 이 경우의 표준 오차는 다음과 같다.

:

\widehat{\operatorname{SE}(\hat{p}_i - \hat{p}_j)}_{wald+\frac{k}{2}} =

\sqrt{\frac{\left(\hat{p}_i + \hat{p}_j + \frac{1}{n}\right)\frac{n}{n+\frac{k}{2}} -

\left(\hat{p}_i - \hat{p}_j\right)^2 \left(\frac{n}{n+\frac{k}{2}}\right)^2 }{n+\frac{k}{2}}}


7. 응용

다항 분포는 자연어 처리 등 다양한 분야에서 활용된다.[14] 다항 분포의 확률 변수 생성 방법이 연구되어 있다.[14] R 패키지 '''MultinomialCI'''는 다항 분포의 확률에 대한 동시 신뢰 구간을 계산하는 기능을 제공한다.[15]

참조

[1] 웹사이트 probability - multinomial distribution sampling https://stats.stacke[...] 2022-07-28
[2] arXiv Total Empiricism: Learning from Data 2023
[3] arXiv Categorical Distributions of Maximum Entropy under Marginal Constraints 2022-04
[4] arXiv Entropy-based Characterization of Modeling Constraints 2022-06
[5] 서적 Testing statistical hypotheses of equivalence and noninferiority Chapman and Hall/CRC
[6] 간행물 Testing equivalence of multinomial distributions http://dx.doi.org/10[...] 2017-05
[7] 간행물 An exact multinomial test for equivalence http://www.jstor.org[...] 2009-03
[8] 간행물 Testing equivalence to families of multinomial distributions with application to the independence model https://doi.org/10.1[...] 2018-03
[9] 서적 Statistical Methods for Rates and Proportions J. Wiley
[10] 간행물 Interval Estimation for the Difference Between Independent Proportions: Comparison of Eleven Methods
[11] 웹사이트 Confidence Intervals for the Difference Between Two Correlated Proportions https://www.ncss.com[...] NCSS 2022-03-22
[12] 간행물 Simple improved confidence intervals for comparing matched proportions https://users.stat.u[...]
[13] 간행물 Simple and effective confidence intervals for proportions and difference of proportions result from adding two successes and two failures
[14] 웹사이트 11.5: The Multinomial Distribution https://stats.libret[...] 2023-09-13
[15] 웹사이트 MultinomialCI - Confidence Intervals for Multinomial Proportions https://CRAN.R-proje[...] CRAN 2024-03-23



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com