다항 분포
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
다항 분포는 k가지 값을 가질 수 있는 시행을 n번 반복했을 때, 각 값이 특정 횟수만큼 나타날 확률을 나타내는 이산 확률 분포이다. 확률 질량 함수를 통해 확률을 계산하며, 이항 분포의 확장으로 볼 수 있다. 다항 분포는 각 시행 결과의 기댓값, 분산, 공분산 등의 성질을 가지며, 극한 분포는 카이제곱 분포로 수렴한다. 자연어 처리 등 다양한 분야에 응용되며, 통계적 추론을 통해 모수에 대한 검정 및 신뢰 구간 추정이 가능하다.
더 읽어볼만한 페이지
- 이산분포 - 푸아송 분포
푸아송 분포는 주어진 시간 안에 특정 사건이 일어날 횟수를 나타내는 이산 확률 분포이며, 사건 발생 횟수가 많고 각 사건이 드문 시스템에 적용되고 이항 분포의 극한 사례로 볼 수 있다. - 이산분포 - 베르누이 시행
베르누이 시행은 '성공' 또는 '실패' 두 가지 결과만 존재하는 독립적인 시행을 반복하는 실험으로, 각 시행의 성공 확률 와 실패 확률 의 합은 1이며, 확률 변수와 이항 분포, 음이항 분포, 포아송 분포 등 다른 확률 분포와 관련된다. - 확률분포 - 베르누이 분포
베르누이 분포는 성공 확률 p를 가지며, 단 한 번의 시행에서 성공 또는 실패 두 가지 결과를 나타내는 이산 확률 분포로, 기댓값은 p, 분산은 p(1-p)이며 다른 여러 확률 분포와 관련되어 불확실성과 정보량을 측정할 수 있다. - 확률분포 - 로그 정규 분포
로그 정규 분포는 확률 변수 X의 로그가 정규 분포를 따르며, 양의 실수 값을 갖고 평균 μ와 표준 편차 σ를 매개변수로 갖는 확률 분포이다. - 계승과 이항식 주제 - 이항 정리
이항 정리는 이변수 다항식 (x + y)ⁿ을 전개하는 공식으로, 이항 계수를 사용하며, 조합론적 증명과 수학적 귀납법을 통해 증명할 수 있고, 다양한 분야에 응용되며, 이항 급수, 다항 정리 등 일반화된 형태가 존재한다. - 계승과 이항식 주제 - 감마 분포
감마 분포는 형상 모수와 척도 모수로 정의되는 연속 확률 분포로, 확률 밀도 함수가 감마 함수로 표현되며, 베이즈 통계학에서 켤레 사전 분포로 활용되고, 형상 모수가 양의 정수일 때는 얼랑 분포를 나타낸다.
| 다항 분포 | |
|---|---|
| 유형 | |
| 종류 | 질량 |
| 모수 | |
| 시도 횟수 (n) | n ∈ {0, 1, 2, …} |
| 상호 배타적인 사건 수 (k) | k > 0 (정수) |
| 사건 확률 | p₁, …, pₖ, 여기서 p₁ + … + pₖ = 1 |
| 범위 | |
| 지지 | '{(x₁, …, xₖ) | Σᵢ=₁ᵏ xᵢ = n, xᵢ ≥ 0 (i=1,…,k)}' |
| 확률 질량 함수 | |
| 확률 밀도 함수 (pdf) | n! / (x₁!⋯xₖ!) * p₁ˣ¹ * ⋯ * pₖˣₖ |
| 누적 분포 함수 | |
| 누적 분포 함수 (cdf) | 해당 없음 |
| 기대값 및 분산 | |
| 평균 (E[Xᵢ]) | n * pᵢ |
| 중앙값 | 해당 없음 |
| 최빈값 | 해당 없음 |
| 분산 (Var[Xᵢ]) | n * pᵢ * (1 - pᵢ) |
| 공분산 (Cov[Xᵢ, Xⱼ]) (i ≠ j) | -n * pᵢ * pⱼ |
| 기타 특성 | |
| 왜도 | 해당 없음 |
| 첨도 | 해당 없음 |
| 적률 생성 함수 (mgf) | (Σᵢ=₁ᵏ pᵢ * e^(tᵢ))^n |
| 특성 함수 | (Σⱼ=₁ᵏ pⱼ * e^(itⱼ))^n (여기서 i² = -1) |
| 확률 생성 함수 (pgf) | (Σᵢ=₁ᵏ pᵢ * zᵢ)^n for (z₁, …, zₖ) ∈ ℂᵏ |
| 엔트로피 | -log(n!) - n * Σᵢ=₁ᵏ pᵢ * log(pᵢ) + Σᵢ=₁ᵏ Σₓᵢ=₀ⁿ binom(n, xᵢ) * pᵢ^(xᵢ) * (1 - pᵢ)^(n - xᵢ) * log(xᵢ!) |
2. 정의
어떤 시행에서 k가지의 값이 나타날 수 있고, 그 값들이 나타날 확률을 각각 라고 할 때, n번의 시행에서 i번째 값이 회 나타날 확률은 다음과 같다.
:
이때 이어야 한다. 그렇지 않은 경우의 확률값은 0으로 정의된다.
경우에 따라서, 다항 분포는 값이 나타나는 횟수가 아니라 독립 시행에서 나타나는 값 자체를 가리키기도 한다. 엄밀하게는 이러한 분포는 categorical 분포라고 부르며, 다음과 같이 정의된다. 만약 i번째 값이 일 경우,
:
가 된다.
확률 질량 함수는 감마 함수를 사용하여 다음과 같이 표현할 수 있다.
:
2. 1. 예시
어떤 대규모 국가의 3자 선거에서 A 후보가 20%, B 후보가 30%, C 후보가 50%의 득표율을 얻었다고 가정하자. 6명의 유권자를 무작위로 선택했을 때, 표본에서 A 후보 지지자 1명, B 후보 지지자 2명, C 후보 지지자 3명이 나올 확률은 얼마인가?[1]투표 인구가 많다고 가정하므로, 표본을 위해 유권자가 선택된 후에도 확률이 변하지 않는다고 보는 것이 합리적이다. 엄밀히 말하면 이는 비복원 추출이므로, 정확한 분포는 다변량 초기하 분포이지만, 모집단이 고정된 표본 크기에 비해 커질수록 분포는 수렴한다.[1]
:
3. 성질
다항 분포는 다음과 같이 정규화된다.[1]
:
여기서 합은 이 되도록 하는 모든 의 순열에 대한 것이다.
3. 1. 기댓값과 분산
총 ''n''번의 시행에서 결과 ''i''가 관찰될 기댓값은 다음과 같다.:
공분산 행렬은 다음과 같다. 각 대각선 요소는 이항 분포를 따르는 확률 변수의 분산이며, 따라서
:
비대각선 요소는 공분산이다.
:
여기서 ''i'', ''j''는 서로 다르다.
모든 공분산은 고정된 ''n''에 대해 다항 벡터의 한 구성 요소가 증가하면 다른 구성 요소가 감소해야 하므로 음수이다.
해당 상관 행렬의 요소는 다음과 같다.
:
:
이 식에서 시행 횟수 ''n''이 사라진다는 점에 유의하라.
각각의 ''k'' 구성 요소는 적절한 첨자 ''i'' 값에 대해 매개변수가 ''n'' 및 ''p''''i''인 이항 분포를 갖는다.
다항 분포의 지지 집합은 다음과 같다.
:
그 요소의 수는 다음과 같다.
:
3. 2. 행렬 표기법
행렬 표기법으로 기댓값은 다음과 같다.:
그리고 분산은 다음과 같다.
:
여기서 는 열 벡터 의 행 벡터 전치이다.
4. 극한 분포
스털링 공식을 사용하면, 점근적으로 다음이 성립함을 보일 수 있다. 큰 에 대해, 확률 질량은 의 작은 주변에 집중된다. 이 무한대로 갈 때, 는 카이제곱 분포 로 분포 수렴한다.[2]
선형 제약 조건이 있는 경우에도 위와 유사한 결과가 성립하며, 이는 피어슨의 카이 제곱 검정의 이론적 근거가 된다.[2]
5. 관련 분포
6. 통계적 추론
다항 분포의 모수에 대한 동등성 검정은 이론적인 다항 분포와 실제 관찰된 빈도 간의 일치 여부를 확인하는 것을 목표로 한다. 이론적 분포는 완전히 주어지거나, 모수적 계열의 형태일 수 있다.[5][6][7]
를 이론적 다항 분포, 를 실제 분포라고 할 때, 거리 와 허용 오차 에 대해 이면 두 분포는 동등하다고 간주한다. 동등성 검정은 (두 분포가 동등하지 않음) 대 (두 분포가 동등함)의 가설을 검정한다. 실제 분포 는 알 수 없으므로, 표본 크기 에서의 빈도 을 사용하여 기각 여부를 결정한다. 이 기각되면 주어진 유의 수준에서 와 는 동등하다고 결론 내릴 수 있다.
실제 분포 와 다항 분포의 계열 사이의 거리는 로 정의된다. 이 경우 동등성 검정은 대 로 설정되며, 거리 는 수치적 최적화를 통해 계산된다.[8]
다항 분포에서 두 사건의 관측 비율 차이 에 대한 신뢰 구간을 구할 때는, 표본 추정량 과 사이의 음의 공분산을 고려해야 한다.[9][10]
비율 차이의 왈드(Wald) 표준 오차(SE)는 다음과 같이 추정할 수 있다.
:
근사 신뢰 구간은 표준 정규 분포의 분위수를 사용하여 다음과 같이 계산할 수 있다.
:
연속성 보정을 적용하면 오차 한계에 을 더한다.[11]
:
제프리스 사전 확률을 이용한 베이즈 추정량을 사용하는 방법도 있으며,[12] 이 경우의 표준 오차는 다음과 같다.
:
7. 응용
다항 분포는 자연어 처리 등 다양한 분야에서 활용된다.[14] 다항 분포의 확률 변수 생성 방법이 연구되어 있다.[14] R 패키지 '''MultinomialCI'''는 다항 분포의 확률에 대한 동시 신뢰 구간을 계산하는 기능을 제공한다.[15]
참조
[1]
웹사이트
probability - multinomial distribution sampling
https://stats.stacke[...]
2022-07-28
[2]
arXiv
Total Empiricism: Learning from Data
2023
[3]
arXiv
Categorical Distributions of Maximum Entropy under Marginal Constraints
2022-04
[4]
arXiv
Entropy-based Characterization of Modeling Constraints
2022-06
[5]
서적
Testing statistical hypotheses of equivalence and noninferiority
Chapman and Hall/CRC
[6]
간행물
Testing equivalence of multinomial distributions
http://dx.doi.org/10[...]
2017-05
[7]
간행물
An exact multinomial test for equivalence
http://www.jstor.org[...]
2009-03
[8]
간행물
Testing equivalence to families of multinomial distributions with application to the independence model
https://doi.org/10.1[...]
2018-03
[9]
서적
Statistical Methods for Rates and Proportions
J. Wiley
[10]
간행물
Interval Estimation for the Difference Between Independent Proportions: Comparison of Eleven Methods
[11]
웹사이트
Confidence Intervals for the Difference Between Two Correlated Proportions
https://www.ncss.com[...]
NCSS
2022-03-22
[12]
간행물
Simple improved confidence intervals for comparing matched proportions
https://users.stat.u[...]
[13]
간행물
Simple and effective confidence intervals for proportions and difference of proportions result from adding two successes and two failures
[14]
웹사이트
11.5: The Multinomial Distribution
https://stats.libret[...]
2023-09-13
[15]
웹사이트
MultinomialCI - Confidence Intervals for Multinomial Proportions
https://CRAN.R-proje[...]
CRAN
2024-03-23
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com