디리클레 분포
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
디리클레 분포는 2 이상의 자연수 k와 양의 상수 α1, …, αk에 대해 정의되는 확률 분포이다. 이 분포는 확률 밀도 함수를 가지며, k=2인 경우 베타 분포가 된다. 디리클레 분포는 감마 분포에서 독립적으로 추출된 확률 변수를 사용하여 생성하거나, 주변 베타 분포와 조건부 분포를 이용하여 난수를 생성할 수 있다. 베이즈 모형에서 범주형 분포나 다항 분포의 사전 분포로 사용되며, 혼합 모형과 계층적 베이즈 모형에서 널리 활용된다.
차원 와 양의 실수로 이루어진 모수 벡터 에 대하여 정의되는 다변량 확률 분포이다. 이 분포는 각 요소 가 양수이고 모든 요소의 합이 1인 확률 변수 벡터 에 대해 정의된다 (, ).
디리클레 분포는 확률 이론과 통계학에서 중요한 여러 가지 수학적 성질을 가지고 있다. 이러한 성질들은 디리클레 분포를 다양한 분야, 특히 베이즈 추론에서 유용하게 만드는 핵심 요소이다.
2. 정의
실수값 가 모두 양의 실수이며 을 만족할 때, 확률 밀도 함수 는 다음과 같은 형태를 가진다.
:
그 외의 경우는 0의 값을 가진다. 여기서 는 정규화 상수로서 다변수 베타 함수이며, 감마 함수 를 사용하여 다음과 같이 표현된다.
:
디리클레 분포는 베타 분포를 다변량으로 일반화한 것으로, 모수 벡터의 차원 인 경우 베타 분포와 동일해진다. 확률 변수 의 기대값, 분산 등 상세한 성질은 하위 섹션에서 다룬다.
2. 1. 확률 밀도 함수
2 이상의 자연수 와 양의 상수 파라미터 에 대하여, 차수 의 디리클레 분포의 확률 밀도 함수는 유클리드 공간 '''R'''''K-1''상의 단순체(simplex) 위에서 르베그 측도에 대해 다음과 같이 정의된다.
확률 변수 벡터 가 이고 을 만족할 때, 확률 밀도 함수 는 다음과 같다.
:
그 외의 경우는 0의 값을 가진다.
여기서 는 양의 실수값()으로 구성된 파라미터 벡터이다. 는 정규화 상수로서 다변수 베타 함수이며, 감마 함수 를 사용하여 다음과 같이 표현된다.
:
디리클레 분포는 베타 분포를 다변량으로 일반화한 것으로, 일 경우 베타 분포와 동일하다.
디리클레 분포를 따르는 확률 변수 의 기대값과 분산은 다음과 같다.2. 2. 지지 집합 (Support)
디리클레 분포의 지지 집합은 특정 조건을 만족하는 ''K''차원 벡터 들의 모임이다. 이 조건은 벡터의 각 요소 가 닫힌 구간 [0, 1] 사이의 실수 값을 가지며, 모든 요소의 합()이 정확히 1이 되는 것(즉, )이다.
이렇게 정의된 지지 집합은 ''K''개의 가능한 결과가 있는 범주형 사건이 일어날 확률들을 나타내는 것으로 해석할 수 있다. 예를 들어, 주사위를 던졌을 때 각 면이 나올 확률의 집합처럼 생각할 수 있는데, 각 확률은 0과 1 사이이고 모든 확률의 합은 1이 된다. 또 다른 관점에서는 디리클레 분포의 영역 자체가 확률 분포들의 집합, 구체적으로 ''K''차원 이산 분포들의 집합이라고 볼 수 있다. 즉, 지지 집합 안의 각 점()이 하나의 ''K''차원 이산 확률 분포를 나타낸다.
기술적으로, 이 지지 집합은 열린 표준 (''K'' − 1)-단순체[3]라고 불린다. 단순체는 삼각형이나 사면체를 고차원으로 일반화한 기하학적 도형이다. 예를 들어, ''K'' = 3인 경우, 지지 집합은 3차원 공간에서 세 점 (1, 0, 0), (0, 1, 0), (0, 0, 1)을 꼭짓점으로 하는 정삼각형 모양을 이룬다. 이 삼각형 위의 모든 점들은 각 좌표값()이 0 이상이고 그 합이 1이 되는 조건을 만족한다.
참고로, 디리클레 분포의 확률 밀도 함수가 0보다 큰 값을 가지는 지지 집합은 각 요소 가 0과 1 사이의 값, 즉 열린 구간 (0, 1)에 속하면서 그 합이 1이 되는 벡터들의 집합이다.
3. 성질
주요 성질들은 다음과 같다.3. 1. 특수한 경우
디리클레 분포의 일반적인 특수한 경우로 모든 요소가 동일한 값을 갖는 매개변수 벡터 로 구성된 '''대칭 디리클레 분포'''가 있다. 이 경우는 예를 들어, 디리클레 사전 분포가 구성 요소에 대해 필요하지만, 다른 구성 요소보다 우선하는 사전 지식이 없을 때 유용하게 사용될 수 있다. 매개변수 벡터의 모든 요소가 동일한 값을 가지므로, 대칭 디리클레 분포는 단일 스칼라 값 ''α'' (이를 집중 매개변수라고 한다)로 매개변수화할 수 있다. ''α''를 사용한 밀도 함수는 다음과 같은 형태를 갖는다.
:
''α''=1일 때, 대칭 디리클레 분포는 열린 표준 심플렉스 상의 균등 분포와 같아진다. 즉, 분포의 지지 내 모든 점에서 동일한 확률을 갖는다. 이 특정 분포는 '''평탄 디리클레 분포'''로 알려져 있다.
집중 매개변수 ''α''의 값에 따라 분포의 특성이 달라진다.
더 일반적으로, 매개변수 벡터는 때때로 스칼라 집중 매개변수 ''α''와 벡터 기저 척도 의 곱 으로 작성되기도 한다. 여기서 은 (''K'' − 1)-심플렉스 내에 있으며(즉, 해당 좌표 의 합은 1이다), 이 표현 방식은 디리클레 과정이나 토픽 모델링 분야에서 기저 척도의 개념과 관련하여 자주 사용된다.
3. 2. 적률 (Moments)
가 분포를 따른다고 가정하자.
먼저, 를 다음과 같이 정의한다.
그러면 각 변수 의 기댓값과 분산은 다음과 같다.[4][5]
또한, 일 때 두 변수 와 의 공분산은 다음과 같다.
이 공분산 값들로 구성된 행렬은 특이 행렬이다.
더 일반적으로, 디리클레 분포를 따르는 확률 변수의 적률은 다음과 같이 표현할 수 있다. 벡터 에 대해, 를 번째 Hadamard 거듭제곱(성분별 거듭제곱)이라고 하자. 그러면,[6]
여기서 합은 를 만족하는 음이 아닌 정수 에 대한 것이며, 는 차수 의 순환 지수 다항식이다.
벡터 에 대한 다변량 유사 적률 는 폴리아 열거 정리의 개념을 이용하여 지수 의 색상 패턴으로 표현될 수 있다.[7]
특수한 경우로, 각 변수의 거듭제곱의 곱에 대한 기댓값은 베타 함수 를 이용하여 다음과 같이 간단하게 계산할 수 있다.[8]
여기서 이다.
3. 3. 최빈값 (Mode)
분포의 최빈값은 다음과 같다.[9]
:
3. 4. 주변 분포 (Marginal Distributions)
주변 분포는 베타 분포이다:[10]
:
3. 5. 켤레 사전 분포 (Conjugate Prior)
디리클레 분포는 범주형 분포(정해진 수의 가능한 결과값을 갖는 이산 확률 분포)와 다항 분포(여러 번의 독립적인 범주형 분포 시행에서 각 범주가 관측된 횟수에 대한 분포)의 켤레 사전 분포이다. 이는 데이터 포인트가 범주형 또는 다항 분포를 따르고, 분포의 모수(데이터 포인트를 생성하는 확률 벡터)에 대한 사전 분포가 디리클레 분포를 따른다면, 모수의 사후 분포 또한 디리클레 분포를 따른다는 것을 의미한다. 직관적으로, 이러한 경우 모수에 대한 사전 지식(사전 분포)에서 시작하여, 데이터 포인트를 기반으로 지식을 업데이트하면 사전 분포와 동일한 형태(디리클레 분포)의 새로운 분포(사후 분포)를 얻을 수 있다. 즉, 수학적 복잡성 없이 새로운 관찰 결과를 반영하여 모수에 대한 지식을 순차적으로 갱신할 수 있다.
구체적으로, 디리클레 분포 와 그에 대한 다항 분포 를 생각해 보자. 여기서 는 다항 분포의 모수 벡터(각 범주가 선택될 확률)이고, 는 디리클레 사전 분포의 하이퍼파라미터 벡터이다. 데이터 (각 범주별 관측 횟수 벡터)가 주어졌을 때 모수 의 사후 확률 분포 는 다음과 같이 계산된다.
:
즉, 사후 분포는 사전 분포의 하이퍼파라미터 벡터 에 관측된 횟수 벡터 를 더한 를 파라미터로 가지는 또 다른 디리클레 분포가 된다.
범주형 분포의 경우에도 유사한 관계가 성립한다. 다음과 같은 베이즈 모델을 가정해 보자.
:
여기서 는 K개 범주를 갖는 범주형 분포의 모수 벡터(각 범주가 선택될 확률, )이고, 는 디리클레 사전 분포의 하이퍼파라미터이다. N개의 데이터 를 관찰한 후, 모수 의 사후 분포는 다음과 같다.
:
여기서 는 각 범주가 관측된 횟수를 나타내는 벡터이다.
이러한 켤레성(conjugacy) 덕분에 사전 분포와 사후 분포가 동일한 분포족(디리클레 분포)에 속하게 되어, 베이즈 추론 과정에서 계산이 매우 편리해진다.
이 관계는 베이즈 통계학에서 ''N''개의 샘플 모음을 이용하여 범주형 분포의 기본 모수 '''p'''를 추정하는 데 사용된다. 직관적으로, 사전 분포의 하이퍼파라미터 벡터 '''α'''는 각 범주에 대한 '''가상 횟수'''(pseudocount)로 해석할 수 있다. 즉, 실제 데이터를 관찰하기 전에 이미 범주 를 번 관찰했다고 가정하는 것과 같다. 그런 다음 실제 데이터에서 관찰된 횟수 벡터 '''c'''를 이 가상 횟수 벡터 '''α'''에 더하여 사후 분포의 파라미터()를 얻는다.
또한, 디리클레 분포는 베이즈 혼합 모델이나 다른 계층적 베이즈 모델에서 모델 내 범주형 변수의 사전 분포로 널리 사용된다. 자세한 내용은 아래 응용 분야 섹션을 참조하라.
3. 6. 디리클레-다항 분포와의 관계
디리클레 분포 와, 이 분포를 따르는 모수 를 가지는 다항 분포 를 생각해 보자. 관측값 가 주어졌을 때 모수 의 사후 확률 분포 는 다음과 같이 계산된다.
:
이는 디리클레 분포가 다항 분포의 사전 켤레확률이라는 중요한 성질을 가짐을 의미한다. 즉, 사전 분포로 디리클레 분포를 사용하면 사후 분포 역시 디리클레 분포가 되어 계산이 편리해진다. 사후 분포의 모수는 사전 분포의 모수 벡터 에 관측값 벡터 를 더하는 간단한 연산으로 구할 수 있다.
범주형 분포를 따르는 관측값들에 대해 디리클레 분포를 사전 분포로 사용하는 모델에서, 관측값들의 주변 결합 분포(사전 분포의 매개변수를 주변화하여 제거한 관측값들의 결합 분포)는 디리클레-다항 분포를 따른다. 이 분포는 계층적 베이즈 모델에서 중요한 역할을 한다. 깁스 표본 추출이나 변분 베이즈와 같은 방법을 이용해 모델에 대한 통계적 추론을 수행할 때 계산의 편의 등을 위해 디리클레 사전 분포를 주변화하여 제거하는 경우가 많기 때문이다. 더 자세한 내용은 디리클레-다항 분포 문서에서 확인할 수 있다.
3. 7. 엔트로피 (Entropy)
만약 ''X''가 확률 변수라면, ''X''의 미분 엔트로피 (단위는 냇)는 다음과 같다.[11]
:
여기서 는 디감마 함수이다.
에 대한 다음 공식은 위에서 미분 정보 엔트로피를 유도하는 데 사용될 수 있다. 함수는 디리클레 분포의 충분 통계량이기 때문에, 지수족 미분 항등식을 사용하여 의 기댓값과 관련 공분산 행렬에 대한 해석적 표현식을 얻을 수 있다 (참고: [12]의 식 (2.62)):
:
그리고
:
여기서 는 디감마 함수, 는 트리감마 함수, 는 크로네커 델타이다.
이외의 값에 대한 레니 엔트로피의 스펙트럼은 다음과 같다.[13]
:
그리고 정보 엔트로피는 가 1로 갈 때의 극한이다.
또 다른 관련 측정값은 확률-질량 분포 를 가진 이산 범주형 (일-of-K 이진) 벡터 의 엔트로피이다. 즉, 이다. 가 주어졌을 때 의 조건부 정보 엔트로피는 다음과 같다.
:
의 이 함수는 스칼라 확률 변수이다. 만약 가 모든 를 갖는 대칭 디리클레 분포를 갖는다면, 엔트로피의 기댓값 (단위는 냇)은 다음과 같다.[14]
:
3. 8. 집계 (Aggregation)
디리클레 분포를 따르는 확률 변수 벡터가 있다고 가정해 보자.
:
이 벡터에서 특정 두 확률 변수 와 를 뽑아 그 합으로 대체하여 새로운 벡터 를 만들 수 있다.
:
이렇게 만들어진 새로운 벡터 역시 디리클레 분포를 따르며, 합쳐진 변수에 해당하는 파라미터는 원래의 두 파라미터 와 를 더한 값이 된다.
:
이러한 집계(aggregation) 속성은 디리클레 분포를 따르는 개별 확률 변수 의 주변 분포를 유도하는 데 활용될 수 있다.
3. 9. 중립성 (Neutrality)
만약 이면 벡터 ''X''는 '''중립적'''이라고 말한다.[15] 즉, ''XK''는 와 독립적이다.[3] 여기서
:
이며, 중 어느 것을 제거하는 경우에도 마찬가지이다. ''X''의 임의의 순열 역시 중립적임을 관찰할 수 있다(이는 일반화된 디리클레 분포에서 추출된 표본이 갖지 못하는 속성이다).[16]
이것을 집계 속성과 결합하면 ''X''''j'' + ... + ''X''''K''는 와 독립적이다. 사실, 디리클레 분포의 경우 에 대해 쌍 와 두 벡터 및 는 정규화된 확률 벡터의 삼중항으로 간주될 때 상호 독립적이다. 유사한 결과는 {1,2,...,''K''}의 인덱스를 단일 요소가 아닌 다른 쌍의 부분 집합으로 분할하는 경우에도 성립한다.
3. 10. 특성 함수 (Characteristic Function)
디리클레 분포의 특성 함수는 합류형 형태의 로리첼라 초합성함수이다. 이는 필립스에 의해 다음과 같이 주어진다.[17]
:
여기서 로리첼라 초합성함수 는 다음과 같이 정의된다.
:
이 합은 음이 아닌 정수 에 대해 계산되며, 이다. 필립스는 이 형태가 "수치 계산에 불편하다"고 지적하며, 복소 경로 적분을 이용한 다음 대안을 제시했다.
:
여기서 ''L''은 에서 시작하여 적분 함수의 모든 특이점을 양의 방향으로 둘러싸고 다시 로 돌아오는 복소 평면 상의 임의의 경로를 의미한다.
4. 관련 분포
독립적으로 분포된 ''K''개의 감마 분포 변수 가 있다고 가정하자. 이 변수들의 합 는 분포를 따르며, 여기서 이다. 이때, 로 정의된 확률 변수 벡터 ''X''는 디리클레 분포 를 따른다.[19]
''Xi''들은 서로 독립적이지는 않지만, ''K''개의 독립적인 감마 분포 확률 변수 집합으로부터 생성된 것으로 볼 수 있다.[19] 합 ''V''는 ''X''를 만드는 과정에서 그 정보가 손실되며, 실제로 ''V''는 ''X''와 확률적으로 독립적임이 증명될 수 있다. 따라서 ''X''의 값만으로는 원래의 감마 확률 변수들을 복구하는 것이 불가능하다. 그럼에도 불구하고, 독립적인 확률 변수는 다루기가 더 간단하기 때문에, 이러한 재매개변수화는 디리클레 분포의 여러 속성을 증명하는 데 유용하게 사용될 수 있다.
디리클레 분포는 지수족 분포에 속하기 때문에 켤레 사전 분포를 갖는다. 이 켤레 사전 분포는 다음과 같은 형태를 가진다:[20]
:
여기서 는 ''K''차원의 실수 벡터이고 는 스칼라 매개변수이다. 매개변수 가 존재할 수 있는 영역은 위의 정규화되지 않은 밀도 함수를 적분하여 유한한 값을 얻을 수 있도록(즉, 정규화 가능하도록) 하는 집합으로 제한된다. 이 영역에 대한 필요충분조건은 다음과 같다:[21]
:
켤레 사전 분포의 성질은 다음과 같이 요약될 수 있다:
만약 사전 분포가 이고, 관측치가 이면, 사후 분포는 이다.
현재까지 발표된 문헌 중에는 분포로부터 효율적으로 표본을 생성할 수 있는 실용적인 알고리즘이 알려져 있지 않다.
5. 응용
디리클레 분포는 특히 확률과 통계학, 그중에서도 베이즈 통계학 분야에서 중요한 역할을 하며 다양하게 응용된다.
주요 응용 사례 중 하나는 베이즈 모형에서 범주형 분포나 다항 분포의 모수에 대한 사전 분포로 사용되는 것이다. 디리클레 분포는 이들 분포의 켤레 사전 분포이기 때문에, 새로운 데이터를 관찰했을 때 사후 분포 역시 디리클레 분포가 되어 계산 및 추론 과정을 단순화하는 장점이 있다. 이는 기계 학습이나 자연어 처리 등 다양한 분야의 모델링에서 유용하게 활용된다.
또한, 디리클레 분포의 개념과 성질을 더 쉽게 이해하기 위한 여러 직관적 해석 방법들이 제시되어 있다. 예를 들어, 집중 매개변수를 통해 분포가 얼마나 특정 값에 집중되는지를 조절하거나, 끈을 자르는 과정 또는 폴리아 항아리 모형과 같은 비유를 통해 분포가 생성되는 원리를 설명하기도 한다. 이러한 해석들은 복잡한 수식 없이도 디리클레 분포의 동작 방식을 파악하는 데 도움을 준다.
5. 1. 베이즈 모형 (Bayesian Models)
디리클레 분포는 범주형 분포(주어진 수의 가능한 결과값을 갖는 일반적인 이산 확률 분포)나 다항 분포(범주형 분포 관측값 집합에서 각 범주의 관측 횟수에 대한 분포)의 켤레 사전 분포로 사용된다. 이는 데이터가 범주형 또는 다항 분포를 따를 때, 해당 분포의 모수(데이터를 생성하는 확률 벡터 '''p''')에 대한 사전 분포로 디리클레 분포를 사용하면, 데이터를 관찰한 후 얻게 되는 모수의 사후 분포 역시 디리클레 분포가 된다는 의미이다. 쉽게 말해, 모수에 대해 이미 알고 있는 정보(사전 분포)에 새로운 데이터(관찰값)를 반영하여 정보를 업데이트해도, 업데이트된 정보(사후 분포)가 원래 정보와 같은 종류의 분포(디리클레 분포)를 유지한다는 뜻이다. 덕분에 새로운 관찰 결과를 얻을 때마다 복잡한 계산 없이 순차적으로 정보를 갱신할 수 있다.형식적으로 표현하면 다음과 같다. 아래와 같은 모델이 주어졌을 때,
:
사후 분포는 다음과 같이 계산된다.
:
이 관계는 베이즈 통계학에서 ''N''개의 샘플을 사용하여 범주형 분포의 기본 모수 '''p'''를 추정하는 데 사용된다. 여기서 하이퍼파라미터 벡터 '''α'''는 각 범주가 관찰된 가상 횟수(pseudo-count)로 해석할 수 있다. 즉, 실제 데이터를 보기 전에 이미 각 범주가 αi번씩 나타났다고 가정하는 것과 같다. 새로운 데이터에서 실제 관찰된 횟수 벡터 '''c'''를 이 가상 횟수 '''α'''에 더하면 사후 분포의 모수를 얻게 된다.
이러한 켤레성 때문에 디리클레 분포는 베이즈 혼합 모형이나 다른 계층적 베이즈 모형에서 모델 내 범주형 변수의 사전 분포로 널리 사용된다. 자연어 처리와 같은 일부 분야에서는 범주형 변수를 '다항 변수'라고 부르기도 하는데, 이는 베르누이 분포와 이항 분포를 혼용하는 경우처럼 엄밀히는 다르지만 실제 사용에서 큰 혼란을 일으키지는 않는다.
계층적 베이즈 모형의 추론에는 종종 깁스 샘플링 기법이 사용된다. 이 과정에서 디리클레 분포는 확률 변수를 적분하여 주변화(marginalization)시켜 제거하는 경우가 많다. 이렇게 하면 동일한 디리클레 분포에서 나온 여러 범주형 변수들 사이에 상관관계가 생기며, 이 변수들의 결합 분포는 디리클레 분포의 하이퍼파라미터(집중 매개변수)를 조건으로 하는 디리클레-다항 분포를 따르게 된다. 디리클레-다항 분포는 깁스 샘플링을 적용하기 용이하다는 장점이 있다.
5. 2. 직관적 해석
디리클레 분포를 직관적으로 이해하는 데 도움이 되는 몇 가지 해석 방법이 있다.=== 집중 매개변수 ===
디리클레 분포의 매개변수 벡터 의 모든 요소가 동일한 값 를 가질 때, 이를 대칭 디리클레 분포라고 한다. 이 분포는 단일 스칼라 값 로 표현할 수 있으며, 이 를 집중 매개변수라고 부른다. 집중 매개변수는 디리클레 분포의 확률 질량이 얼마나 "집중"되어 있는지를 나타낸다.
- '''''': 이때의 대칭 디리클레 분포는 표준 (''K'' − 1)-단순체 상에서의 균등 분포와 같아진다. 즉, 가능한 모든 확률 벡터가 동일한 확률을 갖는다. 이를 평탄 디리클레 분포라고 한다.
- '''''': 집중 매개변수 값이 1보다 크면, 분포는 단순체의 중심 근처에 확률 질량이 집중된다. 이는 표본으로 뽑힌 확률 벡터의 요소들이 서로 비슷한 값을 가질 가능성이 높다는 것을 의미한다. 값이 커질수록 분포는 더욱 중심에 집중된다.
- '''''': 집중 매개변수 값이 1보다 작으면, 분포는 단순체의 꼭짓점 근처에 확률 질량이 집중된다. 이는 표본으로 뽑힌 확률 벡터에서 대부분의 요소는 0에 가깝고, 소수의 요소만이 큰 값을 가질 가능성이 높다는 것을 의미한다. 즉, 희소한 분포를 선호하게 된다.
베이즈 추론에서는 사전 정보가 부족할 때, 모든 요소가 동일한 값을 갖는 대칭 디리클레 분포를 사전 분포로 사용하는 경우가 많다.
=== 끈 자르기 비유 ===
디리클레 분포는 길이가 1인 끈을 ''K''개의 조각으로 자르는 과정에 비유할 수 있다. 각 조각의 길이를 라고 하면, 이 된다. 이때, 각 조각 길이의 벡터 는 디리클레 분포를 따른다고 볼 수 있다.
매개변수 는 각 조각 ''i''의 예상 길이에 영향을 준다. 구체적으로, 라고 할 때, 조각 ''i''의 평균 길이는 가 된다. 집중 매개변수 는 조각 길이의 분산에 영향을 미치는데, 가 클수록 각 조각의 길이는 평균 길이에 가까워지고(분산이 작아짐), 가 작을수록 조각 길이의 변동성이 커진다(분산이 커짐).
=== 폴리아 항아리 모형 ===
폴리아 항아리 모형(Pólya's urn scheme)은 디리클레 분포를 생성하는 과정을 보여주는 또 다른 유용한 비유이다. ''K''가지 색깔의 공이 들어있는 항아리를 생각해보자. 처음에는 각 색깔 ''i''의 공이 개씩 들어있다.
이제 항아리에서 공을 하나 뽑고, 색깔을 확인한 뒤 다시 항아리에 넣는다. 이때, 뽑았던 공과 같은 색깔의 공을 하나 더 항아리에 추가한다. 이 과정을 계속 반복한다.
충분히 많은 횟수(''N'' → ∞) 공을 뽑고 추가하는 과정을 반복하면, 항아리 안에 있는 각 색깔 공의 비율 벡터 는 매개변수가 인 디리클레 분포, 즉 Dir()를 따르게 된다.[22] 이는 각 단계에서 공을 뽑는 행위가 미래에 특정 색깔의 공을 뽑을 확률을 계속해서 갱신하기 때문이다. 항아리에 공의 총 개수가 늘어남에 따라, 새로 추가되는 공 하나가 전체 비율에 미치는 영향은 점차 줄어든다. 이 과정은 마팅게일 수렴 정리를 통해 수학적으로 증명될 수 있다.[22]
6. 난수 생성
디리클레 분포를 따르는 난수 벡터를 생성하는 주요 방법으로는 독립적인 감마 분포를 이용하는 방법과 주변 베타 분포의 성질을 활용하는 방법이 있다. 각 방법에 대한 자세한 설명은 해당 하위 섹션에서 다룬다.
6. 1. 감마 분포로부터 생성
독립적으로 분포된 ''K''개의 감마 분포를 따르는 확률 변수가 있다고 가정하자.:
여기서 는 형상 모수(shape parameter)이고 는 척도 모수(scale parameter) 또는 비율 모수(rate parameter)의 역수이다. 이 변수들의 합 ''V''는 다음과 같이 계산되며, 이 역시 감마 분포를 따른다.[19]
:
이때, 각 를 전체 합 ''V''로 나눈 새로운 변수 를 정의하면, 벡터 는 디리클레 분포를 따른다.[19]
:
여기서 들은 이라는 제약 조건 때문에 서로 독립적이지 않다. 하지만 이들은 ''K''개의 독립적인 감마 분포 확률 변수들로부터 생성된 것으로 볼 수 있다는 점에서 유용하다.[19] 다만, 합 ''V''의 정보는 ''X''를 만드는 과정에서 사라지기 때문에(실제로 ''V''와 ''X''는 확률적으로 독립임이 증명될 수 있다), ''X''만으로는 원래의 감마 확률 변수 들을 복원할 수 없다. 그럼에도 불구하고, 독립적인 확률 변수를 다루는 것이 더 간단하기 때문에 이러한 관계는 디리클레 분포의 여러 속성을 증명하는 데 유용하게 사용될 수 있다.
이 성질을 이용하여, 매개변수 를 갖는 ''K''차원 디리클레 분포에서 랜덤 벡터 를 생성(표본 추출)할 수 있다. 방법은 다음과 같다.
1. 각각 감마 분포 를 따르는 ''K''개의 독립적인 랜덤 표본 를 추출한다. 의 확률 밀도 함수는 다음과 같다.
:
여기서 는 감마 함수이다.
2. 추출된 표본들의 합 를 계산한다.
3. 각 표본 를 합 ''S''로 나누어 를 얻는다.
:
이렇게 얻어진 벡터 는 분포를 따른다.
'''수학적 증명 개요'''
이 관계는 확률 변수의 변환을 통해 증명할 수 있다. 먼저, 독립적으로 추출된 감마 변수 의 결합 확률 밀도 함수는 각 감마 분포 밀도 함수의 곱으로 주어진다.
:
다음으로, 변수 변환을 적용한다. 대신 새로운 변수 과 합 를 사용한다. 여기서 이고, 이다. 이 변환에 대한 야코비 행렬식 (Jacobian)을 계산하면 임을 알 수 있다.
변환된 변수들의 결합 확률 밀도 함수는 원래 밀도 함수에 야코비 행렬식을 곱하여 얻는다. 이 과정을 통해 계산하면, 결과적으로 확률 밀도 함수가 에 대한 디리클레 분포의 밀도 함수와 합 ''V''에 대한 분포의 밀도 함수의 곱으로 분리됨을 보일 수 있다. 이는 벡터 ''X''와 합 ''V''가 서로 독립임을 의미한다. 따라서 ''V''에 대한 부분을 적분하여 소거하면 ''X''의 분포가 임을 최종적으로 확인할 수 있다.
:
단, 이고 이다.
다음은 이 절차를 이용해 디리클레 분포에서 표본을 추출하는 파이썬 코드 예시이다.
import random
# 디리클레 분포의 매개변수 alpha_1, ..., alpha_k
params = [a1, a2, ..., ak]
# 각 매개변수에 대해 감마 분포(형상=a_i, 척도=1)에서 표본 추출
sample_y = [random.gammavariate(a, 1) for a in params]
# 표본들의 합 계산
sum_y = sum(sample_y)
# 각 표본을 합으로 나누어 디리클레 분포 표본 생성
sample_x = [y / sum_y for y in sample_y]
# sample_x는 Dir(a1, ..., ak) 분포를 따르는 벡터이다.
이 방법은 감마 분포의 매개변수를 (형상, 척도)로 표현하든 (형상, 비율)로 표현하든 상관없이 동일하게 적용된다. 왜냐하면 척도 모수 또는 비율 모수가 1일 때는 두 방식이 동일하기 때문이다.
6. 2. 주변 베타 분포로부터 생성
디리클레 분포의 난수는 주변 베타 분포와 조건부 분포를 이용하여 생성할 수 있다. 이 방법은 상대적으로 덜 효율적일 수 있지만[23], 분포의 구조를 이해하는 데 도움이 된다. 생성 과정은 다음과 같다.먼저, 을 모수가 과 인 베타 분포에서 추출한다.
:
그 다음 을 순서대로 생성한다. 각 에 대해, 임시 변수 를 모수가 와 인 베타 분포에서 추출한다.
:
그리고 이 를 이용하여 를 계산한다. 이는 남은 확률 질량 에 를 곱하는 방식으로 이루어진다.
:
마지막으로, 는 전체 확률의 합이 1이 되도록 남은 확률로 설정한다.
:
이러한 반복적인 절차는 디리클레 분포를 설명하는 "끈 자르기(stick-breaking)" 직관과 밀접하게 관련되어 있다.
다음은 이 알고리즘을 이용한 파이썬 코드 예시이다.
import random # random 모듈 임포트 필요
# params는 디리클레 분포의 모수 리스트 예: [a1, a2, ..., ak]
# 예시: params = [1.0, 2.0, 3.0]
xs = [random.betavariate(params[0], sum(params[1:]))]
for j in range(1, len(params) - 1):
phi = random.betavariate(params[j], sum(params[j + 1 :]))
xs.append((1 - sum(xs)) * phi)
xs.append(1 - sum(xs))
# 최종 결과 xs는 디리클레 분포에서 추출된 샘플
참조
[1]
서적
Continuous Multivariate Distributions. Volume 1: Models and Applications
Wiley
[2]
간행물
Multivariate Beta Distributions and Independence Properties of the Wishart Distribution
[3]
웹사이트
Introduction to the Dirichlet Distribution and Related Processes
https://www.ee.washi[...]
University of Washington Department of Electrical Engineering
[4]
문서
Eq. (49.9) on page 488 of [http://www.wiley.com/WileyCDA/WileyTitle/productCd-0471183873.html Kotz, Balakrishnan & Johnson (2000). Continuous Multivariate Distributions. Volume 1: Models and Applications. New York: Wiley.]
[5]
서적
A Primer on Statistical Distributions
John Wiley & Sons, Inc.
[6]
간행물
Characteristic functionals of Dirichlet measures
https://www.doi.org/[...]
2019
[7]
arXiv
Multivariate Dirichlet Moments and a Polychromatic Ewens Sampling Formula
2023
[8]
웹사이트
Moments of the Dirichlet distribution
https://tillahoffman[...]
2016-02-14
[9]
서적
Pattern Recognition and Machine Learning
https://books.google[...]
Springer
2006-08-17
[10]
웹사이트
MAS3301 Bayesian Statistics
http://www.mas.ncl.a[...]
2013-04-10
[11]
서적
On The Dirichlet Distribution
https://mast.queensu[...]
Queen's University
2016
[12]
웹사이트
AN IN DEPTH INTRODUCTION TO VARIATIONAL BAYES NOTE
https://papers.ssrn.[...]
2023-08-15
[13]
간행물
Rényi information, loglikelihood, and an intrinsic distribution measure
Elsevier
[14]
학술회의
Entropy and Inference, revisited
http://papers.nips.c[...]
2002
[15]
간행물
Concepts of Independence for Proportions with a Generalization of the Dirichlet Distribution
American Statistical Association
[16]
문서
See Kotz, Balakrishnan & Johnson (2000), Section 8.5, "Connor and Mosimann's Generalization", pp. 519–521.
[17]
간행물
The characteristic function of the Dirichlet and multivariate F distribution
https://cowles.yale.[...]
[18]
간행물
An inequality for multiple convolutions with respect to Dirichlet probability measure
[19]
서적
Non-Uniform Random Variate Generation
http://luc.devroye.o[...]
Springer-Verlag
[20]
간행물
Bayesian Inference on Multiscale Models for Poisson Intensity Estimation: Applications to Photon-Limited Image Denoising
[21]
arXiv
A conjugate prior for the Dirichlet distribution
[22]
간행물
Ferguson distributions via Polya urn schemes
[23]
서적
Bayesian Data Analysis
https://archive.org/[...]
Chapman & Hall/CRC
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com