켤레사전분포
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
켤레 사전 분포는 베이즈 추론에서 사전 분포와 결합하여 사후 분포를 쉽게 계산할 수 있도록 돕는 사전 분포이다. 켤레 사전 분포는 하이퍼파라미터를 통해 사전 정보를 명시적으로 반영하고, 사후 분포의 변화를 직관적으로 이해할 수 있게 해준다. 이항 분포와 베타 분포, 푸아송 분포와 감마 분포 등 다양한 확률 분포에 대한 켤레 사전 분포가 존재하며, 실제 문제에 적용하여 불확실성을 고려한 예측을 가능하게 한다.
베이즈 정리를 이용한 베이즈 추론에서, 사후 분포가 사전 분포와 동일한 분포족(family of distributions)에 속하는 경우, 해당 사전 분포를 켤레 사전 분포(conjugate prior)라고 부른다.[1] 즉, 특정 가능도 함수가 주어졌을 때, 사전 분포와 사후 분포가 같은 형태의 분포가 되도록 하는 사전 분포를 의미한다.
켤레 사전 분포는 특정 확률 분포의 모수에 대한 베이즈 추론 과정에서 계산상의 편의성을 제공하는 중요한 개념이다. 켤레 사전 분포를 사용하면, 데이터를 관찰한 후 얻게 되는 사후 분포가 사전 분포와 동일한 형태의 분포족에 속하게 된다. 주요 켤레 사전 분포의 예시는 다음과 같다.
2. 켤레 사전 분포의 정의 및 성질
켤레 사전 분포를 사용하면 베이즈 정리를 적용할 때 계산이 매우 편리해진다는 장점이 있다. 사전 분포와 가능도 함수를 곱하여 사후 분포를 구하는 과정에서, 사후 분포의 형태가 사전 분포와 동일한 분포족에 속하게 되므로 복잡한 적분 계산 없이 대수적으로 간단히 사후 분포의 하이퍼파라미터를 갱신(update)할 수 있다. 예를 들어, 이항 분포의 모수(성공 확률)에 대한 사전 분포로 베타 분포를 사용하면, 관측 데이터를 반영한 사후 분포 역시 베타 분포가 된다. 이때 사후 분포의 하이퍼파라미터는 사전 분포의 하이퍼파라미터와 관측 데이터로부터 계산된다.
켤레 사전 분포는 일반적으로 원래 모델의 매개변수보다 차원이 더 큰 하이퍼파라미터를 가진다. 이 하이퍼파라미터는 사전 지식이나 믿음을 반영하며, 새로운 데이터가 관측됨에 따라 갱신되어 사후 분포를 결정한다.
2. 1. 켤레 사전 분포의 수학적 표현
켤레 사전 분포의 형태는 일반적으로 분포의 확률 밀도 함수 또는 확률 질량 함수를 검토하여 결정할 수 있다. 예를 들어, 성공 확률 가 [0,1] 사이의 ''알 수 없는'' 값을 갖는 개의 베르누이 시행에서 성공 횟수 로 구성된 확률 변수를 생각해 보자. 이 확률 변수는 다음과 같은 형태의 확률 질량 함수를 갖는 이항 분포를 따른다.
:
이 경우, 일반적인 켤레 사전 분포는 매개변수 (, )를 갖는 베타 분포이다.
:
여기서 와 는 기존의 신념이나 정보를 반영하도록 선택된다(이고 이면 균등 분포가 된다). 는 정규화 상수 역할을 하는 베타 함수이다.
이 맥락에서 와 는 기본 모델의 매개변수(여기서는 )와 구별하기 위해 ''하이퍼파라미터''(사전 분포의 매개변수)라고 부른다. 켤레 사전 분포의 전형적인 특징은 하이퍼파라미터의 차원이 원래 분포의 매개변수보다 1만큼 더 크다는 점이다. 모든 매개변수가 스칼라 값인 경우, 매개변수보다 하이퍼파라미터가 하나 더 많다. 이는 벡터 값 및 행렬 값 매개변수에도 적용된다. (자세한 내용은 지수족 문서를 참고하고, 다변량 정규 분포의 공분산 행렬에 대한 켤레 사전 분포인 위샤트 분포를 큰 차원의 예시로 생각해 볼 수 있다.)
이 확률 변수를 샘플링하여 번의 성공과 번의 실패를 얻었다고 가정하자. 베이즈 정리에 따라 사후 분포는 다음과 같이 계산된다.
:
결과적으로 사후 분포 역시 매개변수가 인 베타 분포가 된다. 이 사후 분포는 새로운 데이터가 관측될 때 다시 사전 분포로 사용될 수 있으며, 하이퍼파라미터는 각 추가 정보를 통합하여 업데이트된다.
켤레 사전 분포의 하이퍼파라미터를, 특정 속성을 가진 가상의 관측치를 관측한 것에 해당한다고 생각하는 것이 종종 유용하다. 예를 들어, 베타 분포의 하이퍼파라미터 와 는 다음과 같이 해석될 수 있다.
일반적으로 거의 모든 켤레 사전 분포에서 하이퍼파라미터는 이러한 '가상 관측치' 측면에서 해석될 수 있다. 이는 복잡한 업데이트 과정을 직관적으로 이해하고, 사전 분포에 대한 적절한 하이퍼파라미터를 선택하는 데 도움을 줄 수 있다.
2. 2. 켤레 사전 분포의 장점
켤레 사전 분포를 사용하면 베이즈 추론 과정에서 여러 가지 장점을 얻을 수 있다.
:
이 형태는 매개변수가 인 새로운 베타 분포, 즉 이다. 이처럼 사후 분포의 형태가 사전 분포와 동일하며, 하이퍼파라미터만 데이터에 따라 업데이트되는 간단한 형태를 가지므로, 복잡한 적분 계산 없이 대수적으로 사후 분포를 쉽게 유도할 수 있다.3. 켤레 사전 분포의 예시
이 외에도 다양한 확률 분포와 그에 해당하는 켤레 사전 분포들이 존재하며, 이는 베이즈 통계 분석에서 모델링과 계산을 용이하게 하는 데 널리 활용된다.
3. 1. 이항 분포와 베타 분포 (예시)
켤레 사전 분포의 형태는 일반적으로 분포의 확률 밀도 함수 또는 확률 질량 함수를 검토하여 결정할 수 있다. 예를 들어, 성공 확률 가 [0,1] 사이의 ''알 수 없는'' 값을 갖는 개의 베르누이 시행에서 성공 횟수 로 구성된 확률 변수를 생각해 보자. 이 확률 변수는 다음과 같은 형태의 확률 질량 함수를 갖는 이항 분포를 따른다.
:
이 경우, 일반적인 켤레 사전 분포는 매개변수 (, )를 갖는 베타 분포이다.
:
여기서 와 는 기존의 신념이나 정보를 반영하도록 선택되며(이고 이면 균등 분포가 된다), 는 정규화 상수 역할을 하는 베타 함수이다.
이 맥락에서 와 는 기본 모델의 매개변수(여기서는 )와 구별하기 위해 ''하이퍼파라미터''(사전 분포의 매개변수)라고 한다. 켤레 사전 분포의 전형적인 특징 중 하나는 하이퍼파라미터의 차원이 원래 분포의 매개변수보다 1만큼 더 크다는 점이다. 모든 매개변수가 스칼라 값인 경우, 매개변수보다 하이퍼파라미터가 하나 더 많다. 이는 벡터 값 및 행렬 값 매개변수에도 적용된다. (자세한 내용은 지수족 문서를 참조하고, 다변량 정규 분포의 공분산 행렬에 대한 켤레 사전 분포인 위샤트 분포를 큰 차원이 포함된 예로 들 수 있다.)
이 확률 변수를 샘플링하여 번의 성공과 번의 실패를 얻었다고 가정해 보자. 베이즈 정리에 따라 사후 분포는 다음과 같이 계산된다.
:
결과적으로 사후 분포 역시 매개변수가 인 베타 분포가 된다. 이 사후 분포는 새로운 데이터가 관측되었을 때 다시 사전 분포로 사용될 수 있으며, 이때 하이퍼파라미터는 가 되어 새로운 정보를 반영하게 된다.
켤레 사전 분포의 하이퍼파라미터를 특정 속성을 가진 가상의 관측치(pseudo-observations)를 본 것에 해당한다고 생각하면 유용할 때가 많다. 예를 들어, 베타 분포의 하이퍼파라미터 와 는 다음과 같이 해석될 수 있다.
일반적으로 거의 모든 켤레 사전 분포에서 하이퍼파라미터는 이러한 가상 관측치의 관점에서 해석될 수 있다. 이는 복잡한 업데이트 과정을 직관적으로 이해하고, 사전 분포에 적절한 하이퍼파라미터를 선택하는 데 도움을 줄 수 있다.
3. 2. 현실 문제 적용 예시: 임대 차량 서비스
어떤 도시에 특정 임대 차량 서비스가 운영되고 있다고 가정해 보자. 운전자는 도시 경계 내 어디에서든 차량을 반납하고 픽업할 수 있으며, 사용자는 앱을 통해 차량을 찾고 대여할 수 있다.
특정 시간대에 집 근처에서 이용 가능한 임대 차량을 찾을 수 있는 확률을 알고 싶다고 하자. 3일 동안 앱을 확인하여 집 근처에서 찾은 차량 대수는 각각 3대, 4대, 1대였다. 이를 데이터 로 표현할 수 있다.
이 데이터가 푸아송 분포를 따른다고 가정해 보자. 푸아송 분포는 특정 시간 또는 공간 단위 내에서 발생하는 사건의 횟수를 모델링하는 데 자주 사용된다. 이 경우, 최대 우도 추정(Maximum Likelihood Estimation, MLE) 방법을 사용하여 푸아송 분포의 모수 (평균 차량 발견 횟수)를 추정할 수 있다. 계산 결과는 다음과 같다.
이 추정치 은 주어진 데이터 를 만들어 냈을 가능성이 가장 높은 푸아송 분포의 모수이다. 이 값을 이용하면, 특정 날에 적어도 한 대의 차량을 찾을 확률(즉, 차량 발견 횟수가 0이 아닐 확률)은 다음과 같이 계산된다.
즉, 최대 우도 추정 방식으로는 약 93%의 확률로 집 근처에서 차량을 찾을 수 있다는 결론을 얻는다.
하지만 이 접근법에는 한계가 있다. 관찰된 데이터가 3일치뿐이므로, 실제 평균 차량 발견 횟수 가 정확히 2.67이라고 단정하기 어렵다. 실제 값은 3일 수도 있고, 2일 수도 있는 등 다양한 가능성이 존재하며, 데이터가 적기 때문에 이 불확실성은 상당히 크다. 최대 우도 추정은 가장 가능성 높은 단일 값만을 사용하므로 이러한 불확실성을 반영하지 못한다.
베이즈 통계학적 접근법은 이러한 불확실성을 고려하는 대안을 제공한다. 베이즈 추론에서는 모수 자체를 확률 변수로 취급하고, 데이터 관찰 전의 사전 지식이나 믿음을 나타내는 사전 분포 를 설정한다. 데이터를 관찰한 후에는 베이즈 정리를 이용하여 사전 분포를 사후 분포 로 갱신한다.
푸아송 분포의 모수 에 대한 켤레 사전 분포는 감마 분포이다. 켤레 사전 분포를 사용하면 사후 분포 역시 동일한 분포족(여기서는 감마 분포)이 되어 계산이 편리해진다. 감마 분포는 두 개의 하이퍼파라미터 (형태 모수)와 (비율 모수, 또는 척도 모수의 역수)를 가진다. 이 값들은 분석가의 사전 지식을 반영하여 설정해야 한다. 예를 들어, 평균 차량 수가 어느 정도일 것이라는 사전 믿음을 반영하여 를 사전 하이퍼파라미터로 선택할 수 있다. 사전 하이퍼파라미터의 선택은 본질적으로 주관적이며 사전 지식을 기반으로 한다.
사전 하이퍼파라미터()와 관찰된 데이터(, 총합 , 데이터 개수 )를 이용하여 사후 분포의 하이퍼파라미터를 계산한다. 푸아송-감마 켤레 관계에 따라, 사후 하이퍼파라미터는 다음과 같이 갱신된다.
즉, 데이터를 반영한 후의 에 대한 분포는 형태 모수가 10이고 비율 모수가 5인 감마 분포를 따른다.
이제 이 사후 분포를 이용하여 새로운 날에 적어도 한 대의 차량을 찾을 확률을 계산할 수 있다. 이는 사후 예측 분포를 통해 이루어진다. 푸아송 우도와 감마 사전 분포를 사용했을 때, 사후 예측 분포는 음이항 분포를 따른다. 사후 예측 분포에서 일 확률을 계산하여 1에서 빼면 된다. 원본 소스에 따르면[10], 사후 하이퍼파라미터 , 를 이용하여 계산한 사후 예측 확률은 다음과 같다.
이 베이즈 추정 결과(약 84%)는 최대 우도 추정 결과(약 93%)보다 더 낮다. 이는 베이즈 추정 방식이 적은 데이터 양으로 인한 모수 의 불확실성을 분포로써 고려하고, 이를 예측에 반영했기 때문이다. 따라서 베이즈 추정은 데이터가 부족할 때 발생할 수 있는 과도한 확신을 피하고 더 신중하며 현실적인 예측치를 제공하는 경향이 있다.
4. 켤레 사전 분포 목록
베이즈 추론에서 켤레 사전 분포는 계산의 편의성을 위해 중요한 역할을 한다. 특정 가능도 함수에 대해, 사후 분포가 사전 분포와 동일한 분포족(family)에 속하게 하는 사전 분포를 켤레 사전 분포라고 부른다. 이는 새로운 관측 데이터가 주어졌을 때 하이퍼파라미터를 간단한 규칙에 따라 갱신함으로써 사후 분포를 쉽게 구할 수 있게 해준다.
아래 하위 섹션에서는 다양한 확률 분포에 대한 켤레 사전 분포 목록을 표 형태로 제공한다. 각 표는 주어진 가능도 함수에 해당하는 모형 모수, 켤레 사전 분포의 형태, 사전 하이퍼파라미터, 그리고 데이터를 관찰한 후 갱신된 사후 하이퍼파라미터[7] 및 사후 예측 분포[8] 정보를 포함한다.
특히 지수족에 속하는 많은 분포들은 켤레 사전 분포를 가지며, 이 역시 해당 표에서 확인할 수 있다.
4. 1. 이산 확률 분포
관측 횟수를 ''n''이라고 하자. 아래 표의 모든 경우에서 데이터는 ''n''개의 점 으로 구성된다고 가정한다(다변량의 경우 벡터가 됨).가능도 함수가 지수족에 속하면, 켤레 사전 분포가 존재하며, 이는 종종 지수족에 속한다. 지수족: 켤레 분포 참조.
| 모형 모수 | 사전 하이퍼모수 | 사후 하이퍼모수[7] | 하이퍼모수의 해석 | [8] | ||
|---|---|---|---|---|---|---|
| 베르누이 분포 | p (확률) | 베타 분포 | 성공, 실패[6] | (베르누이 분포) | ||
| 이항 분포 시행 횟수 m이 알려진 경우 | p (확률) | 베타 분포 | 성공, 실패[6] | \operatorname{BetaBin}(\tilde{x}>\alpha,\beta) (베타-이항 분포) | ||
| 음이항 분포 실패 횟수 r이 알려진 경우 | p (확률) | 베타 분포 | 총 성공, 실패[6] (즉, 실험, 이 고정되어 있다고 가정) | \operatorname{BetaNegBin}(\tilde{x}>\alpha,\beta) (베타 음이항 분포) | ||
| 푸아송 분포 | λ (비율) | 감마 분포 | 총 발생 횟수 in 간격 | (음이항 분포) | ||
| [10] | 총 발생 횟수 in 간격 | (음이항 분포) | ||||
| 범주형 분포 | 'p' (확률 벡터), k (범주 수; 즉, 'p'의 크기) | 디리클레 분포 | 여기서 는 범주 i의 관측 횟수임. | 범주 의 발생 횟수[6] | ||
| 초기하 분포 총 모집단 크기 N이 알려진 경우 | M (대상 구성원 수) | 베타-이항 분포[13] | 성공, 실패[6] | |||
| 기하 분포 | p0 (확률) | 베타 분포 | 실험, 총 실패[6] |
4. 2. 연속 확률 분포
관측 횟수를 ''n''이라고 하자. 아래 모든 경우에서 데이터는 ''n''개의 점 으로 구성된다고 가정한다(다변량의 경우 random vector가 됨).가능도 함수가 지수족에 속하면, 공액 사전 분포가 존재하며, 이는 종종 지수족에 속한다. 지수족: 공액 분포 참조.
| 모형 모수 | 사전 하이퍼모수 | 사후 하이퍼모수[7] | 하이퍼모수의 해석 | [8] | ||
|---|---|---|---|---|---|---|
| 베르누이 | p (확률) | 베타 | 성공, 실패[6] | (베르누이) | ||
| 이항 시행 횟수 m이 알려진 경우 | p (확률) | 베타 | 성공, 실패[6] | \operatorname{BetaBin}(\tilde{x}>\alpha,\beta) (베타-이항) | ||
| 음이항 실패 횟수 r이 알려진 경우 | p (확률) | 베타 | 총 성공, 실패[6] (즉, 실험, 이 고정되어 있다고 가정) | \operatorname{BetaNegBin}(\tilde{x}>\alpha,\beta) | ||
| 푸아송 | λ (비율) | 감마 | 총 발생 횟수 in 간격 | (음이항) | ||
| [10] | 총 발생 횟수 in 간격 | (음이항) | ||||
| 기하 | p0 (확률) | 베타 | 실험, 총 실패[6] |
5. 켤레 사전 분포의 활용 및 확장
켤레 사전 분포의 조건부 확률을 이산 시간 동역학적 시스템으로 간주할 수 있다. 주어진 하이퍼파라미터 집합에 새로운 데이터가 들어오면 하이퍼파라미터가 업데이트되는데, 이러한 변화는 시스템이 '학습'하는 과정 또는 일종의 '시간 진화'로 볼 수 있다. 시작점이 다르면 시간이 지남에 따라 다른 흐름이 나타난다.
이는 선형 연산자로 정의된 동역학적 시스템과 유사하지만, 중요한 차이점은 단순히 시간에만 의존하는 것이 아니라 시간에 따른 데이터에 의존한다는 점이다. 즉, 어떤 데이터(표본)가 들어오는지에 따라 추론 결과가 달라진다. 관련된 접근 방식으로는 재귀 베이즈 추정과 데이터 동화가 있다.
참조
[1]
서적
Applied Statistical Decision Theory
Division of Research, Graduate School of Business Administration, Harvard University
[2]
웹사이트
Earliest Known Uses of Some of the Words of Mathematics
http://jeff560.tripo[...]
[3]
간행물
Conjugate Bayesian analysis of the Gaussian distribution
http://www.cs.ubc.ca[...]
[4]
문서
A different conjugate prior for unknown mean and variance, but with a fixed, linear relationship between them, is found in the [[normal variance-mean mixture]], with the [[Generalized inverse Gaussian distribution|generalized inverse Gaussian]] as conjugate mixing distribution.
[5]
서적
Statistical Machine Learning
https://www.stat.cmu[...]
[6]
문서
The exact interpretation of the parameters of a [[beta distribution]] in terms of number of successes and failures depends on what function is used to extract a point estimate from the distribution. The mean of a beta distribution is which corresponds to successes and failures, while the mode is which corresponds to successes and failures. Bayesians generally prefer to use the posterior mean rather than the posterior mode as a point estimate, justified by a quadratic loss function, and the use of and is more convenient mathematically, while the use of and has the advantage that a uniform prior corresponds to 0 successes and 0 failures. The same issues apply to the [[Dirichlet distribution]].
[7]
문서
Denoted by the same symbols as the prior hyperparameters with primes added ('). For instance is denoted
[8]
문서
This is the [[posterior predictive distribution]] of a new data point given the observed data points, with the parameters [[marginal distribution|marginalized out]]. Variables with primes indicate the posterior values of the parameters.
[9]
문서
This is the [[posterior predictive distribution]] of a new data point given the observed data points, with the parameters [[marginal distribution|marginalized out]]. Variables with primes indicate the posterior values of the parameters. and refer to the [[normal distribution]] and [[Student's t-distribution]], respectively, or to the [[multivariate normal distribution]] and [[multivariate t-distribution]] in the multivariate cases.
[10]
문서
''β'' is rate or inverse scale. In parameterization of [[gamma distribution]],''θ'' = 1/''β'' and ''k'' = ''α''.
[11]
문서
In terms of the [[inverse gamma distribution|inverse gamma]], is a [[scale parameter]]
[12]
문서
is a [[compound gamma distribution]]; here is a [[generalized beta prime distribution]].
[13]
웹사이트
A Compendium of Conjugate Priors
https://courses.phys[...]
1997
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com