맨위로가기

베이즈 추론

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

베이즈 추론은 관측된 데이터를 통해 추론 대상의 확률 분포를 업데이트하는 통계적 추론 방법이다. 이는 사전 확률과 가능도를 결합하여 사후 확률을 계산하는 베이즈 정리를 기반으로 하며, 불확실성을 정량화하고 정보를 통합하는 데 유용하다. 베이즈 추론은 가설의 확률 계산, 예측, 위양성 문제 분석, 법정에서의 증거 평가, 몬티 홀 문제 해결 등 다양한 분야에 응용된다. 이 방법은 18세기 토머스 베이즈와 피에르시몽 라플라스의 연구에서 시작되었으며, 20세기 이후 객관적, 주관적 접근법으로 발전했다. 계산 능력 향상과 함께 기계 학습 등 여러 분야에서 널리 활용되고 있다.

더 읽어볼만한 페이지

  • 베이즈 추론 - 베이즈주의 인식론
    베이즈주의 인식론은 믿음을 확률로 나타내고 증거에 따라 갱신하는 방식으로 지식을 쌓는 인식론의 한 분야로, 지식의 본성과 회의주의 문제에 대한 독특한 관점을 제시하지만, 사전 확률 설정의 주관성과 같은 비판도 있다.
  • 통계 예측 - 표본 분포
    표본 분포는 모집단에서 추출한 표본 통계량의 확률 분포로, 모집단 분포, 표본 크기, 추출 방법에 따라 달라지며, 중심 극한 정리에 따라 표본 크기가 크면 정규 분포에 근사하여 통계적 추론에 활용된다.
  • 통계 예측 - 데이터 동화
    데이터 동화는 예측 값과 관측 값의 차이를 기반으로 예측 값을 보정하여 시스템 상태에 대한 최적의 추정치를 도출하는 기술이며, 수치 일기 예보, 물과 에너지 이동 모니터링 등 다양한 분야에 적용된다.
  • 통계 이론 - 로지스틱 회귀
    로지스틱 회귀는 범주형 종속 변수를 다루는 회귀 분석 기법으로, 특히 이항 종속 변수에 널리 사용되며, 오즈에 로짓 변환을 적용하여 결과값이 0과 1 사이의 값을 가지도록 하는 일반화 선형 모형의 특수한 경우이다.
  • 통계 이론 - 정보 엔트로피
    정보 엔트로피는 확률 변수의 불확실성을 측정하는 방법으로, 사건 발생 가능성이 낮을수록 정보량이 커진다는 원리에 기반하며, 데이터 압축, 생물다양성 측정, 암호화 등 다양한 분야에서 활용된다.
베이즈 추론
지도 정보
기본 정보
유형통계적 추론 방법
분야베이즈 통계학
관련 분야확률, 베이즈 정리
핵심 개념
주요 개념사전 확률, 우도 함수, 사후 확률, 주변 우도
과정사전 확률을 우도 함수와 결합하여 사후 확률을 계산
확률 해석베이즈 확률 사용
방법론
모델 구축베이즈 선형 회귀, 계층적 베이즈 모델
사후 분포 근사마르코프 연쇄 몬테카를로, 라플라스 근사, 변분 베이즈 방법
증거 근사증거 하한, 중첩 표본 알고리즘
추정 및 평가
추정기베이즈 추정기, 최대 사후 확률 추정
모델 평가베이즈 인자, 베이즈 정보 기준, 사후 예측 분포
특징
장점불확실성을 명시적으로 모델링
사전 정보를 통합 가능
복잡한 모델에 적용 가능
단점계산 비용이 높을 수 있음
사전 분포 선택에 대한 주관성이 개입될 수 있음
역사적 맥락
기원베이즈 정리에서 유래
발전20세기 후반부터 계산 능력 발달과 함께 활발히 연구
관련 이론
관련 이론베른슈타인-폰 미제스 정리, 코흐스 정리, 크롬웰 규칙
기타
참고 문헌메리엄-웹스터 사전
고토반크

2. 수학적 설명

베이즈 추론은 추론 대상 \theta에 대한 사전 확률 p(\theta)와 관측 데이터 X의 확률 분포 p(X|\theta)를 이용하여, X가 주어졌을 때 \theta의 분포인 사후 확률 p(\theta|X)를 계산한다.

사후 확률 p(\theta|X)베이즈 정리를 이용하여 다음과 같이 계산한다.

:p(\theta|X) = \frac{p(X|\theta) p(\theta)} {p(X)}

여기서 p(X|θ)는 우도(가능도), p(θ)는 사전 확률, p(X)는 증거를 나타낸다.

베이즈 확률 관점에서는 A를 상수로 한정하지 않고 확률 변수로 간주한다. (이는 객관적으로 정의될 수 없으므로 주관 확률이다.)

이 관점에서 베이즈 정리 식은 다음과 같이 해석된다.

: 주관 확률 분포 P(A)에 P(X|A) / P(X)를 곱하여 증거 X를 고려해, 더 객관적인 확률 분포 P(A|X)를 구한다.

베이즈 추정은 사전 확률이 주관적이고 유일하게 결정될 수 없으며, 이를 바탕으로 구한 사후 확률이 객관적인 확률 분포로 수렴한다는 보장이 없다는 비판을 받는다. 그러나 컴퓨터를 이용한 방법이 발전하면서 베이즈 추정 방법도 발전했고, 스팸 메일을 식별하는 베이지안 필터 등에 응용되고 있다.

2. 1. 베이즈 정리

베이즈 추론은 사전 확률과 관측된 데이터에 대한 통계적 모델에서 도출된 "가능도 함수"를 이용하여 사후 확률을 도출한다. 베이즈 추론은 베이즈 정리를 사용하여 사후 확률을 계산한다.

:P(H \mid E) = \frac{P(E \mid H) \cdot P(H)}{P(E)}

여기서 각 기호의 의미는 다음과 같다.

  • H: 데이터(아래에서 "증거"라고 함)에 의해 확률이 영향을 받을 수 있는 임의의 가설.
  • P(H): ''사전 확률''은 데이터 E가 관측되기 ''전'' 가설 H의 확률 추정치.
  • E: ''증거''는 사전 확률 계산에 사용되지 않은 새로운 데이터.
  • P(H \mid E): ''사후 확률''은 E를 고려했을 때 H의 확률, 즉 E가 관측된 ''후''의 확률.
  • P(E \mid H): ''가능도''는 H를 고려했을 때 E를 관측할 확률.
  • P(E): 한계 가능도 또는 "모델 증거"라고도 함.


H의 서로 다른 값에 대해 P(H)P(E \mid H)P(H \mid E)의 값에 영향을 준다. 즉, 가설의 사후 확률은 사전 확률과 가능도(새로 관측된 증거와의 적합성)에 비례한다.

사후 확률 p(θ|X)는 베이즈 정리에 따라 다음과 같이 계산된다.

:p(\theta|X) = \frac{p(X|\theta) p(\theta)} {p(X)}

여기서 p(X|θ)는 가능도(우도), p(θ)는 사전 확률, p(X)는 증거(evidence)를 나타낸다.

A) P(A) 임을 보여준다.


곱셈 규칙을 사용하면 다음과 같이 표현할 수 있다.

:P(E \cap H) = P(E \mid H) P(H) = P(H \mid E) P(E).

A와 X를 이산 확률 변수로, A를 원인, X를 증거라고 할 때,

P(A|X)는 베이즈 정리에 의해

:

\begin{align}

P(A|X) &=\frac{P(X|A) P(A)}{P(X)} \\

&= \frac{P(X|A) P(A)}{\sum_{A}P(X|A) P(A)}

\end{align}



로 표현된다. 여기서 P(X|A)를 우도()라고 한다.

베이즈 확률 관점에서 위의 베이즈 정리 식은 다음과 같이 해석된다.

: 주관 확률 분포 P(A)에 P(X|A) / P(X)를 곱하여 증거 X를 고려, 더 객관적인 확률 분포 P(A|X)를 구한다.
예시:초콜릿칩 쿠키와 플레인 쿠키가 담긴 그릇이 두 개 있다. 그릇 1에는 초콜릿칩 쿠키 10개와 플레인 쿠키 30개, 그릇 2에는 각각 20개씩 들어 있다. 두 그릇 중 하나를 무작위로 선택하고, 쿠키를 하나 꺼냈더니 플레인 쿠키였다. 이 쿠키가 그릇 1에서 나왔을 확률은?

직관적으로 50% 이상(그릇 1에 플레인 쿠키가 더 많으므로)임을 알 수 있다. 베이즈 추정으로 정확한 답을 구하면, 그릇 1 선택 사건을 ''H''1, 그릇 2 선택 사건을 ''H''2라 하자.

그릇을 무작위로 선택하므로, 각 그릇 선택 확률은 ''P''(''H''1) = ''P''(''H''2) = 0.5이다.

"플레인 쿠키"라는 관찰 결과를 "데이터 ''D''"라 하면, 그릇 1에서 ''D''의 확률은 P(''D'' | ''H''1) = 30/40 = 0.75, 그릇 2에서는 P(''D'' | ''H''2) = 20/40 = 0.5이다. 베이즈 정리는 다음과 같다.

:\begin{align} P(H_1 | D) &= \frac{P(H_1) \cdot P(D | H_1)}{P(H_1) \cdot P(D | H_1) + P(H_2) \cdot P(D | H_2)} \\

& = \frac{0.5 \times 0.75}{0.5 \times 0.75 + 0.5 \times 0.5} = 0.6 \end{align}

쿠키를 보기 전 그릇 1 선택 확률(사전 확률)은 ''P''(''H''1) = 0.5, 쿠키를 본 후 확률은 ''P''(''H''1|''D'') = 0.6으로 수정된다.

2. 2. 통계적 추정

사후 분포를 이용하여 여러 가지 통계적 추정을 할 수 있다. 예를 들어, 새로운 데이터 x^*에 대한 확률 분포는 다음과 같이 추정할 수 있다.

:p(x^* | X) = \int_{\theta} p(x^*|\theta) p(\theta|X) \mathrm{d}\theta

3. 베이즈 정리의 이해

확률 변수 A와 X가 있을 때, A를 원인, X를 그에 대한 증거라고 가정하자.



P(A|X)는 베이즈 정리에 의해 다음과 같이 표현된다.

:

\begin{align}

P(A|X) &=\frac{P(X|A) P(A)}{P(X)} \\

&= \frac{P(X|A) P(A)}{\sum_{A}P(X|A) P(A)}

\end{align}



여기서 P(X|A)는 우도(likelihood)라고 하며, A의 함수로 생각하여 우도 함수 L(A|X) = P(X|A)라고도 한다. (L(A|X)는 A에 관한 확률 분포가 아니다.)

베이즈 확률 관점에서는 A를 상수로 둘 필요 없이 위와 같은 분포를 따르는 확률 변수로 생각할 수 있다. (이는 객관적으로 정의할 수 없으므로 주관 확률이다.) 이 관점에서 보면 베이즈 정리 식은 "주관 확률 분포 P(A)에 계수 P(X|A) / P(X)를 곱함으로써 증거 X를 고려하여 더 객관적인 확률 분포 P(A|X)를 구한다."라고 해석할 수 있다.

이처럼 확률 분포를 더 객관적으로 만드는 방법(베이즈 수정)을 이용하여 A를 추정하는 것이 베이즈 추정이다. 새로운 증거가 추가되면 사후 확률을 새롭게 사전 확률로 취급하여 베이즈 수정을 반복할 수도 있다. (더 높은 객관성이 기대된다.)

기존의 추측 통계학에서는 확률 분포 P(A)는 이미 결정된 것이므로, X를 조건으로 하는 확률 P(A|X)는 의미가 없다고 본다. 기존의 추측 통계학은 확고한 수학적 이론으로 여러 분야에 응용되고 있지만, 모수 a를 상수라고 가정한 상황에서 만들어진 이론이기 때문에 모집단을 결정하기 어려운 의학 응용 등에는 적합하지 않다는 비판이 있다. 반면, 베이즈 추정은 인간의 사고 과정을 모델화한 것이며, 인간의 사고 방식에 맞는다고 주장되기도 한다.

베이즈 추정에 대한 비판으로는 사전 확률이 주관적이고 유일하게 결정할 수 없으며, 이를 바탕으로 사후 확률을 구하더라도 객관적인 확률 분포에 수렴한다는 보장이 없다는 점 등이 있다. 그러나 컴퓨터를 이용한 방법의 발전에 따라 베이즈 추정 방법도 발전하여 스팸 메일을 식별하기 위한 베이지안 필터 등의 응용이 진행되고 있다. 사전 분포로는 정보가 없는 경우 균등 분포 등이 사용되며, 일반적으로 다른 사전 확률 분포에서 마르코프 연쇄 몬테카를로 방법 등으로 안정적인 결과를 얻을 수 있다면 실용적으로 문제가 없다고 본다.

3. 1. 공식 설명

베이즈 추론은 사전 확률과 관측된 데이터에 대한 통계적 모델에서 도출된 "가능도 함수"를 바탕으로 사후 확률을 도출한다. 베이즈 추론은 베이즈 정리를 사용하여 사후 확률을 계산한다.

베이즈 정리는 다음과 같이 표현된다.

:P(H \mid E) = \frac{P(E \mid H) \cdot P(H)}{P(E)}

여기서 각 기호는 다음을 의미한다.

  • H: 데이터(증거)에 의해 확률이 영향을 받을 수 있는 가설.
  • P(H): ''사전 확률''은 증거인 데이터 E가 관측되기 ''전'' 가설 H의 확률 추정치.
  • E: ''증거''는 사전 확률 계산에 사용되지 않은 새로운 데이터.
  • P(H \mid E): ''사후 확률''은 E를 고려했을 때 H의 확률, 즉 E가 관측된 ''후''의 확률.
  • P(E \mid H): ''가능도''는 H를 고려했을 때 E를 관측할 확률.
  • P(E): 한계 가능도 또는 "모델 증거"라고도 불리며, 모든 가능한 가설에 대해 동일.


H의 서로 다른 값에 대해 P(H)P(E \mid H)만이 P(H \mid E)의 값에 영향을 미친다. 즉, 가설의 사후 확률은 사전 확률과 가능도에 비례한다.

H의 논리적 부정인 \neg H("H가 아님")이 유효한 가능도인 경우 베이즈 규칙은 다음과 같이 다시 쓸 수 있다.

:

P(H \mid E) = \frac{P(E \mid H) P(H)}{P(E \mid H) P(H) + P(E \mid \neg H) P(\neg H)}



이는 다음의 식을 통해 유도된다.

: P(E) = P(E \mid H) P(H) + P(E \mid \neg H) P(\neg H)

: P(H) + P(\neg H) = 1

곱셈 규칙을 사용하면 방정식을 쉽게 기억할 수 있다.

:P(E \cap H) = P(E \mid H) P(H) = P(H \mid E) P(E)

3. 2. 베이즈 업데이트의 대안

이언 해킹은 전통적인 "네덜란드 책" 논증이 베이즈 업데이트를 명시하지 않았다는 점을 지적하며, 비베이즈 업데이트 규칙이 네덜란드 책을 피할 가능성을 열어두었다. 해킹은 다음과 같이 썼다.[3] "그리고 네덜란드 책 논증이나 확률 공리의 개인주의적 증명 무기고에 있는 다른 어떤 것도 동적 가정을 의미하지 않는다. 베이즈주의를 의미하는 것도 하나도 없다. 그래서 개인주의자는 베이즈적 동적 가정을 요구한다. 일관성 있게 개인주의자가 경험으로부터의 학습에 대한 베이즈 모델을 포기할 수 있다는 것은 사실이다. 소금이 제 맛을 잃을 수도 있다."

실제로, 리처드 제프리의 규칙(증거 자체에 확률이 할당되는 경우 베이즈 정리를 적용하는 규칙) 발표 이후 "확률 운동학"에 대한 문헌에서 논의된 바와 같이, 네덜란드 책을 피하는 비베이즈 업데이트 규칙도 있다.[4] 베이즈 업데이트를 독특하게 요구하는 데 필요한 추가 가설은 상당하고 복잡하며 만족스럽지 않은 것으로 간주되었다.[5]

4. 배타적이고 포괄적인 가능성에 대한 추론

베이즈 정리는 상호 배타적이고 포괄적인 명제 집합에 대한 신념을 동시에 갱신하는 데 사용될 수 있다. 즉, 여러 가능성 중에서 어떤 것이 참인지에 대한 믿음을 증거를 통해 업데이트하는 것이다. 이때 베이즈 추론은 이러한 믿음의 분포 전체에 작용하는 것으로 생각할 수 있다.[6]

4. 1. 일반 공식

증거가 상호 배타적이고 포괄적인 명제 집합에 대한 신념을 동시에 갱신하는 데 사용되는 경우, 베이즈 추론은 이 신념 분포 전체에 작용하는 것으로 생각할 수 있다.

베이즈 추론의 일반적인 공식에서 사건 공간 Ω을 보여주는 다이어그램. 이 다이어그램은 이산 모델과 사건을 보여주지만, 확률 밀도를 사용하여 연속적인 경우도 유사하게 시각화할 수 있다.


독립적이고 동일하게 분포된 사건 E_n,\ n = 1, 2, 3, \ldots을 생성하는 과정이 있다고 가정하되, 확률 분포는 알려져 있지 않다. 사건 공간 \Omega은 이 과정에 대한 현재 신념의 상태를 나타낸다. 각 모델은 사건 M_m으로 표현된다. 조건부 확률 P(E_n \mid M_m)은 모델을 정의하기 위해 지정된다. P(M_m)M_m에 대한 신념의 정도이다. 첫 번째 추론 단계 전에, \{P(M_m)\}은 초기 사전 확률들의 집합이다. 이들은 합계가 1이어야 하지만, 그 외에는 임의적이다.

과정이 E \in \{E_n\}을 생성하는 것으로 관찰되었다고 가정하면, 각 M \in \{M_m\}에 대해, 사전 확률 P(M)은 사후 확률 P(M \mid E)로 업데이트된다. 베이즈 정리에 따르면:[6]

::P(M \mid E) = \frac{P(E \mid M)}{\sum_m {P(E \mid M_m) P(M_m)}} \cdot P(M).

추가적인 증거를 관찰하면 이 절차를 반복할 수 있다. 독립 동일 분포(independent and identically distributed) 관측치의 수열 \mathbf{E} = (e_1, \dots, e_n)에 대해, 위 식을 반복적으로 적용하면 다음과 같이 유도할 수 있다.

::P(M \mid \mathbf{E}) = \frac{P(\mathbf{E} \mid M)}{\sum_m {P(\mathbf{E} \mid M_m) P(M_m)}} \cdot P(M),

여기서

::P(\mathbf{E} \mid M) = \prod_k{P(e_k \mid M)}.

4. 2. 다중 관측

독립 동일 분포(independent and identically distributed)를 따르는 관측치들의 수열 \mathbf{E} = (e_1, \dots, e_n)에 대해, 베이즈 정리를 반복적으로 적용하면 다음과 같은 식을 얻을 수 있다.[6]

P(M \mid \mathbf{E}) = \frac{P(\mathbf{E} \mid M)}{\sum_m {P(\mathbf{E} \mid M_m) P(M_m)}} \cdot P(M),

여기서

P(\mathbf{E} \mid M) = \prod_k{P(e_k \mid M)}.

이는 여러 관측치에 대해 베이즈 정리를 순차적으로 적용하여 사후 확률을 갱신하는 과정을 나타낸다. 즉, 각 관측치 e_k를 얻을 때마다 이전 단계에서 계산된 사후 확률을 새로운 사전 확률로 사용하여 베이즈 정리를 적용하는 것이다.

모델 공간을 매개변수화하면 모든 모델에 대한 신념을 한 번에 업데이트할 수 있다. 모델 공간에 대한 신념 분포는 매개변수 공간에 대한 신념 분포로 생각할 수 있다. 이 분포는 연속 분포로 표현되지만, 이산 분포에도 동일하게 적용할 수 있다.

매개변수 공간을 나타내는 벡터 \boldsymbol{\theta}를 정의하고, \boldsymbol{\theta}에 대한 초기 사전 분포를 p(\boldsymbol{\theta} \mid \boldsymbol{\alpha})라고 하자. 여기서 \boldsymbol{\alpha}는 사전 분포 자체의 매개변수인 초매개변수이다. \mathbf{E} = (e_1, \dots, e_n)을 독립 동일 분포 사건 관측치의 수열이라고 할 때, 베이즈 정리를 통해 \boldsymbol{\theta}에 대한 사후 분포는 다음과 같이 계산된다.[6]

\begin{align}

p(\boldsymbol{\theta} \mid \mathbf{E}, \boldsymbol{\alpha}) &= \frac{p(\mathbf{E} \mid \boldsymbol{\theta}, \boldsymbol{\alpha})}{p(\mathbf{E} \mid \boldsymbol{\alpha})} \cdot p(\boldsymbol{\theta} \mid \boldsymbol{\alpha}) \\

&= \frac{p(\mathbf{E} \mid \boldsymbol{\theta}, \boldsymbol{\alpha})}{\int p(\mathbf{E} \mid \boldsymbol{\theta}, \boldsymbol{\alpha}) p(\boldsymbol{\theta} \mid \boldsymbol{\alpha}) \, d\boldsymbol{\theta}} \cdot p(\boldsymbol{\theta} \mid \boldsymbol{\alpha}),

\end{align}

여기서

p(\mathbf{E} \mid \boldsymbol{\theta}, \boldsymbol{\alpha}) = \prod_k p(e_k \mid \boldsymbol{\theta}).

4. 3. 매개변수 공식화

모델 공간을 매개변수화하여 모든 모델에 대한 신념을 한 번에 업데이트할 수 있다. 독립적이고 동일하게 분포된 사건 E_n,\ n = 1, 2, 3, \ldots을 생성하는 과정이 있지만, 확률 분포는 알려져 있지 않다고 가정한다. 이 과정에 대한 현재 신념 상태를 나타내는 사건 공간 \Omega에서 각 모델은 사건 M_m으로 표현된다. 각 모델을 정의하기 위해 조건부 확률 P(E_n \mid M_m)이 지정되며, P(M_m)은 각 모델에 대한 신념의 정도를 나타낸다. 초기 사전 확률들의 집합 \{P(M_m)\}은 합이 1이어야 하며, 그 외에는 임의적이다.

과정이 E \in \{E_n\}을 생성하는 것으로 관찰되면, 각 모델 M \in \{M_m\}에 대해 사전 확률 P(M)베이즈 정리에 따라 사후 확률 P(M \mid E)로 업데이트된다.[6]

P(M \mid E) = \frac{P(E \mid M)}{\sum_m {P(E \mid M_m) P(M_m)}} \cdot P(M).

추가적인 증거를 관찰하면 이 절차를 반복할 수 있다. 독립 동일 분포 관측치의 수열 \mathbf{E} = (e_1, \dots, e_n)에 대해, 위 식을 반복 적용하면 다음과 같다.

P(M \mid \mathbf{E}) = \frac{P(\mathbf{E} \mid M)}{\sum_m {P(\mathbf{E} \mid M_m) P(M_m)}} \cdot P(M),

여기서

P(\mathbf{E} \mid M) = \prod_k{P(e_k \mid M)}.

매개변수 공간을 벡터 \boldsymbol{\theta}로 나타내고, \boldsymbol{\theta}에 대한 초기 사전 분포를 p(\boldsymbol{\theta} \mid \boldsymbol{\alpha})라고 한다. 여기서 \boldsymbol{\alpha}는 초매개변수이다. \mathbf{E} = (e_1, \dots, e_n)을 독립 동일 분포 사건 관측치의 시퀀스라고 하고, 베이즈 정리를 적용하여 \boldsymbol{\theta}에 대한 사후 분포를 구하면 다음과 같다.

\begin{align}

p(\boldsymbol{\theta} \mid \mathbf{E}, \boldsymbol{\alpha}) &= \frac{p(\mathbf{E} \mid \boldsymbol{\theta}, \boldsymbol{\alpha})}{p(\mathbf{E} \mid \boldsymbol{\alpha})} \cdot p(\boldsymbol{\theta} \mid \boldsymbol{\alpha}) \\

&= \frac{p(\mathbf{E} \mid \boldsymbol{\theta}, \boldsymbol{\alpha})}{\int p(\mathbf{E} \mid \boldsymbol{\theta}, \boldsymbol{\alpha}) p(\boldsymbol{\theta} \mid \boldsymbol{\alpha}) \, d\boldsymbol{\theta}} \cdot p(\boldsymbol{\theta} \mid \boldsymbol{\alpha}),

\end{align}

여기서

p(\mathbf{E} \mid \boldsymbol{\theta}, \boldsymbol{\alpha}) = \prod_k p(e_k \mid \boldsymbol{\theta}).

  • 사전 분포: 데이터 관측 전 매개변수 분포 (p(\theta \mid \alpha)). 제프리스 사전 분포를 사용할 수 있다.
  • 표본 분포: 매개변수를 조건으로 하는 관측 데이터 분포 (p(\mathbf{X} \mid \theta)). 우도 함수(\operatorname{L}(\theta \mid \mathbf{X}) = p(\mathbf{X} \mid \theta))라고도 한다.
  • 주변 우도(증거): 매개변수에 대해 주변화된 관측 데이터 분포 (p(\mathbf{X} \mid \alpha) = \int p(\mathbf{X} \mid \theta) p(\theta \mid \alpha) d\theta.). 데이터와 전문가 의견 간의 일치 정도를 나타낸다.[7]
  • 사후 분포: 관측 데이터를 고려한 후의 매개변수 분포. 베이즈 정리에 의해 결정된다.


p(\theta \mid \mathbf{X},\alpha) = \frac{p(\mathbf{X}\mid\theta,\alpha) p(\theta \mid \alpha)}{p(\mathbf{X} \mid \alpha)} \propto p(\mathbf{X} \mid \theta,\alpha) p(\theta \mid \alpha).

이는 "사후 확률 = (우도 × 사전 확률) / 증거"로 표현된다.

실제 복잡한 베이즈 모델에서는 사후 분포 p(\theta \mid \mathbf{X},\alpha)를 폐쇄 형태로 얻기 어렵기 때문에 근사 기법을 사용한다.[8]

일반적인 경우, 조건부 분포와 결합 분포를 통해 베이즈 정리가 사전 분포에서 사후 분포를 결정한다. 콜모고로프는 조건부 확률의 중요성을 강조했다.[9] 베이즈 정리는 부적절한 사전 분포를 포함하도록 일반화할 수 있으며, 마르코프 연쇄 몬테카를로 방법은 이러한 경우를 포함하여 베이즈 정리의 중요성을 높였다.[12]

5. 베이즈 추론의 형식적 설명

베이즈 추론은 추론 대상 θ에 대한 사전 확률 p(θ)와 θ와 관련된 관측 X의 확률 분포 p(X|θ)를 이용하여, X가 주어졌을 때 θ의 사후 분포 p(θ|X)를 베이즈 정리를 통해 계산한다.[6]

:p(\theta|X) = \frac{p(\theta, X)}{p(X)} = \frac{p(X|\theta) p(\theta)} {p(X)}

이 분포를 통해 새로운 자료 x*에 대한 확률분포 등을 추정할 수 있다.

:p(x^* | X) = \int_{\theta} p(x^*|\theta) p(\theta|X) \mathrm{d}\theta

독립적이고 동일하게 분포된(independent and identically distributed) 사건 E_n (n = 1, 2, 3, ...)을 생성하는 과정에서 확률 분포가 알려져 있지 않다고 가정할 때, 각 모델은 사건 M_m으로 표현되며 조건부 확률 P(E_n \mid M_m)으로 정의된다. P(M_m)M_m에 대한 신념의 정도이며, 초기 사전 확률들의 집합 \{P(M_m)\}에서 시작한다.

과정이 E \in \{E_n\}을 생성하는 것으로 관찰되면, 각 M \in \{M_m\}에 대해 사전 확률 P(M)베이즈 정리에 따라 사후 확률 P(M \mid E)로 업데이트된다.[6]

:P(M \mid E) = \frac{P(E \mid M)}{\sum_m {P(E \mid M_m) P(M_m)}} \cdot P(M).

이는 추가적인 증거를 관찰하며 반복될 수 있다. 독립 동일 분포 관측치의 수열 \mathbf{E} = (e_1, \dots, e_n)에 대해 반복 적용하면 다음과 같다.

:P(M \mid \mathbf{E}) = \frac{P(\mathbf{E} \mid M)}{\sum_m {P(\mathbf{E} \mid M_m) P(M_m)}} \cdot P(M),

여기서

:P(\mathbf{E} \mid M) = \prod_k{P(e_k \mid M)}.

모델 공간을 매개변수화하면 모든 모델에 대한 신념을 단일 단계로 업데이트할 수 있다. 모델 공간에 대한 신념 분포는 매개변수 공간에 대한 신념 분포로 생각할 수 있다.

벡터 \boldsymbol{\theta}가 매개변수 공간을 나타내고, \boldsymbol{\theta}에 대한 초기 사전 분포를 p(\boldsymbol{\theta} \mid \boldsymbol{\alpha}) (여기서 \boldsymbol{\alpha}는 초매개변수)라고 할 때, 독립 동일 분포 사건 관측치의 시퀀스 \mathbf{E} = (e_1, \dots, e_n)에 대해 베이즈 정리를 적용하여 \boldsymbol{\theta}에 대한 사후 분포를 구한다.

:\begin{align}

p(\boldsymbol{\theta} \mid \mathbf{E}, \boldsymbol{\alpha}) &= \frac{p(\mathbf{E} \mid \boldsymbol{\theta}, \boldsymbol{\alpha})}{p(\mathbf{E} \mid \boldsymbol{\alpha})} \cdot p(\boldsymbol{\theta} \mid \boldsymbol{\alpha}) \\

&= \frac{p(\mathbf{E} \mid \boldsymbol{\theta}, \boldsymbol{\alpha})}{\int p(\mathbf{E} \mid \boldsymbol{\theta}, \boldsymbol{\alpha}) p(\boldsymbol{\theta} \mid \boldsymbol{\alpha}) \, d\boldsymbol{\theta}} \cdot p(\boldsymbol{\theta} \mid \boldsymbol{\alpha}),

\end{align}

여기서

:p(\mathbf{E} \mid \boldsymbol{\theta}, \boldsymbol{\alpha}) = \prod_k p(e_k \mid \boldsymbol{\theta}).

베이즈 추론에서는 다음과 같은 용어들이 사용된다.


  • 사전 분포: 데이터 관측 전 매개변수(들)의 분포 (p(\theta \mid \alpha)).
  • 표본 분포: 매개변수를 조건으로 하는 관측된 데이터의 분포 (p(\mathbf{X} \mid \theta)) 또는 우도 함수 (\operatorname{L}(\theta \mid \mathbf{X}) = p(\mathbf{X} \mid \theta)).
  • 주변 우도 (또는 '증거'): 매개변수(들)에 대해 주변화된 관측된 데이터의 분포 (p(\mathbf{X} \mid \alpha) = \int p(\mathbf{X} \mid \theta) p(\theta \mid \alpha) d\theta).[7]
  • 사후 분포: 관측된 데이터를 고려한 후의 매개변수(들)의 분포로, 베이즈 정리에 의해 결정된다.


:p(\theta \mid \mathbf{X},\alpha) = \frac{p(\mathbf{X} \mid \theta,\alpha) p(\theta \mid \alpha)}{p(\mathbf{X} \mid \alpha)} \propto p(\mathbf{X} \mid \theta,\alpha) p(\theta \mid \alpha).

이는 "사후 확률은 우도 × 사전 확률에 비례한다" 또는 "사후 확률 = (우도 × 사전 확률) / 증거"로 표현된다.

복잡한 베이즈 모델의 경우, 사후 분포는 폐쇄 형태 분포로 얻어지지 않는 경우가 많아 근사 기법을 이용해야 한다.[8]

일반적으로 P_Y^x X = x일 때 Y의 조건부 분포, P_XX의 분포라고 하면, 결합 분포는 P_{X,Y} (dx,dy) = P_Y^x (dy) P_X (dx)이다. Y=y일 때 X의 조건부 분포 P_X^y P_X^y (A) = E (1_A (X) | Y = y)로 결정된다. 콜모고로프는 조건부 확률의 중요성을 강조했으며,[9] 베이즈 정리는 부적절한 사전 분포를 포함하도록 일반화될 수 있다.[11]

5. 1. 정의

베이즈 추론은 사전 확률과 관측된 데이터에 대한 통계적 모델에서 도출된 "가능도 함수"를 이용하여 사후 확률을 도출한다. 베이즈 추론은 베이즈 정리를 사용하여 사후 확률을 계산한다.

:P(H \mid E) = \frac{P(E \mid H) \cdot P(H)}{P(E)}

여기서,

  • H는 데이터(증거)에 의해 확률이 영향을 받을 수 있는 임의의 가설을 나타낸다.
  • P(H), ''사전 확률''은 증거인 데이터 E가 관측되기 ''전'' 가설 H의 확률에 대한 추정치이다.
  • E, ''증거''는 사전 확률을 계산하는 데 사용되지 않은 새로운 데이터이다.
  • P(H \mid E), ''사후 확률''은 E를 고려했을 때 H의 확률, 즉 E가 관측된 ''후''의 확률이다.
  • P(E \mid H)H를 고려했을 때 E를 관측할 확률이며 ''가능도''라고 한다.
  • P(E)는 때때로 한계 가능도 또는 "모델 증거"라고 한다. 이 요소는 고려 중인 모든 가능한 가설에 대해 동일하므로, 서로 다른 가설의 상대적 확률을 결정하는 데 영향을 미치지 않는다.
  • P(E)>0


H의 서로 다른 값에 대해 P(H)P(E \mid H) 요소만 P(H \mid E)의 값에 영향을 미친다. 즉, 가설의 사후 확률은 그 고유한 가능성인 사전 확률과 새로 얻은 가능도(새로 관측된 증거와의 적합성)에 비례한다.

H의 논리적 부정인 \neg H("H가 아님")이 유효한 가능도인 경우 베이즈 규칙은 다음과 같이 다시 쓸 수 있다.

:\begin{align}

P(H \mid E) &= \frac{P(E \mid H) P(H)}{P(E)} \\

&= \frac{P(E \mid H) P(H)}{P(E \mid H) P(H) + P(E \mid \neg H) P(\neg H)} \\

&= \frac{1}{1 + \left(\frac{1}{P(H)} - 1\right) \frac{P(E \mid \neg H)}{P(E \mid H)} }

\end{align}

이는

: P(E) = P(E \mid H) P(H) + P(E \mid \neg H) P(\neg H)



: P(H) + P(\neg H) = 1

때문이다.

방정식을 쉽게 기억하는 방법은 곱셈 규칙을 사용하는 것이다.

:P(E \cap H) = P(E \mid H) P(H) = P(H \mid E) P(E)

독립 동일 분포 관측치의 수열 \mathbf{E} = (e_1, \dots, e_n)에 대해, 위 식을 반복적으로 적용하면 다음과 같이 유도할 수 있다.

:P(M \mid \mathbf{E}) = \frac{P(\mathbf{E} \mid M)}{\sum_m {P(\mathbf{E} \mid M_m) P(M_m)}} \cdot P(M)

여기서

:P(\mathbf{E} \mid M) = \prod_k{P(e_k \mid M)}

모델 공간을 매개변수화함으로써 모든 모델에 대한 신념을 단일 단계로 업데이트할 수 있다. 그러면 모델 공간에 대한 신념 분포를 매개변수 공간에 대한 신념 분포로 생각할 수 있다.

벡터 \boldsymbol{\theta}가 매개변수 공간을 나타낸다고 할 때, \boldsymbol{\theta}에 대한 초기 사전 분포를 p(\boldsymbol{\theta} \mid \boldsymbol{\alpha})라고 한다. 여기서 \boldsymbol{\alpha}는 사전 자체에 대한 매개변수 집합 또는 초매개변수이다. \mathbf{E} = (e_1, \dots, e_n)을 모든 e_i가 어떤 \boldsymbol{\theta}에 대해 p(e \mid \boldsymbol{\theta})로 분포된 독립 동일 분포 사건 관측치의 시퀀스라고 하면, 베이즈 정리를 적용하여 \boldsymbol{\theta}에 대한 사후 분포를 찾을 수 있다.

:\begin{align}

p(\boldsymbol{\theta} \mid \mathbf{E}, \boldsymbol{\alpha}) &= \frac{p(\mathbf{E} \mid \boldsymbol{\theta}, \boldsymbol{\alpha})}{p(\mathbf{E} \mid \boldsymbol{\alpha})} \cdot p(\boldsymbol{\theta} \mid \boldsymbol{\alpha}) \\

&= \frac{p(\mathbf{E} \mid \boldsymbol{\theta}, \boldsymbol{\alpha})}{\int p(\mathbf{E} \mid \boldsymbol{\theta}, \boldsymbol{\alpha}) p(\boldsymbol{\theta} \mid \boldsymbol{\alpha}) \, d\boldsymbol{\theta}} \cdot p(\boldsymbol{\theta} \mid \boldsymbol{\alpha})

\end{align}

여기서

:p(\mathbf{E} \mid \boldsymbol{\theta}, \boldsymbol{\alpha}) = \prod_k p(e_k \mid \boldsymbol{\theta})

  • x는 일반적인 데이터 포인트이다.
  • \theta는 데이터 포인트 분포의 모수이다.
  • \alpha는 모수 분포의 초모수이다.
  • \mathbf{X}n개의 관측된 데이터 포인트 x_1, \ldots, x_n의 집합인 표본이다.
  • \tilde{x}는 분포를 예측해야 하는 새로운 데이터 포인트이다.


다음은 베이즈 추론에서 사용되는 용어들이다.

  • 사전 분포는 어떠한 데이터도 관측되기 전 매개변수(들)의 분포, 즉 p(\theta \mid \alpha)이다.
  • 표본 분포는 그 매개변수를 조건으로 하는 관측된 데이터의 분포, 즉 p(\mathbf{X} \mid \theta)이다.
  • 주변 우도(때로는 '증거'라고도 함)는 매개변수(들)에 대해 주변화된 관측된 데이터의 분포, 즉 p(\mathbf{X} \mid \alpha) = \int p(\mathbf{X} \mid \theta) p(\theta \mid \alpha) d\theta이다.
  • 사후 분포는 관측된 데이터를 고려한 후의 매개변수(들)의 분포이다. 이것은 베이즈 정리에 의해 결정된다.


:p(\theta \mid \mathbf{X},\alpha) = \frac{p(\mathbf{X} \mid \theta,\alpha) p(\theta \mid \alpha)}{p(\mathbf{X} \mid \alpha)} \propto p(\mathbf{X} \mid \theta,\alpha) p(\theta \mid \alpha)

이는 "사후 확률은 우도 × 사전 확률에 비례한다" 또는 "사후 확률 = (우도 × 사전 확률) / 증거"로 표현된다.

일반적인 경우, P_Y^xX=x가 주어졌을 때 Y의 조건부 분포라고 하고, P_XX의 분포라고 하면, 결합 분포는 P_{X,Y} (dx,dy) = P_Y^x (dy) P_X (dx)이다. Y=y가 주어졌을 때 X의 조건부 분포 P_X^yP_X^y (A) = E (1_A (X) | Y = y)로 결정된다.

5. 2. 베이즈 추론

베이즈 추론은 추론 대상 \theta에 대한 사전 확률 p(\theta)를 기반으로, 관측 X가 주어졌을 때 \theta의 사후 분포 p(\theta|X)를 계산한다. 이때 베이즈 정리를 이용하여 다음과 같이 계산할 수 있다.

:p(\theta|X) = \frac{p(\theta, X)}{p(X)} = \frac{p(X|\theta) p(\theta)} {p(X)}

이 분포를 통해 새로운 자료 x^*에 대한 확률분포 추정 등 다양한 통계적 추정이 가능하다.

:p(x^* | X) = \int_{\theta} p(x^*|\theta) p(\theta|X) \mathrm{d}\theta

베이즈 추론은 사전 확률과 가능도 함수를 통해 사후 확률을 도출하며, 베이즈 정리를 사용하여 사후 확률을 계산한다.

:P(H \mid E) = \frac{P(E \mid H) \cdot P(H)}{P(E)},

여기서 사용되는 기호는 다음과 같다.

  • H: 데이터에 의해 영향을 받는 가설
  • P(H): 사전 확률, 데이터 관측 전 가설 H의 확률
  • E: 증거, 새로운 데이터
  • P(H \mid E): 사후 확률, E 관측 후 H의 확률
  • P(E \mid H): 가능도, H가 주어졌을 때 E를 관측할 확률
  • P(E): 한계 가능도 또는 모델 증거


H의 논리적 부정 \neg H를 고려하면 베이즈 규칙은 다음과 같이 표현 가능하다.

:\begin{align}

P(H \mid E) &= \frac{P(E \mid H) P(H)}{P(E)} \\ \\

&= \frac{P(E \mid H) P(H)}{P(E \mid H) P(H) + P(E \mid \neg H) P(\neg H)}

\end{align}

이는 조건부 확률의 곱셈 규칙을 사용하여 쉽게 이해할 수 있다.

:P(E \cap H) = P(E \mid H) P(H) = P(H \mid E) P(E).

독립 동일 분포 관측치의 수열 \mathbf{E} = (e_1, \dots, e_n)에 대해 베이즈 정리를 반복 적용하면 다음과 같다.

:P(M \mid \mathbf{E}) = \frac{P(\mathbf{E} \mid M)}{\sum_m {P(\mathbf{E} \mid M_m) P(M_m)}} \cdot P(M),

여기서

:P(\mathbf{E} \mid M) = \prod_k{P(e_k \mid M)}.

모델 공간을 매개변수화하면 모든 모델에 대한 신념을 단일 단계로 업데이트할 수 있다. 매개변수 공간에 대한 초기 사전 분포 p(\boldsymbol{\theta} \mid \boldsymbol{\alpha})와 베이즈 정리를 통해 사후 분포를 계산한다.

:\begin{align}

p(\boldsymbol{\theta} \mid \mathbf{E}, \boldsymbol{\alpha}) &= \frac{p(\mathbf{E} \mid \boldsymbol{\theta}, \boldsymbol{\alpha})}{p(\mathbf{E} \mid \boldsymbol{\alpha})} \cdot p(\boldsymbol{\theta} \mid \boldsymbol{\alpha}) \\

&= \frac{p(\mathbf{E} \mid \boldsymbol{\theta}, \boldsymbol{\alpha})}{\int p(\mathbf{E} \mid \boldsymbol{\theta}, \boldsymbol{\alpha}) p(\boldsymbol{\theta} \mid \boldsymbol{\alpha}) \, d\boldsymbol{\theta}} \cdot p(\boldsymbol{\theta} \mid \boldsymbol{\alpha}),

\end{align}

여기서

:p(\mathbf{E} \mid \boldsymbol{\theta}, \boldsymbol{\alpha}) = \prod_k p(e_k \mid \boldsymbol{\theta}).

  • x: 일반적인 데이터 포인트
  • \theta: 데이터 포인트 분포의 모수
  • \alpha: 모수 분포의 초모수
  • \mathbf{X}: 관측된 데이터 포인트 집합
  • \tilde{x}: 예측해야 하는 새로운 데이터 포인트


베이즈 추론은 사전 분포, 표본 분포, 주변 우도, 사후 분포 등의 개념을 통해 이루어진다.

  • 사전 분포: p(\theta \mid \alpha)
  • 표본 분포: p(\mathbf{X} \mid \theta) 또는 \operatorname{L}(\theta \mid \mathbf{X})
  • 주변 우도: p(\mathbf{X} \mid \alpha) = \int p(\mathbf{X} \mid \theta) p(\theta \mid \alpha) d\theta.
  • 사후 분포: p(\theta \mid \mathbf{X},\alpha) = \frac{p(\mathbf{X}\mid\theta,\alpha) p(\theta \mid \alpha)}{p(\mathbf{X} \mid \alpha)} \propto p(\mathbf{X} \mid \theta,\alpha) p(\theta \mid \alpha).


복잡한 베이즈 모델의 경우, 사후 분포는 폐쇄 형태 분포로 얻어지지 않아 근사 기법이 필요하다.[8]

일반적인 경우, 조건부 분포와 결합 분포를 통해 베이즈 정리가 사전 분포에서 사후 분포를 결정한다. 콜모고로프는 조건부 확률의 중요성을 강조했으며,[9] 베이즈 정리는 부적절한 사전 분포를 포함하도록 일반화될 수 있다.[11]

5. 3. 베이즈 예측

베이즈 추론에서, 관측되지 않은 새로운 자료(x^*)에 대한 확률분포는 다음과 같이 추정된다.[7]

:p(x^* | X) = \int_{\theta} p(x^*|\theta) p(\theta|X) \mathrm{d}\theta

  • 사후 예측 분포*는 사후 분포에 대해 주변화된 새로운 데이터 점(\tilde{x})의 분포이며, 다음과 같이 표현된다.


:p(\tilde{x} \mid \mathbf{X},\alpha) = \int p(\tilde{x} \mid \theta) p(\theta \mid \mathbf{X},\alpha) d\theta

  • 사전 예측 분포*는 사전 분포에 대해 주변화된 새로운 데이터 점의 분포이며, 다음과 같이 표현된다.


:p(\tilde{x} \mid \alpha) = \int p(\tilde{x} \mid \theta) p(\theta \mid \alpha) d\theta

베이즈 이론에서는 예측 추론을 수행하기 위해, 즉 새로운 관측되지 않은 데이터 점의 분포를 예측하기 위해 사후 예측 분포를 사용해야 한다. 이는 예측값으로 고정된 점 대신 가능한 점들의 분포가 반환되기 때문이다. 이 방법만이 매개변수의 전체 사후 분포를 사용할 수 있다. 반면에 빈도주의 통계학에서는 매개변수의 최적 점 추정값(예: 최대 우도 또는 최대 사후 확률 추정)을 찾고, 이 추정값을 데이터 점의 분포 공식에 대입하는 방식을 사용한다. 이 방식은 매개변수 값의 불확실성을 고려하지 않아 예측 분포의 분산을 과소평가하는 단점이 있다.[7]

빈도주의 통계학에서도 어떤 경우에는 이 문제를 해결할 수 있다. 예를 들어, 알려지지 않은 평균분산을 갖는 정규 분포에서 구성된 빈도주의 통계학의 신뢰 구간과 예측 구간은 스튜던트 t-분포를 사용하여 구성된다. 이는 (1) 정규 분포된 확률 변수들의 평균도 정규 분포되고, (2) 알려지지 않은 평균과 분산을 갖는 정규 분포된 데이터 점의 예측 분포는 공액 사전 분포 또는 비정보 사전 분포를 사용할 때 스튜던트 t-분포를 따르기 때문에 분산을 정확하게 추정하기 때문이다. 그러나 베이즈 통계학에서는 사후 예측 분포를 항상 정확하게, 혹은 수치적 방법을 사용할 때 임의의 정밀도까지 결정할 수 있다.[7]

두 가지 유형의 예측 분포는 모두 복합 확률 분포의 형태를 갖는다. 사전 분포가 공액 사전 분포여서 사전 분포와 사후 분포가 같은 분포족에 속하는 경우, 사전 예측 분포와 사후 예측 분포도 같은 복합 분포족에 속한다. 유일한 차이점은 사후 예측 분포가 (공액 사전 분포 문서에 나와 있는 베이즈 업데이트 규칙을 적용하여) 업데이트된 초매개변수 값을 사용하는 반면, 사전 예측 분포는 사전 분포에 나타나는 초매개변수 값을 사용한다는 것이다.[7]

6. 수학적 속성

베이즈 추론은 몇 가지 중요한 수학적 속성을 가지고 있다. 베이즈 추론에서는 추론 대상 \theta에 대한 사전 확률 p(\theta)가 주어진다. \theta와 관계된 관측 X의 확률 분포가 p(X|\theta)와 같이 주어질 때, 베이즈 추론은 X가 추가적으로 주어졌을 때의 \theta의 분포 p(\theta|X)베이즈 정리를 이용하여 계산한다.

:p(\theta|X) = \frac{p(\theta, X)}{p(X)} = \frac{p(X|\theta) p(\theta)} {p(X)}

이 분포를 이용하여, 관측하지 않은 새로운 자료 x^*에 대한 확률분포 등을 추정할 수 있다.

:p(x^* | X) = \int_{\theta} p(x^*|\theta) p(\theta|X) \mathrm{d}\theta

베이즈 추론은 상호 배타적이고 포괄적인 명제 집합에 대한 신념을 갱신하는 데 사용되며, 이때 신념 분포 전체에 작용하는 것으로 생각할 수 있다. 여기서 사용되는 변수는 다음과 같다.


  • x: 일반적인 데이터 포인트 (실제로는 벡터일 수 있음)
  • \theta: 데이터 포인트 분포의 모수 (벡터 모수일 수 있음)
  • \alpha: 모수 분포의 초모수 (벡터 초모수일 수 있음)
  • \mathbf{X}: 표본 (n개의 관측된 데이터 포인트 집합)
  • \tilde{x}: 분포를 예측해야 하는 새로운 데이터 포인트


사전 분포, 표본 분포(우도 함수), 주변 우도(증거), 사후 분포 등의 개념이 사용되며, 특히 사후 분포는 베이즈 추론의 핵심을 이루는 베이즈 정리에 의해 결정된다.

:p(\theta \mid \mathbf{X},\alpha) = \frac{p(\theta,\mathbf{X},\alpha)}{p(\mathbf{X},\alpha)} = \frac{p(\mathbf{X}\mid\theta,\alpha)p(\theta,\alpha)}{p(\mathbf{X}\mid\alpha)p(\alpha)}

= \frac{p(\mathbf{X} \mid \theta,\alpha) p(\theta \mid \alpha)}{p(\mathbf{X} \mid \alpha)} \propto p(\mathbf{X} \mid \theta,\alpha) p(\theta \mid \alpha).

이는 "사후 확률은 우도 × 사전 확률에 비례한다" 또는 "사후 확률 = (우도 × 사전 확률) / 증거"로 표현된다.

일반적으로, 기계 학습에 사용되는 복잡한 베이즈 모델의 경우 사후 분포를 폐쇄 형태 분포로 얻기 어렵기 때문에 근사 기법을 이용해야 한다.[8]

콜모고로프조건부 확률과 조건부 기댓값의 이론을 공식화했으며, 라돈-니코딤 정리를 통해 조건부 기댓값의 존재와 유일성이 보장된다.[9] 베이즈 정리는 사전 분포에서 사후 분포를 결정하며, 유일성에는 연속성 가정이 필요하다.[10] 또한, 베이즈 정리는 부적절한 사전 분포를 포함하도록 일반화될 수 있으며, 마르코프 연쇄 몬테카를로 방법은 이러한 경우를 포함하여 베이즈 정리의 중요성을 높였다.[12]

6. 1. 인자 해석

\frac{P(E \mid M)}{P(E)} > 1이면 모델이 참일 때 증거가 더 가능성이 높다는 것을 의미한다.[7] 즉, 모형이 참이라면 증거는 현재 신념 상태에서 예측되는 것보다 더 가능성이 높다. 신념이 감소하는 경우에는 그 반대가 적용된다. 신념이 변하지 않으면 \frac{P(E \mid M)}{P(E)} = 1이다. 즉, 증거는 모형과 독립적이다. 모형이 참이라면 증거는 현재 신념 상태에서 예측되는 것과 정확히 같은 가능성을 가진다.

6. 2. 크롬웰의 규칙

만약 P(M) = 0이면 P(M|E) = 0이다. 만약 P(M) = 1이고 P(E) > 0이면, P(M|E) = 1이다. 이는 확고한 확신은 반증에 무감각하다는 것을 의미하는 것으로 해석될 수 있다.

전자는 베이즈 정리에서 직접적으로 도출된다. 후자는 사건 “M이 아님”을 "M" 대신에 적용하여 첫 번째 규칙을 적용함으로써 도출될 수 있으며, "만약 1 - P(M) = 0이면, 1 - P(M|E) = 0"을 얻고, 그 결과가 즉시 도출된다.

6. 3. 사후 확률의 점근적 행동

많은 횟수의 독립 동일 분포 시행으로 신뢰 분포가 업데이트될 때, 충분히 좋은 사전 확률에 대해 베르누이-폰 미제스 정리는 사후 분포가 초기 사전 분포와 독립적인 정규 분포로 수렴한다는 것을 보여준다.[13][14][15] 이는 1948년 조셉 L. 두브가 처음으로 개략적으로 설명하고 엄밀하게 증명한 조건, 즉 고려 중인 확률 변수가 유한한 확률 공간을 가질 경우에 해당한다.

하지만 확률 변수가 무한하지만 가산적인 확률 공간(무한히 많은 면을 가진 주사위에 해당)을 가지는 경우, 사전 분포의 밀집 부분집합에 대해 베르누이-폰 미제스 정리가 적용될 수 없음을 보여준다. 이 경우에는 거의 확실히 점근적 수렴이 없다.

요약하자면, 초기 선택의 영향을 억제하기에는 충분한 시행이 없을 수 있으며, 특히 크지만 유한한 시스템의 경우 수렴이 매우 느릴 수 있다.

6. 4. 켤레 사전 확률

켤레 사전 확률은 사후 분포 계산을 닫힌 형태로 표현할 수 있게 해주는 유용한 도구이다.[7]

매개변수 형태에서, 사전 확률 분포는 종종 켤레 사전 확률이라고 불리는 분포족에서 나온다고 가정한다. 켤레 사전 확률을 사용하면 해당 사후 확률 분포가 같은 족에 속하게 되며, 계산을 닫힌 형태로 표현할 수 있다는 장점이 있다.[7][9][10][11][12]

6. 5. 모수 및 예측 추정

사후 분포를 사용하여 모수 또는 변수를 추정할 수 있다.[16][17][18][19][20] 베이즈 추정 방법은 사후 분포에서 중심 경향의 측정값을 선택한다.

1차원 문제의 경우, 실제 연속 문제에 대해 고유한 중앙값이 존재한다. 사후 중앙값은 강건 추정량으로서 매력적이다.[16]

사후 분포에 유한 평균이 존재하는 경우, 사후 평균은 추정 방법이 된다.[17]

:\tilde \theta = \operatorname{E}[\theta] = \int \theta \, p(\theta \mid \mathbf{X},\alpha) \, d\theta

가장 큰 확률을 가진 값을 취하는 것은 최대 사후 확률(MAP) 추정을 정의한다.[18]

:\{ \theta_{\text{MAP}}\} \subset \arg \max_\theta p(\theta \mid \mathbf{X},\alpha) .

최댓값이 달성되지 않는 예가 있는데, 이 경우 MAP 추정값의 집합은 공집합이다.

사후 위험(기대 사후 손실)을 손실 함수에 대해 최소화하는 다른 추정 방법이 있으며, 이는 표본 분포("빈도주의 통계")를 사용하는 통계적 의사결정 이론에 관심이 있다.[19]

새로운 관측값 \tilde{x}(이전 관측값과 독립적인)의 사후 예측 분포는 다음과 같이 결정된다.[20]

:p(\tilde{x}|\mathbf{X},\alpha) = \int p(\tilde{x},\theta \mid \mathbf{X},\alpha) \, d\theta = \int p(\tilde{x} \mid \theta) p(\theta \mid \mathbf{X},\alpha) \, d\theta .

7. 응용 사례

베이즈 추론은 여러 분야에서 활용되며, 특히 증거를 바탕으로 신념을 갱신하거나 의사 결정을 내리는 데 유용하다.
모델 선택: 베이지안 방법론은 관측된 데이터를 가장 잘 설명하는 모델을 선택하는 데 사용된다. 데이터가 주어졌을 때 가장 높은 사후 확률을 갖는 모델이 선택되며, 이는 한계 우도와 모델에 대한 사전 신념에 따라 결정된다. 두 경쟁 모델의 사전 확률이 동일하다고 가정하면, 사후 확률의 비율은 베이즈 팩터와 같다. 이러한 방법은 최대 사후 확률(MAP) 선택 규칙[29] 또는 MAP 확률 규칙[30]이라고도 한다.

베이즈 추론은 다음과 같은 다양한 응용 사례를 가진다.


  • 가설의 확률 계산: 베이즈 정리를 통해 특정 가설의 확률을 계산한다.
  • 예측: 고고학 유적지의 거주 시기를 추정하는 등, 과거 또는 미래 사건을 예측한다.
  • 임상 검사: 질병 검사 결과의 신뢰도를 평가하고 위양성 확률을 계산한다.
  • 법정: 증거를 종합하여 피고인의 유무죄를 추정한다.
  • 사고 수색: 잠수함 침몰 사고와 같이, 사고 발생 위치를 추정하고 수색 범위를 좁힌다.
  • 문제 해결: 몬티 홀 문제와 같이, 확률 기반의 의사 결정 문제 해결에 활용된다.
  • 모수 추정: 이항 분포의 모수와 같이, 확률 분포의 모수를 추정한다.
  • 임상 시험: 신약의 효과를 평가하고, 작은 표본으로도 모수를 추정한다.


각 응용 사례에 대한 자세한 내용은 하위 섹션( #가설의 확률, #예측, #임상 검사에서의 위양성, #법정, #잠수함 침몰 사고, #몬티 홀 문제, #이항 분포 모수의 사후 분포, #임상 시험 )을 참조한다.

7. 1. 가설의 확률

H1#2
H2합계플레인, E302050초콜릿, ¬E102030합계404080



P(H_1) = P(H_2) = 0.5 (두 그릇을 고를 확률은 같다)

P(E \mid H_1) = 30/40 = 0.75 (그릇 #1에서 플레인 쿠키를 고를 확률)

P(E \mid H_2) = 20/40 = 0.5 (그릇 #2에서 플레인 쿠키를 고를 확률)

베이즈 정리를 이용하면,

:P(H_1 \mid E) = \frac{0.75 \times 0.5}{0.75 \times 0.5 + 0.5 \times 0.5} = 0.6

즉, 플레인 쿠키가 그릇 #1에서 나왔을 확률은 0.6이다.

7. 2. 예측



한 고고학자가 11세기부터 16세기까지의 중세 시대 유적지에서 발굴 작업을 하고 있다. 유적지의 정확한 거주 시기는 불확실하지만, 발견된 토기 파편들의 유약 및 장식 여부를 통해 추정할 수 있다. 초기 중세 시대에는 토기의 1%가 유약 처리, 50%가 장식되었고, 후기 중세 시대에는 81%가 유약 처리, 5%가 장식되었다고 가정한다.

연속 변수 C (세기)에 대한 신뢰도를 계산하고, \{GD,G \bar D, \bar G D, \bar G \bar D\} (유약과 장식 여부에 따른 파편 종류)를 증거로 사용한다. 시간에 따른 유약과 장식의 선형적 변화, 그리고 이 변수들의 독립성을 가정하면 다음과 같은 확률을 계산할 수 있다.

P(E=GD \mid C=c) = (0.01 + \frac{0.81-0.01}{16-11}(c-11))(0.5 - \frac{0.5-0.05}{16-11}(c-11))

P(E=G \bar D \mid C=c) = (0.01 + \frac{0.81-0.01}{16-11}(c-11))(0.5 + \frac{0.5-0.05}{16-11}(c-11))

P(E=\bar G D \mid C=c) = ((1-0.01) - \frac{0.81-0.01}{16-11}(c-11))(0.5 - \frac{0.5-0.05}{16-11}(c-11))

P(E=\bar G \bar D \mid C=c) = ((1-0.01) - \frac{0.81-0.01}{16-11}(c-11))(0.5 + \frac{0.5-0.05}{16-11}(c-11))

f_C(c) = 0.2의 균일한 사전 확률을 가정하고, 각 파편 발견이 독립 동일 분포라고 가정한다. 새로운 파편 e가 발견될 때마다 베이즈 정리를 적용하여 각 세기 c에 대한 신뢰도를 업데이트한다.

f_C(c \mid E=e) = \frac{P(E=e \mid C=c)}{P(E=e)}f_C(c) = \frac{P(E=e \mid C=c)}{\int_{11}^{16}{P(E=e \mid C=c)f_C(c)dc}}f_C(c)

컴퓨터 시뮬레이션 결과, 50개의 파편을 발굴했을 때 유적지가 1420년경(c=15.2)에 거주되었을 가능성이 가장 높게 나타났다. 이를 바탕으로 고고학자는 유적지가 11~12세기에 거주되었을 가능성은 거의 없고, 13세기는 약 1%, 14세기는 63%, 15세기는 36%의 가능성으로 거주되었다고 추정할 수 있다. 번스타인-폰 미제스 정리에 따라, 이러한 추정치는 점근적으로 "실제" 분포에 수렴한다.

7. 3. 임상 검사에서의 위양성

어떤 질병 검사 결과가 양성으로 나왔을 때, 그 결과가 실제로 질병이 있음을 의미하는지, 아니면 검사 오류(위양성)인지 판단하는 것은 매우 중요하다. 특히 드문 질병의 경우, 검사 결과의 신뢰도를 정확히 평가하는 것이 더욱 중요해진다. 이때 베이즈 정리를 사용하면 위양성 확률을 계산할 수 있다.

예를 들어, 어떤 질병 검사가 다음과 같은 특징을 가지고 있다고 가정해 보자.

이러한 상황에서 검사 결과가 양성으로 나왔을 때, 이 결과가 위양성일 확률을 베이즈 정리를 이용하여 계산할 수 있다.

'A'를 "환자가 질병이다"라는 사건, 'B'를 "검사 결과가 양성이다"라는 사건이라고 하면, 베이즈 정리에 따라 다음과 같이 계산할 수 있다.

:\begin{align} P(A | B) &= \frac{P(B | A) P(A)}{P(B | A)P(A) + P(B | A^C)P(A^C)} \\

&=\frac{0.99\times 0.001}{0.99 \times 0.001 + 0.05\times 0.999} \approx 0.019\end{align}

여기서,

따라서 검사 결과가 양성일 때 실제로 질병이 있을 확률은 약 0.019 (1.9%)이고, 위양성일 확률은 약 1 - 0.019 = 0.981 (98.1%)이 된다.

이처럼 검사의 정확도가 높아 보여도, 질병의 발생률이 매우 낮기 때문에 양성 결과의 대부분이 위양성일 수 있다. 하지만 검사 결과가 양성으로 나온 경우, 실제로 질병이 있을 확률(0.019)은 검사 전의 확률(0.001)보다 크게 높아진 것이므로, 검사가 무의미한 것은 아니다. 재검사 등을 통해 더 정확한 결과를 얻을 수 있다.

베이즈 정리는 드문 질병의 검사에서 위양성 가능성을 고려해야 함을 알려준다. 위음성(실제로는 질병이 있는데 검사 결과가 음성으로 나오는 경우)의 확률도 베이즈 정리를 통해 계산할 수 있다.

7. 4. 법정

베이즈 추정은 법정에서 각 배심원 또는 판사가 증거를 모순 없이 수집하고, "합리적 의심이 있는가"에 대한 개인적 기준에 따라 종합적으로 피고인의 유무죄를 추정하는 데 사용될 수 있다.

베이즈 추정에 의하면, DNA 증거를 고려하기 전 피고인이 유죄일 확률 p(G)는 다음 관계를 이용하여 조건부 확률 p(G | E)로 수정할 수 있다.

: p(G | E) = p(G) p(E | G) / p(E)

다른 증거를 기초로 배심원이 피고인이 유죄일 가능성을 30%라고 가정하고, 법의학적으로 무작위로 선택한 사람의 DNA가 현장의 DNA와 일치할 확률은 100만분의 1 (10-6)이라고 가정한다.

사건 E는 피고인이 유죄(사전 확률 0.3)이거나, 무죄(사전 확률 0.7)이지만 DNA가 우연히 일치하는 100만 명 중 한 명인 경우 두 가지 방식으로 발생할 수 있다.

배심원은 DNA 증거를 다음과 같이 고려하여 판단을 바꿀 수 있다.

: p(G | E) = (0.3 × 1.0) / (0.3 × 1.0 + 0.7 × 10-6) = 0.99999766667

베이즈 추정 방법으로, 모든 증거는 어떤 단계의 사후 확률을 다음 사전 확률로 하는 형태로 일관되게 연결될 수 있다. 단, 배심원은 최초 증거를 고려하기 전 유죄 확률에 대한 사전 확률 분포를 가지고 있어야 한다. 예를 들어, 사건이 발생한 마을의 적절한 성인 남성 5만 명 중 1명이 범인이었다는 사전 확률은 1/50,000으로 할 수 있다.

일반적인 배심원에게 베이즈 정리를 설명하기 위해서는, 확률보다 오즈 (유죄·무죄의 확률비) 형태로 나타내는 것이 이해하기 쉬울 수 있다. 이 경우 베이즈 정리는 다음과 같다.

: 사후 오즈 = 사전 오즈 × 베이즈 인자

(베이즈 인자는 기존 통계학에서의 우도비에 해당)

위의 예에서 피고인이 유죄일 사전 확률을 0.3으로 하는 배심원의 생각은 "오즈 3:7로 유죄"라고 표현된다. 베이즈 인자는 100만이므로, 사후 오즈는 300만:7, 약 429,000:1로 유죄가 된다.

7. 5. 잠수함 침몰 사고

1968년 5월, 미국의 핵잠수함 스코피온이 대서양에서 실종되었다. 당시 수색에는 베이즈 추론을 활용한 방법이 사용되었다. 우선 해도를 여러 개의 그리드로 나누고, 각 그리드에 잠수함이 침몰해 있을 확률(사전 확률)을 경험에 근거하여 할당하였다. 확률이 높은 그리드를 먼저 수색하고, 잠수함을 발견하지 못하면 베이즈 정리를 이용하여 각 그리드의 확률을 수정(사후 확률)하였다. 이 과정을 반복하여 수색 범위를 좁혀나갔고, 결국 잠수함을 발견할 수 있었다.[12]

어떤 특정 영역에 잠수함이 침몰해 있을 확률을 *p*, 실제로 그 영역에 잠수함이 있을 때 발견될 확률을 *q*라고 하자. 해당 영역을 수색했으나 잠수함을 발견하지 못했다면, 베이즈 정리에 따라 잠수함이 그 영역에 침몰해 있을 확률(사후 확률)은 다음과 같이 계산된다.

:p'= \frac{p(1-q)}{(1-p)+p(1-q)}

나머지 영역에 대해서는 (1 - *p*)의 확률을 각 영역의 사전 확률에 비례하여 할당한다.

7. 6. 몬티 홀 문제

몬티 홀 문제는 다음과 같이 진행된다.

# 세 개의 문 중 하나에만 상품이 있고, 참가자는 상품이 있는 문을 맞히면 상품을 받는다.

# 참가자는 우선 세 개의 문 중 하나를 선택한다.

# 정답을 알고 있는 사회자는 참가자가 선택하지 않은 문 중 상품이 없는 문 하나를 열어 보인다.

# 사회자는 참가자가 당첨된 문을 선택한 경우, 나머지 문 중에서 무작위로 하나를 선택하여 보여준다.

# 이후 참가자는 문을 한 번 더 바꿀 수 있다.

이때, 참가자가 문을 바꾸는 것과 바꾸지 않는 것 중 어느 쪽이 당첨 확률이 높을까?

1단계에서, 참가자가 선택한 문(A라고 하자)에 상품이 있을 확률(사전 확률)은 1/3이고, 상품이 없을 확률(즉, 선택하지 않은 문 중 하나에 상품이 있을 확률)은 2/3이다. 2단계에서 사회자가 보여준 문을 B, 나머지 문을 C라고 하자. 이 단계에서, 1단계에서 선택하지 않은 문의 선택지는 2개에서 1개로 좁혀졌으므로(1단계에서 선택한 문은 그대로), C가 당첨될 사후 확률은 2/3(A의 확률은 1/3)이다. 따라서, 2단계에서 다른 문을 다시 선택하는 쪽이 당첨될 확률이 높다.[30] 1단계에서 선택했는지 여부는 주관적인 것으로 확률과는 관계없다고 생각할 수 있지만, 실제로는 문 A를 선택했다고 밝힘으로써 사회자의 행동에 영향을 주는 것이다.

''P''(''A''), ''P''(''C'')를 각각 A, C가 당첨일 사전 확률로 하고, ''P''(''B'' | ''A''), ''P''(''B'' | ''C'')를 각각 A, C가 당첨일 경우에 사회자가 B를 열 확률이라 하자. 이때, B가 열렸다는 전제 하에 C가 당첨일 사후 확률 ''P''(''C'' | ''B'')는 다음과 같이 계산된다.

:P(C|B)=\frac{P(B|C)P(C)}{P(B|A)P(A)+P(B|C)P(C)}=\frac{1 \times \frac{1}{3}}{\frac{1}{2} \times \frac{1}{3}+1 \times \frac{1}{3}}=\frac{2}{3}

A가 당첨일 경우 사회자가 B를 열 확률 P(B | A)를 1/2로 하지 않고 그대로 두면, 위 식은 1/(P(B | A) + 1)이 된다. 즉, A가 당첨일 때 사회자가 B를 열 확률 P(B | A)가 0에서 1까지 변하면, B가 열렸다는 전제 하에 C가 당첨일 사후 확률 P(C | B)는 1에서 1/2까지 변한다. A가 당첨일 때 사회자가 B를 열 확률 P(B | A)가 1/2일 경우에만, C가 당첨일 사후 확률 P(C | B)가 2/3이 된다.

따라서, 몬티 홀 문제에서 "참가자가 당첨된 문을 선택한 경우에는 나머지 문 중에서 무작위로 하나를 선택하여 열어 보인다고 한다"라는 조건이 가장 중요하다.[30]

7. 7. 이항 분포 모수의 사후 분포

베이즈 추론을 활용하여 이항 분포의 모수에 대한 사후 분포를 계산하는 방법을 살펴보자. 베이즈는 이와 동일한 문제에 대해 고민했다.

관측 결과, 성공이 ''m''회, 실패가 ''n''회 발생했다고 가정한다. 예를 들어, 동전 던지기를 하거나, 사람들에게 찬성 또는 반대 의견을 묻는 상황을 생각해 볼 수 있다. 모수 ''a''(시행 횟수, 성공 확률)에 대한 사전 확률을 ''p''(''a'')로 표현한다.

주어진 ''a'' 값에 대해, 총 ''m''+''n''번의 시행 중 성공이 ''m''번 발생할 확률은 다음과 같다.

: p(m,n|a) = \begin{pmatrix} n+m \\ m \end{pmatrix} a^m (1-a)^n

''m''과 ''n''은 고정된 값이고, ''a''는 알 수 없는 값이므로, 이는 ''a''의 우도 함수가 된다.

베이즈 정리(연속 분포 형태)에서,

: p(a|m,n) = \frac{p(m,n|a)\,p(a)}{\int_0^1 p(m,n|a)\,p(a)\,da}

= \frac{\begin{pmatrix} n+m \\ m \end{pmatrix} a^m (1-a)^n\,p(a)}

{\int_0^1 \begin{pmatrix} n+m \\ m \end{pmatrix} a^m (1-a)^n\,p(a)\,da}

만약 사전 분포 ''p''(''a'')를 특정한 형태로 선택하면, 이 적분을 계산할 수 있고 사후 확률은 간단한 식이 된다.

특히, ''p''(''a'')가 모수 ''m''0과 ''n''0을 가지는 베타 분포라면, 사후 분포 역시 베타 분포가 되며, 모수는 ''m''+''m''0과 ''n''+''n''0이 된다.

위의 예시에서 사용된 베타 분포처럼, 사후 분포와 같은 유형의 분포가 되도록 하는 사전 분포를 켤레 사전 분포라고 한다.

7. 8. 임상 시험

Placebo영어와 신약을 비교하여 신약이 더 효과적일 확률 θ의 확률밀도함수 p(θ)를 추정한다.

: p(\theta \mid x) = \frac{l(\theta \mid x)}{p(x)} p(\theta)

사전 확률 분포 p(θ)는 균등 분포를, 우도 함수 l(θ|x)는 n회의 비교 중 x회 신약이 우위를 차지하는 이항 분포를 가정한다. 그러면 사후 확률 분포는 베타 분포 Be(1 + x, 1 + n - x)가 된다.

예를 들어 n = 5, x = 4라고 하면 θ의 평균은 5/7, θ가 0.5 이상이 될 확률은 0.891이 되어 신약이 더 효과적이라고 생각할 수 있다. 이와 같이 베이즈 추정을 사용하면 작은 표본이라도 임시적으로 모수를 추정할 수 있다.

8. 빈도주의 통계 및 결정 이론과의 관계

베이즈 추론은 사전 확률과 관측된 데이터에 대한 통계적 모델에서 도출된 "가능도 함수"를 사용하여 사후 확률을 도출한다. 베이즈 추론은 베이즈 정리를 사용하여 사후 확률을 계산한다.

:P(H \mid E) = \frac{P(E \mid H) \cdot P(H)}{P(E)},

여기서



의사결정 이론적 관점에서 베이즈 추론은 아브라함 발트(Abraham Wald)에 의해 정당화되었는데, 그는 모든 고유한 베이즈 절차가 허용 가능하다는 것을 증명했다.[21] 모든 허용 가능한 통계적 절차는 베이즈 절차이거나 베이즈 절차의 극한이다.[21]

발트는 허용 가능한 절차를 베이즈 절차(및 베이즈 절차의 극한)로 특징지었으며, 이로써 베이즈 형식주의는 빈도주의 추론의 모수 추정, 가설 검정, 신뢰 구간 계산과 같은 영역에서 중심적인 기법이 되었다.[22][23][24]

9. 확률적 프로그래밍

확률적 프로그래밍 언어(PPL, Probabilistic Programming Languages)는 베이지안 모델을 쉽게 구축하고 효율적인 자동 추론 방법을 구현한다. 이를 통해 모델 구축과 추론을 분리하여 실무자는 자신의 특정 문제에 집중하고 PPL이 계산적인 세부 사항을 처리하도록 할 수 있다.[31][32][33]

10. 다양한 응용 분야

베이즈 추론은 다양한 분야에 응용된다.

10. 1. 통계적 데이터 분석

베이즈 추론은 사전 확률과 관측된 데이터에 대한 통계적 모델에서 도출된 "가능도 함수"를 사용하여 사후 확률을 도출한다. 베이즈 추론은 베이즈 정리를 통해 사후 확률을 계산한다.

:P(H \mid E) = \frac{P(E \mid H) \cdot P(H)}{P(E)}

여기서 각 기호의 의미는 다음과 같다.

H의 논리적 부정인 \neg H("H가 아님")이 유효한 가능도인 경우 베이즈 규칙은 다음과 같이 다시 쓸 수 있다.

:\begin{align}

P(H \mid E) &= \frac{P(E \mid H) P(H)}{P(E)} \\ \\

&= \frac{P(E \mid H) P(H)}{P(E \mid H) P(H) + P(E \mid \neg H) P(\neg H)} \\ \\

&= \frac{1}{1 + \left(\frac{1}{P(H)} - 1\right) \frac{P(E \mid \neg H)}{P(E \mid H)} }

\end{align}

이는

: P(E) = P(E \mid H) P(H) + P(E \mid \neg H) P(\neg H)



: P(H) + P(\neg H) = 1 때문이다.

베이즈 추론은 다음 요소들을 통해 신념 분포를 갱신한다.
= \frac{p(\mathbf{X} \mid \theta,\alpha) p(\theta \mid \alpha)}{p(\mathbf{X} \mid \alpha)} \propto p(\mathbf{X} \mid \theta,\alpha) p(\theta \mid \alpha))

일반적인 경우, 조건부 분포와 결합 분포를 통해 베이즈 정리가 사전 분포에서 사후 분포를 결정한다. 콜모고로프는 조건부 확률의 중요성을 강조했다.[9]

베이즈 통계학의 통계적 모델링 단원을 참조하면 더 자세한 내용을 확인할 수 있다.

10. 2. 컴퓨터 응용

베이즈 추론은 인공 지능, 전문가 시스템에 응용된다. 베이즈 추론 기법은 1950년대 후반부터 컴퓨터화된 패턴 인식 기법의 기본적인 부분이었다.[34] 복잡한 모델은 베이즈 분석으로 폐쇄 형식으로 처리할 수 없지만, 그래프 모델 구조는 깁스 샘플링 및 기타 메트로폴리스-헤이스팅스 알고리즘 기법과 같은 효율적인 시뮬레이션 알고리즘을 허용할 수 있기 때문에 베이즈 방법과 시뮬레이션 기반 몬테카를로 기법 사이의 연관성이 점점 커지고 있다.[35] 최근 베이즈 추론은 이러한 이유로 계통 발생 유전학 분야에서 인기를 얻고 있으며, 여러 응용 프로그램을 통해 많은 인구 통계 및 진화 매개변수를 동시에 추정할 수 있다.

통계적 분류에 적용된 베이즈 추론은 이메일 스팸을 식별하기 위한 알고리즘을 개발하는 데 사용되었다. 스팸 필터링에 베이즈 추론을 사용하는 응용 프로그램으로는 CRM114, DSPAM, Bogofilter, SpamAssassin, SpamBayes, 모질라, XEAMS 등이 있다. 스팸 분류는 나이브 베이즈 분류기 문서에서 자세히 설명한다.

솔로모노프의 귀납 추론은 관찰에 기반한 예측 이론이다. 예를 들어, 주어진 일련의 기호를 기반으로 다음 기호를 예측하는 것이다. 유일한 가정은 환경이 알 수 없는 계산 가능한 확률 분포를 따른다는 것이다. 이것은 베이즈 통계와 오컴의 면도날이라는 두 가지 잘 연구된 귀납 추론 원리를 결합한 공식적인 귀납적 프레임워크이다.[36] 계산 가능한 수열 ''x''의 접두어 ''p''에 대한 솔로모노프의 보편적 사전 확률은 ''p''로 시작하는 것을 계산하는 모든 프로그램(범용 컴퓨터용)의 확률의 합이다. 어떤 ''p''와 ''x''가 샘플링되는 계산 가능하지만 알 수 없는 확률 분포가 주어지면, 보편적 사전과 베이즈 정리를 사용하여 ''x''의 아직 보이지 않는 부분을 최적으로 예측할 수 있다.[37][38]

10. 3. 생물 정보학 및 의료 응용

베이즈 추론은 차등 유전자 발현 분석을 포함한 다양한 생물정보학 분야에 응용되어 왔다.[39] 베이즈 추론은 또한 일반적인 암 위험 모델, 즉 사전 지식을 바탕으로 구축된 베이즈 모델을 업데이트하기 위해 연속적인 측정값을 통합하는 CIRI(Continuous Individualized Risk Index, 연속 개별 위험 지수)에도 사용된다.[40][41]

10. 4. 법정

베이즈 추론은 배심원이나 판사가 증거를 종합하여 피고인의 유죄 또는 무죄를 추정하는 데 사용될 수 있다.[42][43][44] 베이즈 정리는 제시된 모든 증거에 순차적으로 적용되며, 한 단계의 사후 확률이 다음 단계의 사전 확률이 된다. 이러한 베이즈 접근 방식은 배심원에게 증거를 결합하는 객관적이고 합리적인 방법을 제공한다는 장점이 있다. 승산 형태로 베이즈 정리를 설명하거나, 로그 접근 방식을 사용하여 곱셈을 덧셈으로 바꾸면 배심원이 더 쉽게 이해할 수 있다.

증거 더하기


범죄 사실 자체에는 의심의 여지가 없고 범인이 누구인지가 문제라면, 사전 확률은 해당 인구 집단에 대해 균일하게 적용해야 한다는 제안이 있었다.[45] 예를 들어, 1,000명이 범죄를 저지를 수 있었다면 유죄의 사전 확률은 1/1000이 된다.

하지만 배심원이 베이즈 정리를 사용하는 것은 논란의 여지가 있다. 영국에서는 ''R v Adams'' 사건에서 변호측 감정인이 배심원에게 베이즈 정리를 설명했고, 배심원은 유죄 평결을 내렸다. 그러나 항소심에서는 베이즈 정리를 사용하지 않으려는 배심원을 위한 증거 종합 방법이 없었다는 이유로 항소가 제기되었다. 항소법원은 유죄 판결을 유지하면서도, 형사 재판에 베이즈 정리나 유사한 방법을 도입하는 것은 배심원을 부적절하고 불필요한 이론과 복잡성의 영역으로 몰아넣어 그들의 임무에서 벗어나게 한다고 언급했다.

Gardner-Medwin[46]은 형사 재판에서 평결의 기준은 유죄 확률이 아니라, ''피고가 무죄일 경우 증거의 확률''( 빈도론적 p-값과 유사)이어야 한다고 주장한다. 그는 베이즈 정리를 사용하여 유죄의 사후 확률을 계산하려면 유죄의 사전 확률을 알아야 하는데, 이는 범죄 발생률에 따라 달라지며 형사 재판에서 고려해야 할 특이한 증거라고 지적한다. 그는 다음 세 가지 명제를 제시했다.

Gardner-Medwin은 배심원이 유죄를 선고하기 위해서는 ''A''와 not-''B''를 모두 믿어야 한다고 주장한다. ''A''와 not-''B''는 ''C''가 참임을 의미하지만, 그 반대는 성립하지 않는다. 그는 ''B''와 ''C''가 모두 참일 수 있지만, 이 경우에도 배심원은 일부 유죄인 사람들을 풀어줄 것을 알면서도 무죄를 선고해야 한다고 주장한다. 린들리의 역설도 참고할 수 있다.

10. 5. 베이즈 인식론

베이즈 인식론은 귀납 논리의 규칙을 정당화하는 수단으로 베이즈 추론을 옹호하는 움직임이다.

칼 포퍼와 데이비드 밀러는 베이즈 정리를 사용하여 인식론적 추론을 하는 베이즈 합리주의를 거부했다.[47] 이는 다른 정당화주의 인식론과 마찬가지로 악순환에 빠지기 쉽다. 왜냐하면 정당화하려는 것을 전제하기 때문이다. 이러한 견해에 따르면, 베이즈 추론에 대한 합리적인 해석은 그것을 단순히 반증 가능성의 확률적 버전으로 볼 것이며, 베이지안들이 일반적으로 가지고 있는 믿음, 즉 일련의 베이즈 업데이트를 통해 달성된 높은 가능성이 어떠한 합리적인 의심을 넘어서 가설을 증명하거나, 심지어 0보다 큰 가능성으로 증명한다는 믿음을 거부한다.

10. 6. 기타 응용

11. 베이즈와 베이즈 추론



베이즈가 그의 논문 "확률론의 한 문제를 푸는 데 대한 에세이"의 명제 9에서 고려한 문제는 이항 분포의 모수 ''a''(성공률)에 대한 사후 분포이다.

12. 역사

"베이즈(Bayesian)"라는 용어는 미지의 사건에 확률적 한계를 설정할 수 있다는 것을 증명한 토마스 베이즈(1701–1761)에서 유래했다. 그러나 현재 베이즈 정리로 알려진 것을 도입하고 그것을 천체 역학, 의학 통계, 신뢰성, 법학 문제 해결에 사용한 사람은 피에르-시몽 라플라스(1749–1827)였다.[55] 라플라스가 무관심의 원리를 따르는 균일 사전 확률을 사용한 초기 베이즈 추론은 "역확률"이라고 불렸다(관찰에서 모수로, 또는 결과에서 원인으로 추론하기 때문에[56]). 1920년대 이후 "역확률"은 빈도주의 통계학이라고 불리는 방법들에 의해 대체되었다.[56]

20세기에 라플라스의 아이디어는 두 가지 다른 방향으로 발전하여 베이즈 방법론에서 ''객관적''이고 ''주관적''인 흐름을 낳았다. 객관적 또는 "비정보적" 흐름에서는 통계 분석이 가정된 모형, 분석된 데이터,[57] 그리고 사전 확률을 할당하는 방법에만 의존한다. 주관적 또는 "정보적" 흐름에서는 사전 확률의 명세가 믿음에 따라 달라지는데, 이는 전문가, 이전 연구 등의 정보를 요약할 수 있다.

1980년대에는 베이즈 방법의 연구와 응용이 급격히 증가했는데, 이는 주로 많은 계산 문제를 해결한 마르코프 체인 몬테카를로 방법의 발견과 비표준적이고 복잡한 응용에 대한 관심 증가 때문이다.[58] 베이즈 연구가 증가했음에도 불구하고, 대부분의 학부 교육은 여전히 빈도주의 통계학을 기반으로 한다.[60] 그럼에도 불구하고, 베이즈 방법은 기계 학습 분야와 같이 널리 수용되고 사용된다.[59]

참조

[1] 웹사이트 Bayesian Epistemology http://plato.stanfor[...]
[2] 서적 Philosophical Theories of Probability Routledge
[3] 논문 Slightly More Realistic Personal Probability 1967-12-01
[4] 웹사이트 Bayes' Theorem (Stanford Encyclopedia of Philosophy) http://plato.stanfor[...] Plato.stanford.edu 2014-01-05
[5] 서적 Laws and Symmetry Oxford University Press
[6] 서적 Bayesian Data Analysis Chapman and Hall/CRC
[7] 논문 On the geometry of Bayesian inference https://www.maths.ed[...]
[8] 논문 Gibbs sampler and coordinate ascent variational inference: A set-theoretical review
[9] 서적 Foundations of the Theory of Probability Chelsea Publishing Company
[10] 서적 Probability based on Radon measures http://archive.org/d[...] Chichester [Eng.] ; New York : Wiley
[11] 논문 Improper priors and improper posteriors 2021-07-24
[12] 서적 Monte Carlo Statistical Methods http://worldcat.org/[...] Springer
[13] 논문 On the asymptotic behavior of Bayes' estimates in the discrete case 1963
[14] 논문 On the asymptotic behavior of Bayes estimates in the discrete case II 1965
[15] 논문 Conditioning, likelihood, and coherence: A review of some foundational concepts 2000
[16] 서적 Pitman's measure of closeness: A comparison of statistical estimators SIAM
[17] 논문 Bayesian Methods for Function Estimation 2005-01-01
[18] 웹사이트 Maximum A Posteriori (MAP) Estimation https://www.probabil[...] 2017-06-02
[19] 웹사이트 Introduction to Bayesian Decision Theory http://www.cogsci.uc[...]
[20] 웹사이트 Posterior Predictive Distribution Stat Slide http://people.stat.s[...]
[21] 서적
[22] 논문 Admissible Bayes Character of T2-, R2-, and Other Fully Invariant Tests for Multivariate Normal Problems
[23] 논문 Invariant Proper Bayes Tests for Exponential Families
[24] 논문 Minimax Confidence Sets for the Mean of a Multivariate Normal Distribution http://ecommons.corn[...]
[25] 서적 Testing Statistical Hypotheses
[26] 서적 Asymptotic Methods in Statistical Decision Theory Springer-Verlag
[27] 서적 Theoretical Statistics Chapman and Hall
[28] 서적 Theoretical Statistics Chapman and Hall
[29] 논문 A review of information criterion rules 2004
[30] 논문 The maximum a posteriori probability rule for atom column detection from HAADF STEM images 2019
[31] 서적 Bayesian Programming Chapman and Hall/CRC
[32] 웹사이트 Probabilistic Programming http://probabilistic[...] 2020-01-02
[33] 논문 Probabilistic machine learning and artificial intelligence https://www.reposito[...]
[34] 논문 When did Bayesian inference become "Bayesian"? 2006-03-01
[35] 서적 Bayesian Computation with R, Second edition Springer
[36] 논문 A Philosophical Treatise of Universal Induction
[37] 논문 On Universal Prediction and Bayesian Confirmation
[38] CiteSeerX Raymond J. Solomonoff 1926-2009 2010-12-02
[39] 논문 edgeR: a Bioconductor package for differential expression analysis of digital gene expression data
[40] 웹사이트 CIRI https://ciri.stanfor[...] 2019-08-11
[41] 논문 Dynamic Risk Profiling Using Serial Tumor Biomarkers for Personalized Outcome Prediction 2019-07-25
[42] 논문 Coherent Analysis of Forensic Identification Evidence 1996
[43] 논문 Bayesian analysis of deoxyribonucleic acid profiling data in forensic identification applications (with discussion) 1997
[44] 서적 Interpreting Evidence: Evaluating Forensic Science in the Courtroom John Wiley and Sons
[45] 웹사이트 Bayes' Theorem and Weighing Evidence by Juries http://128.40.111.25[...] 2015-07-01
[46] 논문 What Probability Should the Jury Address? 2005-03
[47] 서적 Critical Rationalism https://books.google[...] Open Court
[48] 서적
[49] 논문 Stochastic scheduling subject to breakdown-repeat breakdowns with incomplete information
[50] 논문 Beyond simple linear mixing models: process-based isotope partitioning of ecological processes 2014-01-01
[51] 논문 Insights into plant water uptake from xylem-water isotope measurements in two tropical catchments with contrasting moisture conditions 2016-01-01
[52] 논문 Comparison of Parameter Estimation Methods in Stochastic Chemical Kinetic Models: Examples in Systems Biology 2014-04
[53] 논문 The Tadpole Bayesian Model for Detecting Trend Changes in Financial Quotations http://www.rroij.com[...]
[54] 논문 Detection of trend changes in time series using Bayesian inference 2011
[55] 서적 The History of Statistics https://archive.org/[...] Harvard University Press
[56] 논문 When did Bayesian Inference Become 'Bayesian'?
[57] 서적 Handbook of statistics
[58] 논문 A Conversation with James O. Berger
[59] 서적 Pattern Recognition and Machine Learning Springer
[60] 논문 A Bayesian mathematical statistics primer http://www.ime.usp.b[...]
[61] Kotobank 2022-02-08
[62] 일반



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com