베이즈 추론
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
베이즈 추론은 관측된 데이터를 통해 추론 대상의 확률 분포를 업데이트하는 통계적 추론 방법이다. 이는 사전 확률과 가능도를 결합하여 사후 확률을 계산하는 베이즈 정리를 기반으로 하며, 불확실성을 정량화하고 정보를 통합하는 데 유용하다. 베이즈 추론은 가설의 확률 계산, 예측, 위양성 문제 분석, 법정에서의 증거 평가, 몬티 홀 문제 해결 등 다양한 분야에 응용된다. 이 방법은 18세기 토머스 베이즈와 피에르시몽 라플라스의 연구에서 시작되었으며, 20세기 이후 객관적, 주관적 접근법으로 발전했다. 계산 능력 향상과 함께 기계 학습 등 여러 분야에서 널리 활용되고 있다.
더 읽어볼만한 페이지
- 베이즈 추론 - 베이즈주의 인식론
베이즈주의 인식론은 믿음을 확률로 나타내고 증거에 따라 갱신하는 방식으로 지식을 쌓는 인식론의 한 분야로, 지식의 본성과 회의주의 문제에 대한 독특한 관점을 제시하지만, 사전 확률 설정의 주관성과 같은 비판도 있다. - 통계 예측 - 표본 분포
표본 분포는 모집단에서 추출한 표본 통계량의 확률 분포로, 모집단 분포, 표본 크기, 추출 방법에 따라 달라지며, 중심 극한 정리에 따라 표본 크기가 크면 정규 분포에 근사하여 통계적 추론에 활용된다. - 통계 예측 - 데이터 동화
데이터 동화는 예측 값과 관측 값의 차이를 기반으로 예측 값을 보정하여 시스템 상태에 대한 최적의 추정치를 도출하는 기술이며, 수치 일기 예보, 물과 에너지 이동 모니터링 등 다양한 분야에 적용된다. - 통계 이론 - 로지스틱 회귀
로지스틱 회귀는 범주형 종속 변수를 다루는 회귀 분석 기법으로, 특히 이항 종속 변수에 널리 사용되며, 오즈에 로짓 변환을 적용하여 결과값이 0과 1 사이의 값을 가지도록 하는 일반화 선형 모형의 특수한 경우이다. - 통계 이론 - 정보 엔트로피
정보 엔트로피는 확률 변수의 불확실성을 측정하는 방법으로, 사건 발생 가능성이 낮을수록 정보량이 커진다는 원리에 기반하며, 데이터 압축, 생물다양성 측정, 암호화 등 다양한 분야에서 활용된다.
베이즈 추론 | |
---|---|
지도 정보 | |
기본 정보 | |
유형 | 통계적 추론 방법 |
분야 | 베이즈 통계학 |
관련 분야 | 확률, 베이즈 정리 |
핵심 개념 | |
주요 개념 | 사전 확률, 우도 함수, 사후 확률, 주변 우도 |
과정 | 사전 확률을 우도 함수와 결합하여 사후 확률을 계산 |
확률 해석 | 베이즈 확률 사용 |
방법론 | |
모델 구축 | 베이즈 선형 회귀, 계층적 베이즈 모델 |
사후 분포 근사 | 마르코프 연쇄 몬테카를로, 라플라스 근사, 변분 베이즈 방법 |
증거 근사 | 증거 하한, 중첩 표본 알고리즘 |
추정 및 평가 | |
추정기 | 베이즈 추정기, 최대 사후 확률 추정 |
모델 평가 | 베이즈 인자, 베이즈 정보 기준, 사후 예측 분포 |
특징 | |
장점 | 불확실성을 명시적으로 모델링 사전 정보를 통합 가능 복잡한 모델에 적용 가능 |
단점 | 계산 비용이 높을 수 있음 사전 분포 선택에 대한 주관성이 개입될 수 있음 |
역사적 맥락 | |
기원 | 베이즈 정리에서 유래 |
발전 | 20세기 후반부터 계산 능력 발달과 함께 활발히 연구 |
관련 이론 | |
관련 이론 | 베른슈타인-폰 미제스 정리, 코흐스 정리, 크롬웰 규칙 |
기타 | |
참고 문헌 | 메리엄-웹스터 사전 고토반크 |
2. 수학적 설명
베이즈 추론은 추론 대상 에 대한 사전 확률 와 관측 데이터 의 확률 분포 를 이용하여, 가 주어졌을 때 의 분포인 사후 확률 를 계산한다.
사후 확률 는 베이즈 정리를 이용하여 다음과 같이 계산한다.
:
여기서 p(X|θ)는 우도(가능도), p(θ)는 사전 확률, p(X)는 증거를 나타낸다.
베이즈 확률 관점에서는 A를 상수로 한정하지 않고 확률 변수로 간주한다. (이는 객관적으로 정의될 수 없으므로 주관 확률이다.)
이 관점에서 베이즈 정리 식은 다음과 같이 해석된다.
: 주관 확률 분포 P(A)에 P(X|A) / P(X)를 곱하여 증거 X를 고려해, 더 객관적인 확률 분포 P(A|X)를 구한다.
베이즈 추정은 사전 확률이 주관적이고 유일하게 결정될 수 없으며, 이를 바탕으로 구한 사후 확률이 객관적인 확률 분포로 수렴한다는 보장이 없다는 비판을 받는다. 그러나 컴퓨터를 이용한 방법이 발전하면서 베이즈 추정 방법도 발전했고, 스팸 메일을 식별하는 베이지안 필터 등에 응용되고 있다.
2. 1. 베이즈 정리
베이즈 추론은 사전 확률과 관측된 데이터에 대한 통계적 모델에서 도출된 "가능도 함수"를 이용하여 사후 확률을 도출한다. 베이즈 추론은 베이즈 정리를 사용하여 사후 확률을 계산한다.:
여기서 각 기호의 의미는 다음과 같다.
- : 데이터(아래에서 "증거"라고 함)에 의해 확률이 영향을 받을 수 있는 임의의 가설.
- : ''사전 확률''은 데이터 가 관측되기 ''전'' 가설 의 확률 추정치.
- : ''증거''는 사전 확률 계산에 사용되지 않은 새로운 데이터.
- : ''사후 확률''은 를 고려했을 때 의 확률, 즉 가 관측된 ''후''의 확률.
- : ''가능도''는 를 고려했을 때 를 관측할 확률.
- : 한계 가능도 또는 "모델 증거"라고도 함.
의 서로 다른 값에 대해 와 만 의 값에 영향을 준다. 즉, 가설의 사후 확률은 사전 확률과 가능도(새로 관측된 증거와의 적합성)에 비례한다.
사후 확률 p(θ|X)는 베이즈 정리에 따라 다음과 같이 계산된다.
:
여기서 p(X|θ)는 가능도(우도), p(θ)는 사전 확률, p(X)는 증거(evidence)를 나타낸다.
곱셈 규칙을 사용하면 다음과 같이 표현할 수 있다.
:
A와 X를 이산 확률 변수로, A를 원인, X를 증거라고 할 때,
P(A|X)는 베이즈 정리에 의해
:
로 표현된다. 여기서 P(X|A)를 우도()라고 한다.
베이즈 확률 관점에서 위의 베이즈 정리 식은 다음과 같이 해석된다.
: 주관 확률 분포 P(A)에 P(X|A) / P(X)를 곱하여 증거 X를 고려, 더 객관적인 확률 분포 P(A|X)를 구한다.
예시:초콜릿칩 쿠키와 플레인 쿠키가 담긴 그릇이 두 개 있다. 그릇 1에는 초콜릿칩 쿠키 10개와 플레인 쿠키 30개, 그릇 2에는 각각 20개씩 들어 있다. 두 그릇 중 하나를 무작위로 선택하고, 쿠키를 하나 꺼냈더니 플레인 쿠키였다. 이 쿠키가 그릇 1에서 나왔을 확률은?
직관적으로 50% 이상(그릇 1에 플레인 쿠키가 더 많으므로)임을 알 수 있다. 베이즈 추정으로 정확한 답을 구하면, 그릇 1 선택 사건을 ''H''1, 그릇 2 선택 사건을 ''H''2라 하자.
그릇을 무작위로 선택하므로, 각 그릇 선택 확률은 ''P''(''H''1) = ''P''(''H''2) = 0.5이다.
"플레인 쿠키"라는 관찰 결과를 "데이터 ''D''"라 하면, 그릇 1에서 ''D''의 확률은 P(''D'' | ''H''1) = 30/40 = 0.75, 그릇 2에서는 P(''D'' | ''H''2) = 20/40 = 0.5이다. 베이즈 정리는 다음과 같다.
:
쿠키를 보기 전 그릇 1 선택 확률(사전 확률)은 ''P''(''H''1) = 0.5, 쿠키를 본 후 확률은 ''P''(''H''1|''D'') = 0.6으로 수정된다.
2. 2. 통계적 추정
사후 분포를 이용하여 여러 가지 통계적 추정을 할 수 있다. 예를 들어, 새로운 데이터 에 대한 확률 분포는 다음과 같이 추정할 수 있다.:
3. 베이즈 정리의 이해
확률 변수 A와 X가 있을 때, A를 원인, X를 그에 대한 증거라고 가정하자.
P(A|X)는 베이즈 정리에 의해 다음과 같이 표현된다.
:
여기서 P(X|A)는 우도(likelihood)라고 하며, A의 함수로 생각하여 우도 함수 L(A|X) = P(X|A)라고도 한다. (L(A|X)는 A에 관한 확률 분포가 아니다.)
베이즈 확률 관점에서는 A를 상수로 둘 필요 없이 위와 같은 분포를 따르는 확률 변수로 생각할 수 있다. (이는 객관적으로 정의할 수 없으므로 주관 확률이다.) 이 관점에서 보면 베이즈 정리 식은 "주관 확률 분포 P(A)에 계수 P(X|A) / P(X)를 곱함으로써 증거 X를 고려하여 더 객관적인 확률 분포 P(A|X)를 구한다."라고 해석할 수 있다.
이처럼 확률 분포를 더 객관적으로 만드는 방법(베이즈 수정)을 이용하여 A를 추정하는 것이 베이즈 추정이다. 새로운 증거가 추가되면 사후 확률을 새롭게 사전 확률로 취급하여 베이즈 수정을 반복할 수도 있다. (더 높은 객관성이 기대된다.)
기존의 추측 통계학에서는 확률 분포 P(A)는 이미 결정된 것이므로, X를 조건으로 하는 확률 P(A|X)는 의미가 없다고 본다. 기존의 추측 통계학은 확고한 수학적 이론으로 여러 분야에 응용되고 있지만, 모수 a를 상수라고 가정한 상황에서 만들어진 이론이기 때문에 모집단을 결정하기 어려운 의학 응용 등에는 적합하지 않다는 비판이 있다. 반면, 베이즈 추정은 인간의 사고 과정을 모델화한 것이며, 인간의 사고 방식에 맞는다고 주장되기도 한다.
베이즈 추정에 대한 비판으로는 사전 확률이 주관적이고 유일하게 결정할 수 없으며, 이를 바탕으로 사후 확률을 구하더라도 객관적인 확률 분포에 수렴한다는 보장이 없다는 점 등이 있다. 그러나 컴퓨터를 이용한 방법의 발전에 따라 베이즈 추정 방법도 발전하여 스팸 메일을 식별하기 위한 베이지안 필터 등의 응용이 진행되고 있다. 사전 분포로는 정보가 없는 경우 균등 분포 등이 사용되며, 일반적으로 다른 사전 확률 분포에서 마르코프 연쇄 몬테카를로 방법 등으로 안정적인 결과를 얻을 수 있다면 실용적으로 문제가 없다고 본다.
3. 1. 공식 설명
베이즈 추론은 사전 확률과 관측된 데이터에 대한 통계적 모델에서 도출된 "가능도 함수"를 바탕으로 사후 확률을 도출한다. 베이즈 추론은 베이즈 정리를 사용하여 사후 확률을 계산한다.베이즈 정리는 다음과 같이 표현된다.
:
여기서 각 기호는 다음을 의미한다.
- : 데이터(증거)에 의해 확률이 영향을 받을 수 있는 가설.
- : ''사전 확률''은 증거인 데이터 가 관측되기 ''전'' 가설 의 확률 추정치.
- : ''증거''는 사전 확률 계산에 사용되지 않은 새로운 데이터.
- : ''사후 확률''은 를 고려했을 때 의 확률, 즉 가 관측된 ''후''의 확률.
- : ''가능도''는 를 고려했을 때 를 관측할 확률.
- : 한계 가능도 또는 "모델 증거"라고도 불리며, 모든 가능한 가설에 대해 동일.
의 서로 다른 값에 대해 와 만이 의 값에 영향을 미친다. 즉, 가설의 사후 확률은 사전 확률과 가능도에 비례한다.
의 논리적 부정인 ("가 아님")이 유효한 가능도인 경우 베이즈 규칙은 다음과 같이 다시 쓸 수 있다.
:
이는 다음의 식을 통해 유도된다.
:
:
곱셈 규칙을 사용하면 방정식을 쉽게 기억할 수 있다.
:
3. 2. 베이즈 업데이트의 대안
이언 해킹은 전통적인 "네덜란드 책" 논증이 베이즈 업데이트를 명시하지 않았다는 점을 지적하며, 비베이즈 업데이트 규칙이 네덜란드 책을 피할 가능성을 열어두었다. 해킹은 다음과 같이 썼다.[3] "그리고 네덜란드 책 논증이나 확률 공리의 개인주의적 증명 무기고에 있는 다른 어떤 것도 동적 가정을 의미하지 않는다. 베이즈주의를 의미하는 것도 하나도 없다. 그래서 개인주의자는 베이즈적 동적 가정을 요구한다. 일관성 있게 개인주의자가 경험으로부터의 학습에 대한 베이즈 모델을 포기할 수 있다는 것은 사실이다. 소금이 제 맛을 잃을 수도 있다."실제로, 리처드 제프리의 규칙(증거 자체에 확률이 할당되는 경우 베이즈 정리를 적용하는 규칙) 발표 이후 "확률 운동학"에 대한 문헌에서 논의된 바와 같이, 네덜란드 책을 피하는 비베이즈 업데이트 규칙도 있다.[4] 베이즈 업데이트를 독특하게 요구하는 데 필요한 추가 가설은 상당하고 복잡하며 만족스럽지 않은 것으로 간주되었다.[5]
4. 배타적이고 포괄적인 가능성에 대한 추론
베이즈 정리는 상호 배타적이고 포괄적인 명제 집합에 대한 신념을 동시에 갱신하는 데 사용될 수 있다. 즉, 여러 가능성 중에서 어떤 것이 참인지에 대한 믿음을 증거를 통해 업데이트하는 것이다. 이때 베이즈 추론은 이러한 믿음의 분포 전체에 작용하는 것으로 생각할 수 있다.[6]
4. 1. 일반 공식
증거가 상호 배타적이고 포괄적인 명제 집합에 대한 신념을 동시에 갱신하는 데 사용되는 경우, 베이즈 추론은 이 신념 분포 전체에 작용하는 것으로 생각할 수 있다.독립적이고 동일하게 분포된 사건 을 생성하는 과정이 있다고 가정하되, 확률 분포는 알려져 있지 않다. 사건 공간 은 이 과정에 대한 현재 신념의 상태를 나타낸다. 각 모델은 사건 으로 표현된다. 조건부 확률 은 모델을 정의하기 위해 지정된다. 은 에 대한 신념의 정도이다. 첫 번째 추론 단계 전에, 은 초기 사전 확률들의 집합이다. 이들은 합계가 1이어야 하지만, 그 외에는 임의적이다.
과정이 을 생성하는 것으로 관찰되었다고 가정하면, 각 에 대해, 사전 확률 은 사후 확률 로 업데이트된다. 베이즈 정리에 따르면:[6]
::
추가적인 증거를 관찰하면 이 절차를 반복할 수 있다. 독립 동일 분포(independent and identically distributed) 관측치의 수열 에 대해, 위 식을 반복적으로 적용하면 다음과 같이 유도할 수 있다.
::
여기서
::
4. 2. 다중 관측
독립 동일 분포(independent and identically distributed)를 따르는 관측치들의 수열 에 대해, 베이즈 정리를 반복적으로 적용하면 다음과 같은 식을 얻을 수 있다.[6]여기서
이는 여러 관측치에 대해 베이즈 정리를 순차적으로 적용하여 사후 확률을 갱신하는 과정을 나타낸다. 즉, 각 관측치 를 얻을 때마다 이전 단계에서 계산된 사후 확률을 새로운 사전 확률로 사용하여 베이즈 정리를 적용하는 것이다.
모델 공간을 매개변수화하면 모든 모델에 대한 신념을 한 번에 업데이트할 수 있다. 모델 공간에 대한 신념 분포는 매개변수 공간에 대한 신념 분포로 생각할 수 있다. 이 분포는 연속 분포로 표현되지만, 이산 분포에도 동일하게 적용할 수 있다.
매개변수 공간을 나타내는 벡터 를 정의하고, 에 대한 초기 사전 분포를 라고 하자. 여기서 는 사전 분포 자체의 매개변수인 초매개변수이다. 을 독립 동일 분포 사건 관측치의 수열이라고 할 때, 베이즈 정리를 통해 에 대한 사후 분포는 다음과 같이 계산된다.[6]
여기서
4. 3. 매개변수 공식화
모델 공간을 매개변수화하여 모든 모델에 대한 신념을 한 번에 업데이트할 수 있다. 독립적이고 동일하게 분포된 사건 을 생성하는 과정이 있지만, 확률 분포는 알려져 있지 않다고 가정한다. 이 과정에 대한 현재 신념 상태를 나타내는 사건 공간 에서 각 모델은 사건 으로 표현된다. 각 모델을 정의하기 위해 조건부 확률 이 지정되며, 은 각 모델에 대한 신념의 정도를 나타낸다. 초기 사전 확률들의 집합 은 합이 1이어야 하며, 그 외에는 임의적이다.과정이 을 생성하는 것으로 관찰되면, 각 모델 에 대해 사전 확률 은 베이즈 정리에 따라 사후 확률 로 업데이트된다.[6]
추가적인 증거를 관찰하면 이 절차를 반복할 수 있다. 독립 동일 분포 관측치의 수열 에 대해, 위 식을 반복 적용하면 다음과 같다.
여기서
매개변수 공간을 벡터 로 나타내고, 에 대한 초기 사전 분포를 라고 한다. 여기서 는 초매개변수이다. 을 독립 동일 분포 사건 관측치의 시퀀스라고 하고, 베이즈 정리를 적용하여 에 대한 사후 분포를 구하면 다음과 같다.
여기서
- 사전 분포: 데이터 관측 전 매개변수 분포 (). 제프리스 사전 분포를 사용할 수 있다.
- 표본 분포: 매개변수를 조건으로 하는 관측 데이터 분포 (). 우도 함수()라고도 한다.
- 주변 우도(증거): 매개변수에 대해 주변화된 관측 데이터 분포 (). 데이터와 전문가 의견 간의 일치 정도를 나타낸다.[7]
- 사후 분포: 관측 데이터를 고려한 후의 매개변수 분포. 베이즈 정리에 의해 결정된다.
이는 "사후 확률 = (우도 × 사전 확률) / 증거"로 표현된다.
실제 복잡한 베이즈 모델에서는 사후 분포 를 폐쇄 형태로 얻기 어렵기 때문에 근사 기법을 사용한다.[8]
일반적인 경우, 조건부 분포와 결합 분포를 통해 베이즈 정리가 사전 분포에서 사후 분포를 결정한다. 콜모고로프는 조건부 확률의 중요성을 강조했다.[9] 베이즈 정리는 부적절한 사전 분포를 포함하도록 일반화할 수 있으며, 마르코프 연쇄 몬테카를로 방법은 이러한 경우를 포함하여 베이즈 정리의 중요성을 높였다.[12]
5. 베이즈 추론의 형식적 설명
베이즈 추론은 추론 대상 θ에 대한 사전 확률 p(θ)와 θ와 관련된 관측 X의 확률 분포 p(X|θ)를 이용하여, X가 주어졌을 때 θ의 사후 분포 p(θ|X)를 베이즈 정리를 통해 계산한다.[6]
:
이 분포를 통해 새로운 자료 x*에 대한 확률분포 등을 추정할 수 있다.
:
독립적이고 동일하게 분포된(independent and identically distributed) 사건 (n = 1, 2, 3, ...)을 생성하는 과정에서 확률 분포가 알려져 있지 않다고 가정할 때, 각 모델은 사건 으로 표현되며 조건부 확률 으로 정의된다. 은 에 대한 신념의 정도이며, 초기 사전 확률들의 집합 에서 시작한다.
과정이 을 생성하는 것으로 관찰되면, 각 에 대해 사전 확률 은 베이즈 정리에 따라 사후 확률 로 업데이트된다.[6]
:
이는 추가적인 증거를 관찰하며 반복될 수 있다. 독립 동일 분포 관측치의 수열 에 대해 반복 적용하면 다음과 같다.
:
여기서
:
모델 공간을 매개변수화하면 모든 모델에 대한 신념을 단일 단계로 업데이트할 수 있다. 모델 공간에 대한 신념 분포는 매개변수 공간에 대한 신념 분포로 생각할 수 있다.
벡터 가 매개변수 공간을 나타내고, 에 대한 초기 사전 분포를 (여기서 는 초매개변수)라고 할 때, 독립 동일 분포 사건 관측치의 시퀀스 에 대해 베이즈 정리를 적용하여 에 대한 사후 분포를 구한다.
:
여기서
:
베이즈 추론에서는 다음과 같은 용어들이 사용된다.
- 사전 분포: 데이터 관측 전 매개변수(들)의 분포 ().
- 표본 분포: 매개변수를 조건으로 하는 관측된 데이터의 분포 () 또는 우도 함수 ().
- 주변 우도 (또는 '증거'): 매개변수(들)에 대해 주변화된 관측된 데이터의 분포 ().[7]
- 사후 분포: 관측된 데이터를 고려한 후의 매개변수(들)의 분포로, 베이즈 정리에 의해 결정된다.
:
이는 "사후 확률은 우도 × 사전 확률에 비례한다" 또는 "사후 확률 = (우도 × 사전 확률) / 증거"로 표현된다.
복잡한 베이즈 모델의 경우, 사후 분포는 폐쇄 형태 분포로 얻어지지 않는 경우가 많아 근사 기법을 이용해야 한다.[8]
일반적으로 를 일 때 의 조건부 분포, 를 의 분포라고 하면, 결합 분포는 이다. 일 때 의 조건부 분포 는 로 결정된다. 콜모고로프는 조건부 확률의 중요성을 강조했으며,[9] 베이즈 정리는 부적절한 사전 분포를 포함하도록 일반화될 수 있다.[11]
5. 1. 정의
베이즈 추론은 사전 확률과 관측된 데이터에 대한 통계적 모델에서 도출된 "가능도 함수"를 이용하여 사후 확률을 도출한다. 베이즈 추론은 베이즈 정리를 사용하여 사후 확률을 계산한다.:
여기서,
- 는 데이터(증거)에 의해 확률이 영향을 받을 수 있는 임의의 가설을 나타낸다.
- , ''사전 확률''은 증거인 데이터 가 관측되기 ''전'' 가설 의 확률에 대한 추정치이다.
- , ''증거''는 사전 확률을 계산하는 데 사용되지 않은 새로운 데이터이다.
- , ''사후 확률''은 를 고려했을 때 의 확률, 즉 가 관측된 ''후''의 확률이다.
- 는 를 고려했을 때 를 관측할 확률이며 ''가능도''라고 한다.
- 는 때때로 한계 가능도 또는 "모델 증거"라고 한다. 이 요소는 고려 중인 모든 가능한 가설에 대해 동일하므로, 서로 다른 가설의 상대적 확률을 결정하는 데 영향을 미치지 않는다.
의 서로 다른 값에 대해 와 요소만 의 값에 영향을 미친다. 즉, 가설의 사후 확률은 그 고유한 가능성인 사전 확률과 새로 얻은 가능도(새로 관측된 증거와의 적합성)에 비례한다.
의 논리적 부정인 ("가 아님")이 유효한 가능도인 경우 베이즈 규칙은 다음과 같이 다시 쓸 수 있다.
:
이는
:
및
:
때문이다.
방정식을 쉽게 기억하는 방법은 곱셈 규칙을 사용하는 것이다.
:
독립 동일 분포 관측치의 수열 에 대해, 위 식을 반복적으로 적용하면 다음과 같이 유도할 수 있다.
:
여기서
:
모델 공간을 매개변수화함으로써 모든 모델에 대한 신념을 단일 단계로 업데이트할 수 있다. 그러면 모델 공간에 대한 신념 분포를 매개변수 공간에 대한 신념 분포로 생각할 수 있다.
벡터 가 매개변수 공간을 나타낸다고 할 때, 에 대한 초기 사전 분포를 라고 한다. 여기서 는 사전 자체에 대한 매개변수 집합 또는 초매개변수이다. 을 모든 가 어떤 에 대해 로 분포된 독립 동일 분포 사건 관측치의 시퀀스라고 하면, 베이즈 정리를 적용하여 에 대한 사후 분포를 찾을 수 있다.
:
여기서
:
- 는 일반적인 데이터 포인트이다.
- 는 데이터 포인트 분포의 모수이다.
- 는 모수 분포의 초모수이다.
- 는 개의 관측된 데이터 포인트 의 집합인 표본이다.
- 는 분포를 예측해야 하는 새로운 데이터 포인트이다.
다음은 베이즈 추론에서 사용되는 용어들이다.
- 사전 분포는 어떠한 데이터도 관측되기 전 매개변수(들)의 분포, 즉 이다.
- 표본 분포는 그 매개변수를 조건으로 하는 관측된 데이터의 분포, 즉 이다.
- 주변 우도(때로는 '증거'라고도 함)는 매개변수(들)에 대해 주변화된 관측된 데이터의 분포, 즉 이다.
- 사후 분포는 관측된 데이터를 고려한 후의 매개변수(들)의 분포이다. 이것은 베이즈 정리에 의해 결정된다.
:
이는 "사후 확률은 우도 × 사전 확률에 비례한다" 또는 "사후 확률 = (우도 × 사전 확률) / 증거"로 표현된다.
일반적인 경우, 를 가 주어졌을 때 의 조건부 분포라고 하고, 를 의 분포라고 하면, 결합 분포는 이다. 가 주어졌을 때 의 조건부 분포 는 로 결정된다.
5. 2. 베이즈 추론
베이즈 추론은 추론 대상 에 대한 사전 확률 를 기반으로, 관측 가 주어졌을 때 의 사후 분포 를 계산한다. 이때 베이즈 정리를 이용하여 다음과 같이 계산할 수 있다.:
이 분포를 통해 새로운 자료 에 대한 확률분포 추정 등 다양한 통계적 추정이 가능하다.
:
베이즈 추론은 사전 확률과 가능도 함수를 통해 사후 확률을 도출하며, 베이즈 정리를 사용하여 사후 확률을 계산한다.
:
여기서 사용되는 기호는 다음과 같다.
- : 데이터에 의해 영향을 받는 가설
- : 사전 확률, 데이터 관측 전 가설 의 확률
- : 증거, 새로운 데이터
- : 사후 확률, 관측 후 의 확률
- : 가능도, 가 주어졌을 때 를 관측할 확률
- : 한계 가능도 또는 모델 증거
의 논리적 부정 를 고려하면 베이즈 규칙은 다음과 같이 표현 가능하다.
:
이는 조건부 확률의 곱셈 규칙을 사용하여 쉽게 이해할 수 있다.
:
독립 동일 분포 관측치의 수열 에 대해 베이즈 정리를 반복 적용하면 다음과 같다.
:
여기서
:
모델 공간을 매개변수화하면 모든 모델에 대한 신념을 단일 단계로 업데이트할 수 있다. 매개변수 공간에 대한 초기 사전 분포 와 베이즈 정리를 통해 사후 분포를 계산한다.
:
여기서
:
- : 일반적인 데이터 포인트
- : 데이터 포인트 분포의 모수
- : 모수 분포의 초모수
- : 관측된 데이터 포인트 집합
- : 예측해야 하는 새로운 데이터 포인트
베이즈 추론은 사전 분포, 표본 분포, 주변 우도, 사후 분포 등의 개념을 통해 이루어진다.
- 사전 분포:
- 표본 분포: 또는
- 주변 우도:
- 사후 분포:
복잡한 베이즈 모델의 경우, 사후 분포는 폐쇄 형태 분포로 얻어지지 않아 근사 기법이 필요하다.[8]
일반적인 경우, 조건부 분포와 결합 분포를 통해 베이즈 정리가 사전 분포에서 사후 분포를 결정한다. 콜모고로프는 조건부 확률의 중요성을 강조했으며,[9] 베이즈 정리는 부적절한 사전 분포를 포함하도록 일반화될 수 있다.[11]
5. 3. 베이즈 예측
베이즈 추론에서, 관측되지 않은 새로운 자료()에 대한 확률분포는 다음과 같이 추정된다.[7]:
- 사후 예측 분포*는 사후 분포에 대해 주변화된 새로운 데이터 점()의 분포이며, 다음과 같이 표현된다.
:
- 사전 예측 분포*는 사전 분포에 대해 주변화된 새로운 데이터 점의 분포이며, 다음과 같이 표현된다.
:
베이즈 이론에서는 예측 추론을 수행하기 위해, 즉 새로운 관측되지 않은 데이터 점의 분포를 예측하기 위해 사후 예측 분포를 사용해야 한다. 이는 예측값으로 고정된 점 대신 가능한 점들의 분포가 반환되기 때문이다. 이 방법만이 매개변수의 전체 사후 분포를 사용할 수 있다. 반면에 빈도주의 통계학에서는 매개변수의 최적 점 추정값(예: 최대 우도 또는 최대 사후 확률 추정)을 찾고, 이 추정값을 데이터 점의 분포 공식에 대입하는 방식을 사용한다. 이 방식은 매개변수 값의 불확실성을 고려하지 않아 예측 분포의 분산을 과소평가하는 단점이 있다.[7]
빈도주의 통계학에서도 어떤 경우에는 이 문제를 해결할 수 있다. 예를 들어, 알려지지 않은 평균과 분산을 갖는 정규 분포에서 구성된 빈도주의 통계학의 신뢰 구간과 예측 구간은 스튜던트 t-분포를 사용하여 구성된다. 이는 (1) 정규 분포된 확률 변수들의 평균도 정규 분포되고, (2) 알려지지 않은 평균과 분산을 갖는 정규 분포된 데이터 점의 예측 분포는 공액 사전 분포 또는 비정보 사전 분포를 사용할 때 스튜던트 t-분포를 따르기 때문에 분산을 정확하게 추정하기 때문이다. 그러나 베이즈 통계학에서는 사후 예측 분포를 항상 정확하게, 혹은 수치적 방법을 사용할 때 임의의 정밀도까지 결정할 수 있다.[7]
두 가지 유형의 예측 분포는 모두 복합 확률 분포의 형태를 갖는다. 사전 분포가 공액 사전 분포여서 사전 분포와 사후 분포가 같은 분포족에 속하는 경우, 사전 예측 분포와 사후 예측 분포도 같은 복합 분포족에 속한다. 유일한 차이점은 사후 예측 분포가 (공액 사전 분포 문서에 나와 있는 베이즈 업데이트 규칙을 적용하여) 업데이트된 초매개변수 값을 사용하는 반면, 사전 예측 분포는 사전 분포에 나타나는 초매개변수 값을 사용한다는 것이다.[7]
6. 수학적 속성
베이즈 추론은 몇 가지 중요한 수학적 속성을 가지고 있다. 베이즈 추론에서는 추론 대상 에 대한 사전 확률 가 주어진다. 와 관계된 관측 의 확률 분포가 와 같이 주어질 때, 베이즈 추론은 가 추가적으로 주어졌을 때의 의 분포 를 베이즈 정리를 이용하여 계산한다.
:
이 분포를 이용하여, 관측하지 않은 새로운 자료 에 대한 확률분포 등을 추정할 수 있다.
:
베이즈 추론은 상호 배타적이고 포괄적인 명제 집합에 대한 신념을 갱신하는 데 사용되며, 이때 신념 분포 전체에 작용하는 것으로 생각할 수 있다. 여기서 사용되는 변수는 다음과 같다.
- : 일반적인 데이터 포인트 (실제로는 벡터일 수 있음)
- : 데이터 포인트 분포의 모수 (벡터 모수일 수 있음)
- : 모수 분포의 초모수 (벡터 초모수일 수 있음)
- : 표본 (개의 관측된 데이터 포인트 집합)
- : 분포를 예측해야 하는 새로운 데이터 포인트
사전 분포, 표본 분포(우도 함수), 주변 우도(증거), 사후 분포 등의 개념이 사용되며, 특히 사후 분포는 베이즈 추론의 핵심을 이루는 베이즈 정리에 의해 결정된다.
:
이는 "사후 확률은 우도 × 사전 확률에 비례한다" 또는 "사후 확률 = (우도 × 사전 확률) / 증거"로 표현된다.
일반적으로, 기계 학습에 사용되는 복잡한 베이즈 모델의 경우 사후 분포를 폐쇄 형태 분포로 얻기 어렵기 때문에 근사 기법을 이용해야 한다.[8]
콜모고로프는 조건부 확률과 조건부 기댓값의 이론을 공식화했으며, 라돈-니코딤 정리를 통해 조건부 기댓값의 존재와 유일성이 보장된다.[9] 베이즈 정리는 사전 분포에서 사후 분포를 결정하며, 유일성에는 연속성 가정이 필요하다.[10] 또한, 베이즈 정리는 부적절한 사전 분포를 포함하도록 일반화될 수 있으며, 마르코프 연쇄 몬테카를로 방법은 이러한 경우를 포함하여 베이즈 정리의 중요성을 높였다.[12]
6. 1. 인자 해석
이면 모델이 참일 때 증거가 더 가능성이 높다는 것을 의미한다.[7] 즉, 모형이 참이라면 증거는 현재 신념 상태에서 예측되는 것보다 더 가능성이 높다. 신념이 감소하는 경우에는 그 반대가 적용된다. 신념이 변하지 않으면 이다. 즉, 증거는 모형과 독립적이다. 모형이 참이라면 증거는 현재 신념 상태에서 예측되는 것과 정확히 같은 가능성을 가진다.6. 2. 크롬웰의 규칙
만약 P(M) = 0이면 P(M|E) = 0이다. 만약 P(M) = 1이고 P(E) > 0이면, P(M|E) = 1이다. 이는 확고한 확신은 반증에 무감각하다는 것을 의미하는 것으로 해석될 수 있다.전자는 베이즈 정리에서 직접적으로 도출된다. 후자는 사건 “M이 아님”을 "M" 대신에 적용하여 첫 번째 규칙을 적용함으로써 도출될 수 있으며, "만약 1 - P(M) = 0이면, 1 - P(M|E) = 0"을 얻고, 그 결과가 즉시 도출된다.
6. 3. 사후 확률의 점근적 행동
많은 횟수의 독립 동일 분포 시행으로 신뢰 분포가 업데이트될 때, 충분히 좋은 사전 확률에 대해 베르누이-폰 미제스 정리는 사후 분포가 초기 사전 분포와 독립적인 정규 분포로 수렴한다는 것을 보여준다.[13][14][15] 이는 1948년 조셉 L. 두브가 처음으로 개략적으로 설명하고 엄밀하게 증명한 조건, 즉 고려 중인 확률 변수가 유한한 확률 공간을 가질 경우에 해당한다.하지만 확률 변수가 무한하지만 가산적인 확률 공간(무한히 많은 면을 가진 주사위에 해당)을 가지는 경우, 사전 분포의 밀집 부분집합에 대해 베르누이-폰 미제스 정리가 적용될 수 없음을 보여준다. 이 경우에는 거의 확실히 점근적 수렴이 없다.
요약하자면, 초기 선택의 영향을 억제하기에는 충분한 시행이 없을 수 있으며, 특히 크지만 유한한 시스템의 경우 수렴이 매우 느릴 수 있다.
6. 4. 켤레 사전 확률
켤레 사전 확률은 사후 분포 계산을 닫힌 형태로 표현할 수 있게 해주는 유용한 도구이다.[7]매개변수 형태에서, 사전 확률 분포는 종종 켤레 사전 확률이라고 불리는 분포족에서 나온다고 가정한다. 켤레 사전 확률을 사용하면 해당 사후 확률 분포가 같은 족에 속하게 되며, 계산을 닫힌 형태로 표현할 수 있다는 장점이 있다.[7][9][10][11][12]
6. 5. 모수 및 예측 추정
사후 분포를 사용하여 모수 또는 변수를 추정할 수 있다.[16][17][18][19][20] 베이즈 추정 방법은 사후 분포에서 중심 경향의 측정값을 선택한다.1차원 문제의 경우, 실제 연속 문제에 대해 고유한 중앙값이 존재한다. 사후 중앙값은 강건 추정량으로서 매력적이다.[16]
사후 분포에 유한 평균이 존재하는 경우, 사후 평균은 추정 방법이 된다.[17]
:
가장 큰 확률을 가진 값을 취하는 것은 최대 사후 확률(MAP) 추정을 정의한다.[18]
:
최댓값이 달성되지 않는 예가 있는데, 이 경우 MAP 추정값의 집합은 공집합이다.
사후 위험(기대 사후 손실)을 손실 함수에 대해 최소화하는 다른 추정 방법이 있으며, 이는 표본 분포("빈도주의 통계")를 사용하는 통계적 의사결정 이론에 관심이 있다.[19]
새로운 관측값 (이전 관측값과 독립적인)의 사후 예측 분포는 다음과 같이 결정된다.[20]
:
7. 응용 사례
베이즈 추론은 여러 분야에서 활용되며, 특히 증거를 바탕으로 신념을 갱신하거나 의사 결정을 내리는 데 유용하다.
모델 선택: 베이지안 방법론은 관측된 데이터를 가장 잘 설명하는 모델을 선택하는 데 사용된다. 데이터가 주어졌을 때 가장 높은 사후 확률을 갖는 모델이 선택되며, 이는 한계 우도와 모델에 대한 사전 신념에 따라 결정된다. 두 경쟁 모델의 사전 확률이 동일하다고 가정하면, 사후 확률의 비율은 베이즈 팩터와 같다. 이러한 방법은 최대 사후 확률(MAP) 선택 규칙[29] 또는 MAP 확률 규칙[30]이라고도 한다.
베이즈 추론은 다음과 같은 다양한 응용 사례를 가진다.
- 가설의 확률 계산: 베이즈 정리를 통해 특정 가설의 확률을 계산한다.
- 예측: 고고학 유적지의 거주 시기를 추정하는 등, 과거 또는 미래 사건을 예측한다.
- 임상 검사: 질병 검사 결과의 신뢰도를 평가하고 위양성 확률을 계산한다.
- 법정: 증거를 종합하여 피고인의 유무죄를 추정한다.
- 사고 수색: 잠수함 침몰 사고와 같이, 사고 발생 위치를 추정하고 수색 범위를 좁힌다.
- 문제 해결: 몬티 홀 문제와 같이, 확률 기반의 의사 결정 문제 해결에 활용된다.
- 모수 추정: 이항 분포의 모수와 같이, 확률 분포의 모수를 추정한다.
- 임상 시험: 신약의 효과를 평가하고, 작은 표본으로도 모수를 추정한다.
각 응용 사례에 대한 자세한 내용은 하위 섹션( #가설의 확률, #예측, #임상 검사에서의 위양성, #법정, #잠수함 침몰 사고, #몬티 홀 문제, #이항 분포 모수의 사후 분포, #임상 시험 )을 참조한다.
7. 1. 가설의 확률
H1H2