베이즈 통계학
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
베이즈 통계학은 베이즈 정리를 기반으로 하는 통계적 추론 방법론이다. 베이즈 정리는 새로운 증거가 주어졌을 때 기존의 믿음을 업데이트하는 방법을 제공하며, 조건부 확률을 사용하여 사전 확률을 사후 확률로 갱신한다. 베이즈 추론은 베이즈 정리를 활용하여 통계적 추론을 수행하며, 모수를 확률 변수로 취급하여 확률을 업데이트한다. 베이즈 통계학은 통계 모형의 공식화, 베이즈 실험 설계, 그리고 모형 탐색적 분석 등 다양한 분야에 적용되며, 사전 분포 지정과 순차적 분석 기법을 통해 유연한 분석을 가능하게 한다.
더 읽어볼만한 페이지
베이즈 통계학 | |
---|---|
베이즈 통계 | |
개요 | |
학문 분야 | 통계학 |
유형 | 추론 통계학 |
관련 학문 | 확률 결정 이론 |
주요 개념 | |
확률 해석 | 베이즈 확률 주관적 확률 |
기본 원리 | 베이즈 정리 사전 확률 사후 확률 우도 주변 확률 공액 사전 분포 사후 예측 분포 초모수 초모수에 대한 사전 분포 무차별의 원리 최대 엔트로피 원리 경험적 베이즈 방법 크롬웰의 규칙 번스타인-폰 미제스 정리 슈바르츠 정보 기준 신뢰 구간 최대 사후 확률 추정 근본적 개연성 |
접근 방식 | 베이즈 추론 베이즈 모형 베이즈 정리 베이즈 인자 베이즈 추정량 베이즈 네트워크 |
방법론 | |
통계 기법 | 베이즈 선형 회귀 베이즈 추정량 근사 베이즈 계산 마르코프 연쇄 몬테카를로 |
관련 주제 | |
관련 분야 | 의사 결정 이론 정보 이론 |
관련 인물 | |
주요 인물 | 토머스 베이즈 피에르시몽 라플라스 해럴드 제프리스 데니스 린리 에드윈 제인스 I. J. 굿 데이비드 블랙웰 브루노 데 피네티 제임스 버거 앤드루 겔먼 도널드 루빈 |
2. 베이즈 정리
베이즈 정리는 베이즈 통계학에서 새로운 데이터를 얻은 후 확률(믿음의 정도)을 업데이트하는 데 사용되는 핵심 정리이다.[6] 두 사건 와 가 주어졌을 때, 가 참일 때 의 조건부 확률은 다음과 같이 표현된다.[6]
:
여기서 이다. 베이즈 정리는 확률론의 기본 결과이지만, 베이즈 통계학에서 특정한 해석을 갖는다. 위의 식에서 사용되는 각 확률은 다음과 같은 의미를 갖는다.
즉, 베이즈 정리는 새로운 증거 를 고려한 후 사전 믿음 를 업데이트하는 방법을 제시한다.[1]
2. 1. 베이즈 정리의 응용
베이즈 정리는 새로운 데이터를 얻은 후 확률(믿음의 정도)을 갱신하는 데 사용된다.[6] 두 사건 `A` 와 `B` 가 주어졌을 때, `B` 가 참일 때 `A` 의 조건부 확률은 다음과 같이 표현된다.[6]:
여기서 `P(B)` 는 0이 아니다. `A` 는 보통 명제(예: 동전이 앞면으로 나올 확률이 50%라는 진술)를 나타내고, `B` 는 고려해야 할 증거 또는 새로운 데이터(예: 일련의 동전 던지기 결과)를 나타낸다. `P(A)` 는 사전 확률로, 증거를 고려하기 전 `A` 에 대한 믿음을 나타낸다. `P(B \mid A)` 는 우도 함수로, `A` 가 참일 때 증거 `B` 의 확률로 해석될 수 있다. `P(A \mid B)` 는 사후 확률로, 증거 `B` 를 고려한 후 명제 `A` 의 확률이다. 즉, 베이즈 정리는 새로운 증거 `B` 를 고려한 후 사전 믿음 `P(A)` 를 갱신한다.[1]
증거의 확률 `P(B)` 는 전체 확률의 법칙을 사용하여 계산할 수 있다. 실험의 모든 결과의 집합인 표본 공간의 분할이 `\{A_1, A_2, \dots, A_n\}` 이라면,[1][6]
:
무한히 많은 결과가 있는 경우, 전체 확률의 법칙을 사용하여 `P(B)` 를 계산하려면 모든 결과에 대해 적분해야 한다. `P(B)` 는 계산하기 어려운 경우가 많아, 사전 확률과 우도의 곱만 고려하기도 한다. 사후 확률은 이 곱에 비례한다.[1]
:
사후 확률의 최빈값인 최대 사후 확률은 수학적 최적화 방법을 사용하여 계산되며, 마르코프 연쇄 몬테카를로 또는 변분 베이즈 방법과 같은 방법으로 `P(B)` 의 정확한 값을 계산하지 않고도 근사할 수 있다.[1]
3. 베이즈 추론
베이즈 추론은 통계적 추론의 한 방법으로, 추론의 불확실성을 확률로 정량화한다.[7] 빈도주의 추론에서는 모형의 매개변수와 가설을 고정된 것으로 간주하고 확률을 할당하지 않지만, 베이즈 추론에서는 모형 매개변수에 확률을 할당하고 확률 변수로 취급한다.[1]
예를 들어, 빈도주의 추론에서는 공정한 동전의 다음 던지기 결과와 같이 한 번만 발생하는 사건에 확률을 부여하는 것은 불가능하지만, 베이즈 추론에서는 가능하다. 베이즈 추론은 베이즈 정리를 사용하여 더 많은 증거가 얻어지거나 알려진 후에 확률을 갱신한다.[1][9]
통계 모형은 표본 데이터가 생성되는 방식을 나타내는 일련의 통계적 가정과 과정을 지정하며, 수정할 수 있는 여러 매개변수를 가진다. 예를 들어, 동전은 두 가지 가능한 결과를 모델링하는 베르누이 분포에서 표본 추출된 것으로 나타낼 수 있다. 베르누이 분포는 한 가지 결과의 확률(대부분 앞면이 나올 확률)과 같은 단일 매개변수를 갖는다. 베이즈 추론에서는 데이터에 대한 훌륭한 모형을 고안하는 것이 핵심이며, 대부분의 경우 모형은 실제 과정을 근사적으로만 나타내고 데이터에 영향을 미치는 특정 요소를 고려하지 않을 수 있다.[1]
3. 1. 베이즈 추론의 과정
베이즈 추정은 추정의 불확실성을 확률로 정량화하는 통계적 추정 방법이다. 고전적인 빈도주의적 추정에서는 모델의 파라미터와 가설을 고정된 것으로 간주하며, 파라미터나 가설에 확률을 할당하지 않는다. 예를 들어, 빈도주의적 추정에서는 공정한 동전을 다음에 던졌을 때의 결과처럼 한 번만 일어나는 사건에는 확률을 직접 할당하는 것이 의미 없다. 그러나 앞면이 나올 비율이 동전 던지기 횟수가 증가함에 따라 2분의 1에 가까워진다고는 말할 수 있다.[24]통계 모델은 표본 데이터 생성 과정을 나타내는 일련의 통계적 가정 및 절차를 규정한다. 통계 모델은 수정 가능한 여러 파라미터를 가진다. 예를 들어, 동전은 베르누이 분포에서 추출된 표본으로 나타낼 수 있으며, 이는 두 가지 가능한 결과를 모델링한다. 베르누이 분포는 한쪽 결과의 확률(대부분 앞면이 나올 확률)과 동일한 단일 파라미터를 가진다. 베이즈 추정에서는 데이터에 적합한 모델을 고안하는 것이 중요하다. 대부분의 경우 모델은 실제 과정을 근사할 뿐이며, 데이터에 영향을 미치는 특정 요인을 고려하지 않는다.[21] 베이즈 추정에서는 확률을 모델의 파라미터에 할당할 수 있으며, 파라미터는 확률 변수로 나타낼 수 있다. 베이즈 추정은 더 많은 증거가 확보되거나 알려진 후 확률을 업데이트하기 위해 베이즈 정리를 사용한다.[21][25]
3. 2. 빈도주의 추론과의 비교
빈도주의 추론에서는 모형의 매개변수와 가설을 고정된 것으로 간주하며, 매개변수나 가설에 확률을 할당하지 않는다. 예를 들어, 공정한 동전의 다음 던지기 결과와 같이 한 번만 발생할 수 있는 사건에 직접 확률을 할당하는 것은 빈도주의 추론에서는 의미가 없다. 그러나 동전 던지기 횟수가 증가함에 따라 앞면이 나올 비율이 1/2에 가까워진다고 말하는 것은 의미가 있다.[8]반면 베이즈 추론에서는 모형 매개변수에 확률을 할당할 수 있다. 매개변수는 확률 변수로 나타낼 수 있다. 베이즈 추론은 베이즈 정리를 사용하여 더 많은 증거가 얻어지거나 알려진 후에 확률을 업데이트한다.[1][9]
통계 모형은 표본 데이터가 생성되는 방식을 나타내는 일련의 통계적 가정과 과정을 지정하며, 수정할 수 있는 여러 매개변수를 가지고 있다. 예를 들어, 동전은 베르누이 분포에서 표본 추출된 것으로 나타낼 수 있으며, 베르누이 분포는 한 가지 결과의 확률과 같은 단일 매개변수를 가진다. 베이즈 추론에서는 이러한 매개변수에 확률을 할당하여 불확실성을 정량화한다.[1]
4. 통계 모형
베이즈 통계를 사용한 통계 모형의 공식화는 알려지지 않은 모든 매개변수에 대한 사전 분포 지정을 요구한다는 특징이 있다. 사전 분포의 매개변수 자체도 사전 분포를 가질 수 있다.[10][11][12]
베이즈 통계 분석 수행 방법은 반 데 스코트(van de Schoot) 등이 논의했다.[13] 베이즈 통계 분석 결과 보고는 존 K. 크루슈케(John K. Kruschke)의 공개 액세스 논문에 제공된 베이즈 분석 보고 지침(BARG)을 따른다.[14]
4. 1. 계층적 베이즈 모형
베이즈 통계를 사용한 통계 모형 공식화는 알려지지 않은 모든 매개변수에 대한 사전 분포 지정을 요구한다는 특징이 있다. 실제로, 사전 분포의 매개변수 자체도 사전 분포를 가질 수 있으며, 이는 베이즈 계층 모형[10][11][12], 다층 모형으로도 알려져 있다. 특별한 경우는 베이즈 네트워크이다.4. 2. 베이즈 네트워크
베이즈 통계를 사용한 통계 모형의 공식화는 알려지지 않은 모든 매개변수에 대한 사전 분포의 지정을 요구한다는 특징이 있다. 실제로, 사전 분포의 매개변수 자체도 사전 분포를 가질 수 있으며, 이는 베이즈 계층 모형[10][11][12], 다층 모형으로도 알려져 있다. 특별한 경우는 베이즈 네트워크이다.[26]5. 베이즈 실험 설계
베이즈 실험 설계는 사전 신념의 영향을 고려하여 실험을 설계하는 방법이다. 이전 실험의 결과를 다음 실험 설계에 포함하기 위해 순차적 분석 기법을 사용한다. 이는 사전 분포와 사후 분포를 사용하여 '신념'을 업데이트함으로써 달성된다. 이를 통해 실험 설계는 모든 유형의 자원을 잘 활용할 수 있다.
5. 1. 다중 슬롯 머신 문제
다중 슬롯 머신 문제는 베이즈 실험 설계의 대표적인 예시로, 여러 개의 슬롯 머신 중 어떤 것이 가장 높은 보상을 주는지 알아내는 문제이다. 다중 슬롯 머신 문제에서는 탐색과 활용의 균형을 맞추는 것이 중요하며, 베이즈 정리를 사용하여 각 슬롯 머신의 보상 확률을 업데이트한다.6. 베이즈 모형의 탐색적 분석
베이즈 모형의 탐색적 분석은 탐색적 데이터 분석 접근 방식을 베이즈 모형에 맞게 적용하거나 확장한 것이다. 퍼시 다이코니스(Persi Diaconis)는 다음과 같이 말했다.[15]
> 탐색적 데이터 분석은 데이터의 구조나 단순한 설명을 밝히는 것을 목표로 한다. 우리는 숫자나 그래프를 보고 패턴을 찾으려고 노력한다. 배경 정보, 상상력, 인식된 패턴 및 다른 데이터 분석 경험을 통해 제안된 단서를 추구한다.
통계적 그래픽스(Statistical graphics)는 데이터 탐색, 모델 검증 등을 위한 기법을 포함한다. 베이즈 추정을 위한 계산 기술, 특히 다양한 종류의 마르코프 연쇄 몬테카를로를 사용하면 필요한 사후 분포를 나타내는 데 있어 이러한 계산의 타당성을 확인해야 하며, 이는 종종 시각적(그래픽) 형태로 수행된다.
6. 1. 주요 작업
추론 과정은 베이즈 통계학에서 중심적인 역할을 하는 사후 분포를 생성하며, 사후 예측 분포 및 사전 예측 분포와 같은 다른 분포도 생성한다. 이러한 분포를 올바르게 시각화, 분석 및 해석하는 것은 추론 과정을 촉진하는 질문에 적절하게 답하는 데 핵심이다.[16]베이즈 모형으로 작업할 때는 추론 자체 외에도 다음과 같은 일련의 관련 작업이 필요하다.
- 추론 품질 진단: 마르코프 연쇄 몬테카를로 기법과 같은 수치적 방법을 사용할 때 필요하다.
- 모형 비판: 모형 가정 및 모형 예측에 대한 평가를 포함한다.
- 모형 비교: 모형 선택 또는 모형 평균화 등을 포함한다.
- 결과 준비: 특정 대상 청중을 위한 시각화 및 요약을 포함한다.
이러한 모든 작업은 베이즈 모형의 탐색적 분석 접근 방식의 일부이며, 이를 성공적으로 수행하는 것은 반복적이고 상호 작용적인 모형화 과정의 핵심이다. 이러한 작업에는 수치적 요약과 시각적 요약이 모두 필요하다.[17][18][19]
참조
[1]
서적
Bayesian Data Analysis
Chapman and Hall/CRC
[2]
서적
Statistical Rethinking : A Bayesian Course with Examples in R and Stan
Chapman and Hall/CRC
[3]
서적
Doing Bayesian Data Analysis: A Tutorial with R, JAGS, and Stan
Academic Press
[4]
서적
The Theory That Would Not Die: How Bayes' Rule Cracked the Enigma Code, Hunted Down Russian Submarines, and Emerged Triumphant from Two Centuries of Controversy
Chapman and Hall/CRC
[5]
간행물
When Did Bayesian Inference Become "Bayesian"?
2006
[6]
서적
Introduction to probability
American Mathematical Society
2006
[7]
간행물
Gibbs sampler and coordinate ascent variational inference: A set-theoretical review
[8]
서적
Bayesian and frequentist regression methods
Springer
2013
[9]
서적
Applied Bayesian modelling
Wiley
2014
[10]
서적
The Oxford Handbook of Computational and Mathematical Psychology
https://jkkweb.siteh[...]
Oxford University Press
[11]
ArXiv
Bayesian multi-domain learning for cancer subtype discovery from next-generation sequencing count data
2018
[12]
간행물
Bayesian Hierarchical Modeling: Application Towards Production Results in the Eagle Ford Shale of South Texas
[13]
간행물
Bayesian Analysis Reporting Guidelines
2021-08-16
[14]
간행물
Bayesian statistics and modelling
https://osf.io/wdtmc[...]
2021-01-14
[15]
문서
Theories of Data Analysis: From Magical Thinking Through Classical Statistics
John Wiley & Sons, Ltd
2011
[16]
간행물
ArviZ a unified library for exploratory analysis of Bayesian models in Python
[17]
간행물
Visualization in Bayesian workflow
[18]
간행물
Rank-Normalization, Folding, and Localization: An Improved Rˆ for Assessing Convergence of MCMC (With Discussion)
[19]
서적
Bayesian Analysis with Python: Introduction to statistical modeling and probabilistic programming using PyMC3 and ArviZ
https://books.google[...]
Packt Publishing Ltd
2018
[20]
웹사이트
What are Bayesian Statistics?
https://deepai.org/m[...]
2019-02-22
[21]
서적
Bayesian Data Analysis, Third Edition
Chapman and Hall/CRC
[22]
간행물
When Did Bayesian Inference Become "Bayesian"?
https://projecteucli[...]
2006
[23]
서적
Introduction to probability
American Mathematical Society
2006
[24]
서적
Bayesian and frequentist regression methods
Springer
2013
[25]
서적
Applied Bayesian modelling
Wiley
2014
[26]
문서
Bayesian multi-domain learning for cancer subtype discovery from next-generation sequencing count data
https://arxiv.org/pd[...]
2018
[27]
서적
Bayesian Data Analysis, Third Edition
Chapman and Hall/CRC
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com