맨위로가기

베이즈 확률론

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

베이즈 확률론은 18세기 토머스 베이즈에 의해 시작되었으나 오랫동안 잊혀졌다가 20세기에 부활하여 현재 인공지능 및 기계 학습 분야에서 널리 사용되는 통계적 추론 방법이다. 베이즈 정리를 기반으로 하며, 사전 확률과 가능도를 통해 사후 확률을 계산하여 불확실성을 다룬다. 객관주의와 주관주의 두 가지 해석이 존재하며, 콕스 정리, 네덜란드 책 논증, 의사 결정 이론 등에 의해 정당화된다. 스팸 메일 필터링, 게임 이론, 베이즈 통계학 등 다양한 분야에 응용되지만, 사전 확률의 주관성 및 계산 복잡성, 빈도주의 확률론과의 차이점 등으로 비판을 받기도 한다.

2. 역사

동전 던지기주사위 던지기와 같이 고전적인 확률 계산으로 확률을 구하기 어려운 경우, 베이즈 확률론은 사전 확률과 데이터를 결합하여 기대값을 추정하는 유용한 방법을 제공한다.[55] 특히, 원인이 되는 확률 변수나 확률 분포가 명확하지 않은 실제 세계의 많은 문제들을 해결하는 데 사용된다. 예를 들어, 베이즈 확률론을 통해 특정 가설이 참일 가능성, 즉 가능도를 계산할 수 있다.[56]

베이즈 확률론은 오랜 기간 잊혀졌다 다시 발견되기를 반복했으며, 1950년대에 베이즈 정리가 정립된 이후에야 "베이즈 확률론"이라는 이름이 정착되었다.[54] 19세기 공리주의와 빈도주의 확률론의 등장으로 베이즈 확률론은 잠시 주춤했지만, 드레퓌스 사건에서 앙리 푸앵카레가 베이즈 정리를 활용하여 드레퓌스의 무죄를 주장하는 등 사회적 문제 해결에 활용되기도 했다.[70][71]

이후 에이브러햄 왈드와 레너드 새비지에 의해 발전하게 된 베이즈 확률론은 1950년대에 이르러서야 이전에 쓰이던 "역확률" 등의 이름 대신 "베이즈 확률론"이라는 이름을 얻게 되었다. 1960년대에는 18세기의 그것과 구분하기 위해 "신베이즈 확률론"이라는 명칭이 쓰였다.[73][74][75]

객관주의적 해석에서 통계 분석은 오직 예측과 데이터 분석에 의존하며[76] 주관적 결정이 끼어들 여지가 없다. 이에 대해 주관주의적 해석을 지지하는 통계학자들은 일반적인 사례를 모두 분석할 수 있는 객관적 데이터는 확보할 수 없다고 반박한다.

1980년대에 이르러 마르코프 연쇄 몬테카를로 방법이 개발된 이후 베이즈 확률론의 적용 분야가 획기적으로 늘어났다.[77] 1989년 도입된 기브스 표집은 베이즈 확률론에 따른 확률 분포를 보다 쉽게 적용할 수 있도록 하였고 이후 수많은 다른 표집들이 개발되는 계기가 되었다.[72] 21세기에 들어 인공 지능의 기계 학습이 주요한 이슈로 떠오르면서 베이즈 확률론이 적용되고 있다.[79]

"베이즈(Bayesian)"라는 용어는 토머스 베이즈에서 유래되었다.[9] 베이즈 확률(및 베이즈 통계학)은 베이즈 정리를 증명한 토머스 베이즈의 이름을 따서 명명되었지만(실제 명명은 1950년대), 베이즈 자신이 현재와 같은 베이즈 확률이나 베이즈 추론의 생각을 가지고 있었는지는 확실하지 않다.

확률의 주관적 해석(이후 베이즈주의라고 불림)은 1931년 프랭크 램지에 의해 제창되었고, 1937년 브루노 데 피네티에 의해 더 엄밀하게 다루어졌다. 레너드 새비지는 1954년 처음으로 상세한 분석을 가하였으며, 그의 생각에 베이즈 확률·베이즈주의라는 명칭이 적용되었다. 그 외 초기 연구자로는 에이브러햄 왈드 등이 있다.

2. 1. 토머스 베이즈와 리처드 프라이스

토머스 베이즈베이즈 정리의 특수한 경우를 증명한 논문을 남겼으나, 생전에 발표하지는 않았다.[9] 베이즈는 자신의 발견을 〈우연의 원리로 가장 어려운 문제 가운데 하나를 해결하는 불완전한 해법〉이라는 논문으로 정리하였다. 리처드 프라이스는 베이즈 사후에 그의 논문을 발견하고, 데이비드 흄논리실증주의에 대한 반박으로 사용될 수 있음을 간파하여 1763년 왕립학회에 베이즈의 이름으로 〈우연의 원리로 문제를 해결하는 방법에 대한 소론〉을 발표했다.[54] [64] 이 논문은 한 가지 사례에서 베르누이 시행을 통한 베타 분포를 분석하여 확률을 구하는 방법을 서술하고 있다.

2. 2. 피에르시몽 라플라스

피에르시몽 라플라스는 베이즈 정리의 일반적인 형태를 제시하고, 이를 천체역학, 의학 통계, 신뢰도, 법학 등 다양한 분야에 적용하였다.[10] 무차별 원리에 따라 균일한 사전 확률을 사용한 초기 베이즈 추론은 "역확률"이라고 불렸다(관찰에서 매개변수로, 또는 결과에서 원인으로 거꾸로 추론하기 때문에).[11]

피에르 시몽 라플라스


라플라스는 계몽주의 시대의 핵심 인물 가운데 한 명으로, 뉴턴 역학과 천체 관측 값 사이의 차이를 메울 방법으로 확률 해석에 주목하였다. 그는 행성들의 과거 기록 데이터를 이용하여 아래의 역확률 함수 \phi (x)를 작성하여 확률분포도를 계산하였다.[65]

: \phi (x) = \frac{m}{2} e^{-m |x|}

: x = 실제 위치와 데이터 상의 오차 거리, m = 매개 변수

라플라스는 이를 이용하여 동일한 시간대의 여러 관측 데이터의 확률 분포를 구하고 중앙값을 계산하여, 특정 시기의 행성 위치 데이터는 확률적 신뢰도에 따라 구분될 수 있도록 하였다.[65] 라플라스 이후 베이즈 확률론은 흔히 "역확률"로 불리게 되었는데, 현재 주어진 데이터를 통해 과거의 상태 또는 원인의 확률을 계산하기 때문이었다.[66]

2. 3. 20세기: 베이즈 확률론의 부활

존 메이너드 케인스는 논리학을 확률론적으로 확장하면서 선험적 확률을 도입하였다. 이는 베이즈 확률론의 주관주의적 해석에 기반한 것이었다.[72] 1930년대 이탈리아의 브루노 데 피네티는 교환 가능성이라는 개념을 통해 사전 확률 분포를 수학적으로 설명하였다. 그러나 데 피네티 정리는 레너드 새비지가 다시 도입할 때까지 큰 영향력을 발휘하지 못했다.[72]

헤럴드 제프리스는 1939년 《확률 이론》을 발간하여 베이즈 확률론을 다시 주류 수학계에 등장시켰다. 제프리스는 베이즈 확률론을 기하학의 피타고라스 정리에 비유하며 "기하학에 피타고라스 정리가 있다면 확률론에는 베이즈 정리가 있다."라고 언급했다.[47]

제프리스는 객관적인 사전 확률 결정을 위해 피셔 정보를 도입하였는데, 이로써 베이즈 확률론은 오차율이 적은 사전 확률의 규모를 정할 수 있게 되었다. 자료에 대한 객관적 접근 때문에 제프리스의 방식을 객관주의 베이즈 확률론이라고 한다.[72] 제2차 세계 대전 중 나치 독일의 에니그마 암호 체계를 해독한 앨런 튜링은 영어의 a/an에 해당하는 독일어 ein이 암호문에서 90%의 분포를 보인다는 것을 이용하였다. 알파벳 3개로 이루어진 암호문이라면 일단 ein으로 가정하고 에니그마의 세팅을 추측하는 식이었다. 이렇게 선험적으로 가설을 추정하고 확률 분포에 따라 시행해 보는 방법은 베이즈 확률론과 유사하지만, 튜링이 베이즈 확률론을 알고 있었는지는 알 수 없다. 그러나 튜링의 방법을 이어받아 암호를 해독한 정보기관들은 20세기 중반 무렵 베이즈 확률론에 따른 암호 해독 체계를 이용하였다. 이들의 작업은 국가 비밀이었기 때문에 외부로 알려지지 않았다.[54]

3. 베이즈 확률론의 기본 원리

동전 던지기주사위 던지기처럼 각 사건이 독립이거나 로또 6/45와 같이 종속적인 사건일 때, 표본 공간확률 변수가 잘 정의되어 있고 모든 경우의 수를 헤아리기 쉽다면 고전적 확률 계산으로도 충분히 정확한 확률을 계산할 수 있다. 그러나 표본 공간의 크기를 짐작하기 어렵거나 확률 분포가 모호한 경우에는 고전적 확률 계산으로 사건의 확률을 알아내기 어렵다. 예를 들어, 한 국가나 사회의 교통사고 발생 빈도는 차량 수, 교통량, 도로 구조 등 복잡한 원인이 얽혀 있고 표본 집단을 설정하는 것조차 쉽지 않아 고전적인 확률 해석으로는 파악하기 불가능하다. 하지만 베이즈 확률론을 사용하면 선험적 사전 확률과 데이터에 의한 보완을 통해 교통사고 발생 기대값을 추정할 수 있다.[55]

게임이나 도박과 같은 특수한 경우가 아니라면, 세계에서 일어나는 대부분의 사건들은 결과만 주어져 있을 뿐, 원인이 되는 확률 변수나 사건들의 확률 분포가 명확하지 않다. 따라서 베이즈 확률론은 여러 과학 분야와 통계에서 실용적인 문제 해결 방법으로 사용된다. 어떤 사건에 대한 가설을 설정하면, 베이즈 확률론은 그 가설이 참일 가능성, 즉 가능도를 계산할 수 있게 해준다.[56]

베이즈 방법은 다음과 같은 개념과 절차로 특징지어진다.


  • 통계 모델에서 정보 부족으로 인한 불확실성을 포함한 모든 불확실성의 원인을 모델링하기 위해, 확률 변수 또는 더 일반적으로 알려지지 않은 양을 사용한다.[21] (알레아토릭 및 인식론적 불확실성 참조).
  • 사용 가능한 (사전) 정보를 고려하여 사전 확률 분포를 결정해야 한다.
  • 베이즈 정리의 순차적 사용: 더 많은 데이터가 사용 가능해짐에 따라 베이즈 정리를 사용하여 사후 분포를 계산하고, 이후 사후 분포는 다음 사전 분포가 된다.
  • 빈도주의자에게는 귀무 가설이 명제(반드시 참 또는 거짓이어야 함)이므로 가설의 빈도주의 확률은 0 또는 1이지만, 베이즈 통계에서는 진리값이 불확실한 경우 가설에 할당할 수 있는 확률도 0에서 1 사이의 범위에 있을 수 있다.


베이즈주의는 수학적 확률론의 베이즈 정리를 주관적 확률에서 데이터 축적에 따라 개정하고, 더욱 경험적으로 해석하여 통계 문제에 적용한다. 즉, 베이즈 정리에서 데이터 ''B''를 얻었을 때 ''A''가 성립하는 조건부 확률 ''P''(''B''|''A'')을 구하고, 새로운 데이터 ''B''1, ''B''2, ''B''3, …, ''B''''n''이 얻어질 때마다 ''A''의 발생 확률을 갱신한다.

이러한 방법은 관측된 빈도 분포 또는 상정된 모집단의 비율에서 유도되는 것이 확률이라고 하는 빈도 확률의 개념과는 대조적이다. 통계적 방법에서도 차이가 나타나는데, 빈도주의에서는 추정하고 싶은 파라미터는 하나의 참값을 갖는다고 생각하지만, 베이즈주의에서는 파라미터를 확률 변수로 간주한다.

베이즈주의자와 빈도주의자가 생각하는 확률이 다른 예시는 다음과 같다.

엉터리 동전(앞면 또는 뒷면 중 어느 쪽이 더 잘 나오게 되어 있는 동전)이 있고, 어느 쪽이 더 잘 나오는지 알 수 없을 때, 이 동전을 던졌을 때 앞면이 나올 확률은 다음과 같이 계산할 수 있다.

베이즈주의빈도주의
앞면이 나올 확률은 이다. 앞면과 뒷면 중 어느 쪽이 더 잘 나오는지 불확실하므로, 앞면과 뒷면이 나올 확률은 같다. 따라서 이유 불충분 원리에 의해 모두 로 간주한다.앞면이 나올 확률은 0에서 1 사이의 어떤 값이지만, 는 아니다. 동전을 여러 번 던져 [앞면이 나온 횟수 / 던진 횟수]를 계산하면 어떤 값에 가까워지는데(대수의 법칙), 이것이 구하는 확률이다. 단, 이 동전은 엉터리이므로 가 될 수 없다.



베이즈주의자는 현재 가진 정보를 바탕으로 계산된 확률을 중시하고, 새로운 정보가 있으면 확률을 수정한다. 반면 빈도주의자는 무한 번의 시도를 전제로 한 확률을 중시한다.

3. 1. 베이즈 정리

베이즈 정리사전 확률, 가능도, 사후 확률 간의 관계를 나타내는 조건부 확률이다.[57]

서로 종속인 사건 A와 B가 있을 때, 사건 A가 일어날 확률은 P(A), 사건 B가 일어날 확률은 P(B)로 나타낼 수 있다. 사건 B가 관측되었을 때 그 원인이 사건 A일 확률은 조건부 확률 P(A|B)이다. 사건 A가 주어졌을 때 사건 B가 나타날 조건부 확률은 P(B \mid A)이다. B가 나타났을 때 A가 그 원인이 되는 조건부 확률 P(A \mid B)는 다음과 같이 정리할 수 있다.[58]

:P(A\mid B) = \frac{P(B \mid A) P(A)}{P(B)}

위 식에서 P(A)P(B)를 모두 알고 있더라도 P(B \mid A)가능도 설정을 통해 정할 수밖에 없기 때문에[59] 베이즈 확률론은 주관적 해석을 거칠 수밖에 없다. 그러나 베이즈 추론을 통해 사후 확률을 사전 확률로 갱신하고 반복 계산하면 현실에 부합하는 합리적인 가능도를 추론할 수 있다.

3. 2. 베이즈 추론

베이즈 정리를 사용하여 새로운 증거에 따라 가설의 확률을 갱신하는 방법이 베이즈 추론이다. 사전 확률가능도를 곱하고, 이를 데이터의 확률로 나누어 사후 확률을 계산한다.[55][56] 사후 확률은 다시 사전 확률로 사용되어 반복적인 계산을 통해 현실에 부합하는 확률을 추론할 수 있다.

예를 들어, 피에르 시몽 라플라스는 이 방법으로 토성의 질량을 추정했다.

베이즈 추론은 다음과 같은 개념과 절차로 특징지어진다.

  • 통계 모델에서 정보 부족으로 인한 불확실성을 포함한 모든 불확실성의 원인을 모델링하기 위해, 확률 변수 또는 더 일반적으로 알려지지 않은 양을 사용한다.[21]
  • 사용 가능한 (사전) 정보를 고려하여 사전 확률 분포를 결정해야 한다.
  • 베이즈 정리의 순차적 사용: 더 많은 데이터가 사용 가능해짐에 따라 베이즈 정리를 사용하여 사후 분포를 계산하고, 이후 사후 분포는 다음 사전 분포가 된다.
  • 빈도주의자에게는 귀무 가설이 명제(반드시 참 또는 거짓이어야 함)이므로 가설의 빈도주의 확률은 0 또는 1이지만, 베이즈 통계에서는 진리값이 불확실한 경우 가설에 할당할 수 있는 확률도 0에서 1 사이의 범위에 있을 수 있다.

4. 객관주의와 주관주의

베이즈 확률론은 확률을 해석하는 방식에 따라 크게 객관주의와 주관주의로 나뉜다.

객관주의적 해석에서 확률은 논리학의 확장으로, 동일한 정보를 가진 사람이라면 누구나 같은 결론에 도달해야 한다는 입장이다. 콕스 정리는 이러한 관점을 뒷받침한다.[60][61] 반면 주관주의적 해석은 확률을 개인의 믿음 정도로 보며, 결정 이론데 피네티 정리를 통해 정당화된다.[62] 주관주의에서는 개인마다 다른 사전 확률을 가질 수 있지만, 이는 사기 도박과 같이 잘못된 판단으로 이어질 수 있다는 비판을 받는다.[62]

주관주의적 관점에서는 확률 도출 과정의 합리성과 일관성에 따라 개인 간 차이가 있을 수 있다. 예를 들어, 주사위에서 3이 나올 확률을 이 아닌 로 믿는 사람을 비난할 수는 없지만, 이러한 믿음은 게임에서 패배로 이어질 수 있다.[63] 그러나 주관주의는 사전 확률 설정에만 머무르지 않고, 시행을 통해 역확률을 계산하여 사전 확률을 조정하므로 일회적 오류로 베이즈 확률론을 부정할 수는 없다.

어느 쪽이든 베이즈 방법은 다음과 같은 특징을 갖는다.


  • 확률 변수를 사용하여 불확실성을 모델링한다.[21]
  • 사전 확률 분포를 결정해야 한다.
  • 베이즈 정리를 순차적으로 사용하여 사후 분포를 계산하고, 이를 다음 사전 분포로 활용한다.
  • 빈도주의와 달리 가설의 확률이 0과 1 사이의 값을 가질 수 있다.

4. 1. 객관주의 베이즈 확률론

콕스 정리는 확률을 동일한 정보와 규칙을 사용하는 누구나(심지어 로봇이라도) 합리적 예측으로 수량화할 수 있는 것으로 파악하며, 이는 논리학의 확장으로 간주된다.[60][61] 객관주의 베이즈 확률론은 이러한 관점을 바탕으로 한다.[2][8]

헤럴드 제프리스는 객관적인 사전 확률 결정을 위해 피셔 정보를 도입하였는데, 이로써 베이즈 확률론은 보다 오차율이 적은 사전 확률의 규모를 정할 수 있게 되었다. 자료에 대한 객관적 접근 때문에 제프리스의 방식을 객관주의 베이즈 확률론이라고 한다.[72]

객관주의적 해석에서 통계 분석은 오직 예측과 데이터 분석에 의존하며,[76] 주관적 결정이 끼어들 여지가 없다. 이에 대해 주관주의적 해석을 지지하는 통계학자들은 일반적인 사례를 모두 분석할 수 있는 객관적인 데이터는 확보할 수 없다고 반박한다.

4. 2. 주관주의 베이즈 확률론

주관주의는 확률을 개인적인 믿음의 정도로 해석한다. 결정 이론데 피네티 정리는 주관주의 베이즈 확률론의 정당성을 뒷받침한다.[62] 주관주의는 개인마다 다른 사전 확률을 가질 수 있으며, 이는 네덜란드 책 논증과 같은 비판의 대상이 되기도 한다.[3]

주관주의적 해석에 따르면 확률을 도출한 과정이 얼마나 합리적이었는지 그리고 일관성을 갖추었는지에 따라 개인마다 차이를 보일 수 있다.[62] 예를 들어 누군가 정육면체 주사위를 던져 3이 나올 확률을 이 아니라 로 생각한다고 하더라도 그의 주관을 비난할 수 없다는 주장이 있다. 물론 이런 믿음으로 게임을 하는 사람은 반드시 패할 수 밖에 없다.[63] 그러나 주관주의 확률 해석은 선험적 사전 확률의 설정에 그치는 것이 아니라 시행 과정에서 역확률을 다시 계산함으로써 사전 확률을 조정하는 것이 더 중요하기 때문에 일회적 오류만으로 베이즈 확률론을 부정하는 것은 의미가 없다.

램지폰 노이만의 기대 효용 이론에 대한 연구에 이어, 의사 결정 이론가들은 에이전트의 확률 분포를 사용하여 합리적인 행동을 설명해 왔다. 요한 프판차글은 폰 노이만과 오스카 모르겐슈테른이 완수하지 못한 과제인 주관적 확률과 효용의 공리화를 제공하여 ''게임 이론과 경제 행동''을 완성했다.[30] 그들의 원래 이론은 편의상 모든 에이전트가 동일한 확률 분포를 가지고 있다고 가정했다. 프판차글의 공리화는 오스카 모르겐슈테른에 의해 지지되었다.[31]

램지와 세비지는 개별 에이전트의 확률 분포가 실험에서 객관적으로 연구될 수 있다고 언급했다. 확률에 대한 가설 검정 절차(유한 표본 사용)는 램지 (1931)와 데 피네티 (1931, 1937, 1964, 1970)에 기인한다. 브루노 데 피네티[32][33]와 프랭크 P. 램지[33][34]는 모두 실용주의 철학, 특히 (램지의 경우) 찰스 S. 퍼스에 대한 부채를 인정한다.[33][34]

개인 확률의 실험적 평가에 대한 현대 연구는 퍼스-야스트로 실험의 무작위화, 이중 맹검법, 부울 결정 절차를 사용한다.[38] 개인은 서로 다른 확률 판단에 따라 행동하므로, 이러한 에이전트의 확률은 "개인적"이다(그러나 객관적인 연구가 가능하다).

5. 정당화

베이즈 추론은 콕스 정리, 결정 이론, 데 피네티 정리 등에 의해 정당화된다. 과학의 많은 분야에서 베이즈 확률론은 여전히 일부분만을 차지하고 있다. 1995년부터 2014년까지 가장 많이 인용된 통계학 논문 15편 가운데 베이즈 확률론을 바탕으로 하는 것은 5편 뿐이었다.[72]

베이즈 방법은 다음과 같은 특징을 가진다.


  • 통계 모델에서 정보 부족으로 인한 불확실성을 포함한 모든 불확실성확률 변수를 사용하여 모델링한다. (알레아토릭 및 인식론적 불확실성 참조).[21]
  • 사용 가능한 정보를 고려하여 사전 확률 분포를 결정한다.
  • 베이즈 정리를 순차적으로 사용한다. 즉, 더 많은 데이터가 사용 가능해짐에 따라 베이즈 정리를 사용하여 사후 분포를 계산하고, 이후 사후 분포는 다음 사전 분포가 된다.
  • 빈도주의자에게는 귀무 가설이 명제(반드시 참 또는 거짓이어야 함)이므로 가설의 빈도주의 확률은 0 또는 1이지만, 베이즈 통계에서는 진리값이 불확실한 경우 가설에 할당할 수 있는 확률도 0에서 1 사이의 범위에 있을 수 있다.

5. 1. 공리적 접근

베이즈 추론의 기반으로서 베이즈 확률론을 사용하는 것은 콕스 공리, 네덜란드 책 논증, 의사 결정 이론에 기반한 논증 및 드 피네티의 정리와 같은 여러 논증에 의해 뒷받침되어 왔다.[1]

리처드 T. 콕스는 베이즈 업데이트가 몇 가지 공리, 특히 두 개의 함수 방정식과 미분 가능성 가설에서 파생된다는 것을 보여주었다.[19] 미분 가능성 또는 연속성 가정은 논란의 여지가 있는데, 할펀(Halpern)은 명제의 부울 대수가 유한할 수 있다는 그의 관찰을 기반으로 반례를 찾았다.[20] 이론을 더욱 엄밀하게 만들기 위해 다양한 저자들이 다른 공리화를 제안했다.[21]

5. 2. 더치 북 접근법

브루노 데 피네티는 도박을 기반으로 더치 북 논증을 제안했다. 영리한 북메이커는 도박의 배당률과 베팅을 설정하여 도박꾼의 손실과 관계없이 북메이커가 이익을 얻도록 보장한다(예: 도박꾼이 베팅하는 경마). 이는 배당률이 일관성이 없다는 것이 함축하는 확률과 관련이 있다.[21]

그러나 이안 해킹은 전통적인 더치 북 논증이 베이즈 업데이트를 구체화하지 않았다는 점에 주목했다. 즉, 비베이즈 업데이트 규칙이 더치 북을 피할 수 있는 가능성을 열어두었다. 예를 들어, 해킹은 다음과 같이 썼다.[22][23] "더치 북 논증이나 확률 공리의 개인주의자 무기고에 있는 다른 어떤 증거도 동적 가정을 수반하지 않는다. 베이즈주의를 수반하는 것은 하나도 없다. 따라서 개인주의자는 베이즈주의가 되기 위해 동적 가정이 필요하다. 일관성을 유지한다면 개인주의자가 경험으로부터 배우는 베이즈 모델을 포기할 수 있다는 것은 사실이다. 소금이 그 맛을 잃을 수도 있다."

사실, 리처드 C. 제프리의 규칙이 베이즈적이라고 간주되는[25] 출판에 이어 "확률 운동학"[24]에 대한 문헌에서 논의된 바와 같이, 더치 북을 피하는 비베이즈 업데이트 규칙도 있다. 베이즈 업데이트를 (고유하게) 지정하기에 충분한 추가 가설은 상당하며[26] 보편적으로 만족스럽게 여겨지지 않는다.[27]

5. 3. 의사결정 이론 접근법

베이즈 추론의 기반으로 베이즈 확률론을 사용하는 것은 콕스 공리, 네덜란드 책 논증, 의사 결정 이론에 기반한 논증 및 드 피네티의 정리와 같은 여러 논증에 의해 뒷받침되어 왔다.

의사결정 이론적으로 베이즈 추론(그리고 베이즈 확률) 사용을 정당화하는 것은 에이브러햄 월드에 의해 제시되었으며, 그는 모든 허용 가능한 통계적 절차가 베이즈 절차이거나 베이즈 절차의 극한임을 증명했다.[28] 반대로, 모든 베이즈 절차는 허용 가능하다.[29]

6. 응용 분야

동전 던지기주사위 던지기처럼 각 사건이 독립이거나, 로또 6/45와 같이 종속적인 사건이라도, 표본 공간확률 변수가 잘 정의되어 있고 모든 경우의 수를 헤아리기 쉽다면 고전적 확률 계산으로도 충분히 정확한 확률을 계산할 수 있다. 그러나 표본 공간의 크기를 짐작하기 어렵거나 확률 분포가 모호한 경우에는 이러한 방법으로 사건의 확률을 알아내기 어렵다. 예를 들어, 한 국가나 사회의 교통사고 발생 빈도는 고전적인 확률 해석으로 구하기는 불가능하지만, 베이즈 확률론으로는 선험적 사전 확률과 데이터에 의한 보완을 통해 교통사고 발생 기대값을 추정할 수 있다.[55]

게임이나 도박과 같은 특수한 경우가 아니라면, 세계에서 일어나는 대부분의 사건들은 결과만 주어져 있을 뿐, 원인이 되는 확률 변수나 사건들의 확률 분포가 명확하지 않다. 이 때문에 베이즈 확률론은 각종 과학 분야와 통계에서 실용적인 문제 해결 방법으로 쓰인다. 어떤 사건에 대한 가설을 설정하면, 베이즈 확률론은 그 가설이 참일 가능성, 즉 가능도를 계산할 수 있다.[56]

베이즈 확률은 현재 베이즈 통계학, 베이즈 게임, 베이즈 필터 등 다양한 분야에서 응용되고 있다. 빈도주의에 기반한 통계학 이론 체계는 실용성을 희생하고 있다는 베이지안의 비판도 존재한다. 베이즈주의는 인간의 사고 방식에 더 잘 맞는다는 주장도 제기되며, 과학적 방법의 모델로도 제안된다. 또한 베이즈 인자(우도를 이용하는 방법과 유사)를 이용하는 방법은 오컴의 면도날에 대응하는 것으로 여겨진다.

최근 베이즈 추정을 이용한 방법은 스팸을 찾는 베이즈 필터로 활용되어 성과를 거두고 있다. 베이즈 필터는 이미 알려진 스팸 선별법을 필터에 제시하고, 단어의 빈도를 사용하여 스팸과 필요한 이메일을 식별한다.

6. 1. 베이즈 통계학

베이즈 통계학모집단을 확률 변수처럼 취급하여 주어진 데이터로부터 원인을 추정하는 통계 기법으로, 베이즈 확률론에 기반한다.[80] 기후 변화에 따른 위험 요소 평가,[81] 의학 연구[82] 등 광범위한 분야에서 활용되고 있다.

베이즈 방법론은 다음과 같은 특징을 가진다.

  • 정보 부족으로 인한 불확실성을 포함하여, 통계 모델에서의 불확실성의 모든 원인을 모델링하기 위해 확률 변수, 더 일반적으로는 미지의 양을 사용한다.[46]
  • 이용 가능한 (사전) 정보를 고려하여 사전 확률 분포를 결정한다.
  • 베이즈 정리를 순차적으로 사용하여('''순차적 베이즈 추정''') 더 많은 데이터를 사용할 수 있게 되면 사후 분포를 계산하고, 그 후 사후 분포가 다음 사전 분포가 된다.
  • 빈도주의자에게 가설은 참 또는 거짓의 명제이며, 확률은 0 또는 1이지만, 베이즈 통계학에서는 진리값이 불확실하면 가설에 할당되는 확률도 0에서 1의 범위가 된다.


토머스 베이즈의 이름을 따서 명명되었지만,[54] 실제 베이즈 자신이 현재와 같은 베이즈 확률이나 베이즈 추론의 생각을 가지고 있었는지는 확실하지 않다. 베이즈 확률의 생각을 적극적으로 사용한 것은 피에르시몽 라플라스로, "토성질량을 확률적으로 추정"하는 문제에 응용했다. 그러나 그 이후 오랫동안 이 생각은 주목받지 못했다.

확률의 주관적 해석(이후 베이즈주의)은 1931년 프랭크 램지에 의해 제창되었고, 1937년 브루노 데 피네티가 더 엄밀하게 다루었다. 1954년 레오나드 지미 새비지가 상세한 분석을 가하여 베이즈 확률·베이즈주의라는 명칭이 적용되었다.

베이즈주의는 베이즈 정리를 주관적 확률에서 데이터 축적에 따라 개정하고, 더욱 경험적으로 해석하여 통계 문제에 적용한다. 새로운 데이터가 얻어질 때마다 ''A''의 발생 확률을 갱신한다.

이는 관측된 빈도 분포 또는 상정된 모집단의 비율에서 유도되는 것이 확률이라고 하는 빈도 확률의 개념과는 대조적이다. 통계적 가설 검정에 대해, 베이즈주의와 빈도주의의 차이가 나타나기 쉽다. 빈도주의에서는 추정하고 싶은 파라미터는 하나의 참값을 갖는다고 생각하지만, 베이즈주의에서는 파라미터는 확률 변수라고 생각한다.

베이즈주의자와 빈도주의자가 생각하는 확률이 다른 값을 가지는 예로 엉터리 동전 문제가 있다.

  • 베이즈주의자: 앞면이 나올 확률은 1/2이다. (이유: 앞면과 뒷면 중 어느 쪽이 더 잘 나오는지 불명이므로, 이유 불충분 원리에 의해 모두 1/2로 한다.)
  • 빈도주의자: 앞면이 나올 확률은 0에서 1까지의 어느 값이지만, 1/2는 아니다. (이유: 동전을 여러 번 던지면 [앞면이 나온 횟수 / 던진 횟수]는 어떤 값에 가까워진다. 단, 엉터리 동전이므로 1/2가 될 수 없다.)


베이즈주의자는 그 시점에서 가지고 있는 정보를 바탕으로 계산된 확률을 중시하고, 빈도주의자는 무한 회 시도를 전제로 한 확률을 중시한다.

베이즈 정리를 사용하여 새로운 증거에 따라 명제 \theta_i의 개연성(확률) 값 p_i를 수정해 나가는 방법이 베이즈 추정이다. 수정 전의 값을 사전 확률, 수정 후를 사후 확률이라고 부른다.

베이즈 확률은 현재 스팸을 찾는 방법 (베이즈 필터) 등 다양한 분야에서 응용되고 있다. 베이즈주의는 인간의 사고 방식에 더 잘 맞는다는 주장도 있으며, 과학적 방법의 모델로도 제안되고 있다.

6. 2. 게임 이론

죄수의 딜레마와 같은 고전적 게임 이론에서 참가자는 선택할 경우의 수를 모두 알고 있고 그 속에서 가장 유리한 방법을 찾는다. 그러나 모든 정보를 알지 못한다면 참가자는 주어진 정보만으로 최적의 행동을 결정해야 한다. 이와 같이 베이즈 확률론에 입각하여 참가자의 상호 작용을 모형화하는 것을 베이즈 게임이라고 한다.[83]

6. 3. 스팸 메일 필터링

베이즈 필터는 베이즈 정리를 이용하여 스팸을 식별하는 기술이다. 베이즈 필터는 스팸 메일과 정상 메일에 나타나는 단어의 빈도를 학습하여 새로운 메일이 스팸인지 아닌지를 판단한다.

6. 4. 기타 응용 분야

베이즈 확률론은 오랫동안 비주류였으나, 20세기 후반부터 여러 분야에서 활용되기 시작했다. 특히 1980년대 마르코프 연쇄 몬테카를로 방법이 개발되면서 적용 분야가 획기적으로 늘어났다.[77] 1989년 도입된 기브스 표집은 베이즈 확률론에 따른 확률 분포를 보다 쉽게 적용할 수 있도록 하였다.[72]

21세기에는 인공 지능의 기계 학습에 베이즈 확률론이 적용되고 있다.[79] 베이즈 추정은 여러 가설에 대한 믿음의 정도를 설정하고, 실험이나 관측을 통해 새로운 정보를 수집하여 베이즈 정리에 따라 확률을 수정하는 방식으로, 과학적 방법의 모델로도 제안된다.

베이즈 추정을 이용한 방법은 스팸 메일을 찾는 베이즈 필터로 활용되어 성과를 거두고 있다. 이 방법은 이미 알려진 스팸 선별법을 필터에 제시하고, 단어의 빈도를 사용하여 스팸과 필요한 이메일을 식별한다.

7. 비판 및 논쟁

베이즈 확률론은 주관적인 사전 확률 설정 문제, 계산 복잡성, 빈도주의 확률론과의 비교 등 다양한 측면에서 비판과 논쟁의 대상이 되어왔다. 베이즈 확률론은 크게 보아 객관주의적 해석과 주관주의적 해석으로 나뉜다. 객관주의적 해석은 콕스 정리에 따라 확률을 동일한 정보와 규칙을 사용하는 누구나 합리적 예측으로 수량화할 수 있는 것으로 보며, 논리학의 확장으로 간주한다.[60][61] 반면 주관주의적 해석은 확률을 개인적 믿음과 결부시키며, 개인마다 차이를 보일 수 있다고 본다.[62]

베이즈 방법론은 다음과 같은 특징을 가진다.


  • 정보 부족으로 인한 불확실성을 포함하여, 통계 모델에서 불확실성의 모든 원인을 모델링하기 위해 확률 변수를 사용한다.
  • 이용 가능한 정보를 고려하여 사전 확률 분포를 결정한다.
  • 베이즈 정리를 순차적으로 사용하여, 더 많은 데이터를 사용할 수 있게 되면 사후 분포를 계산하고, 이를 다음 사전 분포로 사용한다.
  • 빈도주의에서 가설은 참 또는 거짓의 명제로 확률이 0 또는 1이지만, 베이즈 통계학에서는 진리값이 불확실하면 가설에 할당되는 확률이 0에서 1 사이의 값을 가질 수 있다.

7. 1. 주관성 문제

베이즈 확률론은 확률을 구하는 과정의 정합성을 보는 객관주의적 해석과 그 결과에 대한 신뢰를 평가하는 주관주의적 해석을 바탕으로 한다.[63] 이 때문에 베이즈 확률론은 종종 잘못된 믿음마저 정당화 할 수 있다는 비판을 받는다. 예를 들어 누군가 정육면체 주사위를 던져 3이 나올 확률을 1/6이 아니라 5/6로 생각한다고 하더라도 그의 주관을 비난할 수 없지 않느냐는 주장이 있다. 물론 이런 믿음으로 게임을 하는 사람은 반드시 패할 수 밖에 없다.[63] 그러나 주관주의 확률 해석은 선험적 사전 확률의 설정에 그치는 것이 아니라 시행의 과정에서 역확률을 다시 계산함으로써 사전 확률을 조정하는 것이 더 중요하기 때문에 일회적 오류만으로 베이즈 확률론을 부정하는 것은 의미가 없다.

7. 2. 빈도주의 확률론과의 비교

빈도주의 확률론은 확률을 반복되는 사건의 빈도로 정의하는 반면, 베이즈 확률론은 확률을 믿음의 정도로 정의한다. 베이즈 확률론은 오랫동안 빈도주의 확률론과 경쟁 관계에 있었으며, 두 확률론은 서로 다른 철학적 기반을 가지고 있다. 어떤 확률론이 더 적합한지는 문제 상황에 따라 달라진다.[60][61][62]

19세기 말 이후 발전한 수리통계학은 전적으로 빈도주의에 기반하여 엄밀한 이론을 구축하였다. 확률의 주관적 해석(이후 베이즈주의)은 1931년 철학자이자 수학자인 프랭크 램지에 의해 제창되었고, 그는 또 다른 주관 확률(논리 확률)의 지지자였던 케인스와 논쟁을 벌였지만, 그 자신은 이를 빈도주의적 해석의 단순한 보조로만 생각했다. 이를 더욱 엄밀하게 다룬 것은 1937년 통계학자 브루노 데 피네티이다. 또한 처음으로 상세한 분석을 가한 것은 1954년 이었으며, 그의 생각에 베이즈 확률·베이즈주의라는 명칭이 적용되었다.[62]

이러한 연구는 현재 널리 받아들여지게 되었지만, 빈도주의자와 베이즈주의자의 균열은 현재에도 이어지고 있으며, 양쪽 주의의 지지자 일부는 서로 논쟁하지 않고 같은 학회에 참여하지 않는 상황이 계속되고 있다.

베이즈주의와 빈도주의는 통계적 방법에서 큰 차이를 보이는 경우가 많다. 다만, 같은 결론을 얻는 문제도 많다. 통계적 가설 검정에 대해, 베이즈주의와 빈도주의의 차이가 나타나기 쉽다. 빈도주의에서는 추정하고 싶은 파라미터는 하나의 참값을 갖는다고 생각하지만, 베이즈주의에서는 파라미터는 확률 변수라고 생각한다.

엉터리 동전을 예로 들어 베이즈주의자와 빈도주의자가 생각하는 확률의 차이를 설명할 수 있다.

베이즈주의자가 옳다고 생각할 확률빈도주의자가 옳다고 생각할 확률
앞면이 나올 확률은 이다.앞면이 나올 확률은 0에서 1까지의 어느 값이지만, 는 아니다.



요컨대, 베이즈주의자는 그 시점에서 가지고 있는 정보를 바탕으로 계산된 확률을 중시한다. (새로운 정보가 입수되면 확률은 개정된다.) 이에 대해 빈도주의자는 무한 회 시도를 전제로 한 확률을 중시한다.

참조

[1] 논문 Probability, Frequency, and Reasonable Expectation
[2] 서적 Maximum-Entropy and Bayesian Methods in Applied Statistics Cambridge University Press
[3] 서적 Theory of Probability: A critical introductory treatment John Wiley & Sons Ltd.
[4] 서적 Sentential Probability Logic: Origins, Development, Current Status, and Technical Applications Associated University Presses
[5] 서적 Foundations of Bayesianism Kluwer
[6] 웹사이트 The Mathematics of Changing Your Mind [by Sharon Bertsch McGrayne] https://www.nytimes.[...] 2011-08-05
[7] 서적 The history of statistics Harvard University Press 1990-03
[8] 서적 The algebra of probable inference Johns Hopkins Press; Oxford University Press [distributor] 1961
[9] 서적 The Theory that Would not Die https://archive.org/[...]
[10] 서적 The History of Statistics Harvard University Press
[11] 논문 When did Bayesian Inference become "Bayesian"? http://ba.stat.cmu.e[...]
[12] 논문 Recent developments of the so-called Bayesian approach to statistics University of Iowa
[13] 서적 Annals of the Computation Laboratory of Harvard University
[14] 간행물 The Classical Problem of Inference—Goodness of Fit https://books.google[...]
[15] 서적 Bayesian Thinking - Modeling and Computation Handbook of Statistics
[16] 논문 A conversation with James O. Berger
[17] 간행물 A Bayesian mathematical statistics primer http://www.ime.usp.b[...]
[18] 서적 Pattern Recognition and Machine Learning Springer
[19] 서적 Maximum Entropy and Bayesian Methods Kluwer
[20] 논문 A counterexample to theorems of Cox and Fine http://www.cs.cornel[...]
[21] 논문 New axioms for rigorous Bayesian probability http://projecteuclid[...]
[22] 문서 Hacking (1967), Section 3, page 316
[23] 문서 Hacking (1988, page 124)
[24] 논문 Dynamic Coherence and Probability Kinematics 1987-01-01
[25] 간행물 Bayes' Theorem http://plato.stanfor[...] stanford.edu 2003-09-30
[26] 서적 Probability in Physics https://archive.org/[...] Springer Berlin Heidelberg 2012-01-01
[27] 서적 Laws and Symmetry Oxford University Press
[28] 서적 Statistical Decision Functions Wiley
[29] 서적 Bayesian Theory John Wiley
[30] 문서 Pfanzagl (1967, 1968)
[31] 문서 Morgenstern (1976, page 65)
[32] 논문 Anti-Realism in the Philosophy of Probability: Bruno de Finetti's Subjectivism 1989-01-01
[33] 논문 The notion of subjective probability in the work of Ramsey and de Finetti 1991-12-01
[34] 서적 Frank Ramsey: Truth and Success Routledge
[35] 문서 Davidson et al. (1957)
[36] 백과사전 Stanford Encyclopedia of Philosophy http://plato.stanfor[...] Metaphysics Research Lab, Stanford University 2018-08-07
[37] 서적 The Logic of Scientific Discovery https://books.google[...] Routledge
[38] 문서
[39] 서적 Handbook of Statistics http://www.uv.es/~be[...] Elsevier
[40] 서적 Maximum-Entropy and Bayesian Methods in Applied Statistics Cambridge University Press
[41] 저널 Probability, Frequency, and Reasonable Expectation
[42] 서적 Theory of Probability: A critical introductory treatment John Wiley & Sons Ltd.
[43] 서적 Sentential Probability Logic: Origins, Development, Current Status, and Technical Applications Associated University Presses
[44] 웹사이트 The Mathematics of Changing Your Mind [by Sharon Bertsch McGrayne] https://www.nytimes.[...] 2011-08-05
[45] 서적 The history of statistics Harvard University Press 1990-03
[46] 저널 New axioms for rigorous Bayesian probability http://projecteuclid[...]
[47] 뉴스 올해 250주년 맞은 베이즈 정리, 과학을 정복하다 https://www.dongasci[...] 동아사이언스 2013-06-12
[48] 저널 인용 Probability, Frequency, and Reasonable Expectation
[49] 뉴스 ‘빈도’의 통계적 확률과 ‘믿음’의 논리적 확률 http://times.postech[...] 포항공대신문
[50] 문서 사전 확률, 선험적 확률, 사후 확률, 후험적 확률 http://www.ktword.co[...] 정보통신용어해설
[51] 서적 인용 Sentential Probability Logic: Origins, Development, Current Status, and Technical Applications Associated University Presses
[52] 웹인용 The Mathematics of Changing Your Mind [by Sharon Bertsch McGrayne] https://www.nytimes.[...] 2011-08-06
[53] 서적 인용 The history of statistics Harvard University Press 1990-03
[54] 서적 불멸의 이론 Human Science
[55] 논문 교통사고 추정방법 비교 연구 : 경험적 베이즈 추정치 vs. 관측교통사고건수 https://www.kci.go.k[...] 2010
[56] 문서 우도, 가능도 http://www.ktword.co[...] 정보통신용어해설
[57] 문서 베이즈 정리 http://www.ktword.co[...] 정보통신 용어해설
[58] 인용 Kendall's Advanced Theory of Statistics: Volume I—Distribution Theory Edward Arnold (publisher)
[59] 문서 베이즈 정리 http://expertchoice.[...] 의사결정과학
[60] 서적 인용 Maximum-Entropy and Bayesian Methods in Applied Statistics Cambridge University Press
[61] 서적 인용 The algebra of probable inference Johns Hopkins Press; Oxford University Press [distributor] 1961
[62] 서적 인용 Theory of Probability: A critical introductory treatment John Wiley & Sons Ltd.
[63] 논문 주관주의 확률 이론 http://logicalkorea.[...]
[64] 서적 인용 The Theory that Would not Die https://archive.org/[...]
[65] 논문 라플라스의 생애와 현대과학에 미친 영향 https://www.koreasci[...] 2019-12
[66] 저널 인용 When did Bayesian Inference become "Bayesian"? http://ba.stat.cmu.e[...]
[67] 뉴스 병 진단의 정확성과 오진 가능성 https://horizon.kias[...] Horizon 2018-08-20
[68] 논문 확률과 통계의 역사 https://www.koreasci[...]
[69] 문서 Probability, Statistics & Political Economy in Mill’s Logic http://www.economics[...] University of Southampton 2008
[70] 뉴스 앙리 푸앵카레의 일기 https://dl.dongascie[...] 어린이수학동아 2021-06
[71] 웹사이트 Dreyfus, 1894-1906 https://sites.google[...] 2022-06-11
[72] 논문 베이지안 통계의 역사와 미래에 대한 조망 https://leekjstat.fi[...] 서울대학교 통계학과 2014
[73] 저널 Recent developments of the so-called Bayesian approach to statistics University of Iowa
[74] 서적 Annals of the Computation Laboratory of Harvard University
[75] 콘퍼런스 The Classical Problem of Inference—Goodness of Fit https://books.google[...]
[76] 서적 Bayesian Thinking - Modeling and Computation
[77] 저널 A conversation with James O. Berger
[78] 콘퍼런스 A Bayesian mathematical statistics primer http://www.ime.usp.b[...]
[79] 서적 Pattern Recognition and Machine Learning Springer
[80] 웹사이트 베이즈 통계 http://www.ktword.co[...]
[81] 논문 베이지안 확률통계와 GIS를 연계한 기후변화 도시홍수 리스크 평가: 서울시 서초구를 대상으로 https://www.koreasci[...] 2016
[82] 논문 생물/보건/의학 연구를 위한 비모수 베이지안 통계모형 https://scienceon.ki[...] 2014
[83] 논문 게임이론과 완벽베이즈균형 https://kiss.kstudy.[...] 2011



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com