나이브 베이즈 분류

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 확률 모델
- 2.1. 확률 모델로부터의 분류기 생성
3. 모수 추정과 이벤트 모델
4. 예시
- 4.1. 성별 분류하기
  - 4.1.1. 훈련
  - 4.1.2. 테스트
- 4.2. 문서 분류 (스팸 메일 분류)
5. 토론
- 5.1. 로지스틱 회귀와의 관계
6. Complement Naive Bayes
7. 추가 문헌
참조

1. 개요

나이브 베이즈 분류는 주어진 특징(독립 변수) 벡터를 사용하여 가능한 여러 클래스 중 하나를 할당하는 조건부 확률 모델이다. 베이즈 정리와 조건부 독립성을 기반으로 하며, 특히 특징의 수가 많거나 각 특징이 다양한 값을 가질 수 있는 경우에 유용하다. 가우시안, 다항 분포, 베르누이 분포 등 다양한 이벤트 모델을 사용하여 데이터를 분류하며, 스팸 메일 분류, 성별 분류 등 다양한 분야에 적용된다. 분류기는 훈련 데이터로부터 클래스 사전 확률과 특징 분포에 대한 모수를 추정하여 생성되며, 최대 사후 확률(MAP) 결정 규칙을 사용하여 클래스를 예측한다.

더 읽어볼만한 페이지

통계적 분류 - 서포트 벡터 머신
서포트 벡터 머신(SVM)은 지도 학습 모델로서 분류와 회귀 분석에 사용되며, 데이터 집합을 기반으로 새로운 데이터의 범주를 판단하는 비확률적 이진 선형 분류 모델을 생성하고, 커널 트릭을 통해 비선형 분류에도 활용될 수 있다.
통계적 분류 - 민감도와 특이도
민감도와 특이도는 의학적 진단에서 검사의 정확성을 평가하는 지표로, 민감도는 실제 양성인 대상 중 양성으로 나타나는 비율, 특이도는 실제 음성인 대상 중 음성으로 나타나는 비율을 의미하며, 선별 검사에서 두 지표를 모두 높여 질병을 정확하게 진단하는 것을 목표로 한다.
분류 알고리즘 - 인공 신경망
분류 알고리즘 - 퍼셉트론
퍼셉트론은 프랭크 로젠블랫이 고안한 인공신경망 모델로, 입력 벡터에 가중치를 곱하고 편향을 더한 값을 활성화 함수에 통과시켜 이진 분류를 수행하는 선형 분류기 학습 알고리즘이며, 초기 신경망 연구의 중요한 모델로서 역사적 의미를 가진다.
기계 학습 - 비지도 학습
비지도 학습은 레이블이 없는 데이터를 통해 패턴을 발견하고 데이터 구조를 파악하는 것을 목표로 하며, 주성분 분석, 군집 분석, 차원 축소 등의 방법을 사용한다.
기계 학습 - 지도 학습
지도 학습은 레이블된 데이터를 사용하여 입력 데이터와 출력 레이블 간의 관계를 학습하는 기계 학습 분야로, 예측 모델 생성, 알고리즘 선택, 모델 최적화, 정확도 평가 단계를 거치며, 회귀 및 분류 문제에 적용되고 다양한 확장 기법과 성능 평가 방법을 활용한다.

나이브 베이즈 분류
개요
종류	확률론적 분류기
그래프 모델	베이즈 네트워크
세부 사항
특징	간단하고 효과적 대규모 데이터 세트에 적합
가정	특징 간의 독립성 가정
단점	독립성 가정이 현실과 맞지 않을 수 있음 희소 데이터 문제 발생 가능
활용
주요 응용 분야	텍스트 분류 스팸 필터링 추천 시스템
예시	스팸 메일 필터 감정 분석 의료 진단
알고리즘
학습 방법	지도 학습
확률 모델	베이즈 정리 기반
특징 유형	범주형 연속형
장점 및 단점
장점	구현이 간단하고 빠름 적은 양의 훈련 데이터로도 잘 작동함 고차원 데이터에서도 효율적임
단점	특징 간의 독립성 가정이 비현실적일 수 있음 확률 추정의 정확도가 떨어질 수 있음
추가 정보
개선 방법	특징 선택 라플라스 스무딩 다른 분류기와 결합
관련 개념	베이즈 분류기 선형 분류기 로지스틱 회귀

2. 확률 모델

나이브 베이즈 분류기는 조건부 확률 모델이다. 분류될 인스턴스들은 N개의 특성(독립변수)을 나타내는 벡터 $\mathbf{x} = (x_1, \dots, x_n)$ 로 표현되며, 이 벡터를 이용하여 k개의 가능한 확률적 결과들(클래스)을 다음과 같이 할당한다.^[7]

: $p(C_k \vert x_1, \dots, x_n)\,$

특성 N의 수가 많거나 하나의 특성이 많은 수의 값을 가질 수 있는 경우 위 공식을 베이지안 모델에 바로 적용하기 어렵다. 그러므로, 베이즈 정리와 조건부 확률을 이용하여 다음과 같이 정리한다.

: $p(C_k \vert \mathbf{x}) = \frac{p(C_k) \ p(\mathbf{x} \vert C_k)}{p(\mathbf{x})}. \,$

베이지안 확률 용어를 사용하면 위 식은 다음과 같이 표현 가능하다. (posterior: 사후 확률, prior: 사전 확률, likelihood: 우도, evidence: 관찰값)

: $\mbox{posterior} = \frac{\mbox{prior} \times \mbox{likelihood}}{\mbox{evidence}}. \,$

위 식에서 분자 부분만이 의미가 있다. 분모는 주어진 $C$ 값에 의존하지 않고, 특성들의 값 $F_i$ 가 주어지면 상수가 되기 때문이다. 분자는 다음과 같은 결합확률 모델이다.

: $p(C_k, x_1, \dots, x_n)\,$

위 식은 조건부 확률을 반복 적용한 연쇄 법칙을 사용하여 다음과 같이 다시 쓸 수 있다.

: $\begin{align}p(C_k, x_1, \dots, x_n) & = p(C_k) \ p(x_1, \dots, x_n \vert C_k) \\& = p(C_k) \ p(x_1 \vert C_k) \ p(x_2, \dots, x_n \vert C_k, x_1) \\& = p(C_k) \ p(x_1 \vert C_k) \ p(x_2 \vert C_k, x_1) \ p(x_3, \dots, x_n \vert C_k, x_1, x_2) \\& = p(C_k) \ p(x_1 \vert C_k) \ p(x_2 \vert C_k, x_1) \ \dots p(x_n \vert C_k, x_1, x_2, x_3, \dots, x_{n-1})\end{align}$

나이브 베이즈에서 조건부 독립성은 다음과 같이 표현될 수 있다. 카테고리 종류 $C$ 가 주어질 경우, 어떤 특성 $F_i$ 는 모든 $F_j$ ( $j\neq i$ )에 대해서 조건부 독립이다. 즉,

: $p(x_i \vert C_k, x_j) = p(x_i \vert C_k)\,$ ( $i \ne j,k,l$ 에 대해)

이를 바탕으로 결합 모델은 다음과 같이 표현될 수 있다.

: $\begin{align}p(C_k \vert x_1, \dots, x_n) & \varpropto p(C_k, x_1, \dots, x_n) \\& \varpropto p(C_k) \ p(x_1 \vert C_k) \ p(x_2\vert C_k) \ p(x_3\vert C_k) \ \cdots \\& \varpropto p(C_k) \prod_{i=1}^n p(x_i \vert C_k)\,.\end{align}$

위 식은 독립성 가정 하에서 클래스 변수 $C$ 의 조건부 분포는 다음과 같음을 보여준다.

: $p(C_k \vert x_1, \dots, x_n) = \frac{1}{Z} p(C_k) \prod_{i=1}^n p(x_i \vert C_k)$

여기서 $Z = p(\mathbf{x})$ 는 특성값들이 주어진 경우 상수가 되는 스케일링 팩터이다.

2. 1. 확률 모델로부터의 분류기 생성

나이브 베이즈 분류기는 독립 특성 모델인 나이브 베이즈 확률 모델과 결정 규칙을 결합하여 만들어진다. 이 모델은 주어진 클래스에서 각 특성들이 서로 독립이라고 가정한다.

분류될 인스턴스는 N개의 특성(독립변수)을 나타내는 벡터

\mathbf{x} = (x_1, \dots, x_n)

로 표현된다. 나이브 베이즈 분류기는 이 벡터를 이용하여 k개의 가능한 확률적 결과(클래스)를 다음과 같이 할당한다.

:

p(C_k \vert x_1, \dots, x_n)\,

이 공식은 베이즈 정리와 조건부 확률을 이용하여 다음과 같이 정리할 수 있다.

:

p(C_k \vert \mathbf{x}) = \frac{p(C_k) \ p(\mathbf{x} \vert C_k)}{p(\mathbf{x})}. \,

베이즈 확률 용어를 사용하면 위 식은 다음과 같이 표현 가능하다.

:

\mbox{posterior} = \frac{\mbox{prior} \times \mbox{likelihood}}{\mbox{evidence}}. \,

(posterior: 사후 확률, prior: 사전 확률, likelihood: 우도, evidence: 관찰값)

실제로는 분자 부분만 의미가 있다. 분모는 주어진

C

값에 의존하지 않고, 특성들의 값

F_i

가 주어지면 분모의 값이 상수가 되기 때문이다. 분자는 다음과 같은 결합확률 모델이다.

:

p(C_k, x_1, \dots, x_n)\,

이는 조건부 확률을 반복 적용한 연쇄 법칙을 사용하여 다음과 같이 다시 쓸 수 있다.

:

\begin{align}p(C_k, x_1, \dots, x_n) & = p(C_k) \ p(x_1, \dots, x_n \vert C_k) \\& = p(C_k) \ p(x_1 \vert C_k) \ p(x_2, \dots, x_n \vert C_k, x_1) \\& = p(C_k) \ p(x_1 \vert C_k) \ p(x_2 \vert C_k, x_1) \ p(x_3, \dots, x_n \vert C_k, x_1, x_2) \\& = p(C_k) \ p(x_1 \vert C_k) \ p(x_2 \vert C_k, x_1) \ \dots p(x_n \vert C_k, x_1, x_2, x_3, \dots, x_{n-1})\end{align}

나이브 베이즈에서 조건부 독립성은 다음과 같이 표현된다. 카테고리 종류

C

가 주어질 경우, 어떤 특성

F_i

는 모든

F_j

(

j\neq i

)에 대해 조건부 독립이다. 즉,

:

p(x_i \vert C_k, x_j) = p(x_i \vert C_k)\,

(

i \ne j,k,l

에 대해)

결국, 이를 바탕으로 결합 모델은 다음과 같이 표현될 수 있다.

:

\begin{align}p(C_k \vert x_1, \dots, x_n) & \varpropto p(C_k, x_1, \dots, x_n) \\& \varpropto p(C_k) \ p(x_1 \vert C_k) \ p(x_2\vert C_k) \ p(x_3\vert C_k) \ \cdots \\& \varpropto p(C_k) \prod_{i=1}^n p(x_i \vert C_k)\,.\end{align}

위 식은 독립성 가정 하에서 클래스 변수

C

의 조건부 분포는 다음과 같음을 보여준다.

:

p(C_k \vert x_1, \dots, x_n) = \frac{1}{Z} p(C_k) \prod_{i=1}^n p(x_i \vert C_k)

여기서

Z = p(\mathbf{x})

는 특성값들이 주어진 경우 상수가 되는 스케일링 팩터이다.

일반적으로 사용되는 규칙은 가장 가능성이 높은 가설, 즉 사후 확률(MAP)의 최대치를 선택하는 것이다. 나이브 베이즈 분류에서는 다음 식을 통해 최대 확률을 갖는 클래스

C_k

를 찾아낸다.

:

\hat{y} = \underset{k \in \{1, \dots, K\}}{\operatorname{argmax}} \ p(C_k) \displaystyle\prod_{i=1}^n p(x_i \vert C_k).

3. 모수 추정과 이벤트 모델

나이브 베이즈 분류기는 훈련 데이터로부터 클래스의 사전 확률과 특징 분포에 대한 모수를 추정하여 만들어진다.

클래스의 사전 확률은 다음 두 가지 방법으로 계산할 수 있다.

모든 클래스가 동일한 확률을 가진다고 가정 (사전 확률 = 1 / (클래스의 수))
훈련 데이터에서 각 클래스의 비율을 계산 (주어진 클래스의 사전 확률 = (해당 클래스의 샘플 수) / (샘플의 총 수))

특성 분포에 대한 모수를 추정하기 위해서는 훈련 데이터에서 특성들의 분포를 가정하거나 비모수 모델을 생성해야 한다.^[8]

특성 분포에 대한 가정에 따라 다양한 나이브 베이즈 분류 이벤트 모델이 정의된다. 예를 들어, 문서 분류에서는 다음과 같은 이벤트 모델이 주로 사용된다.^[9]^[10]

이러한 가정들은 모델을 선택하는 데 있어서 혼동을 야기할 수 있다.^[23]^[24]

모든 모델 파라미터(클래스 사전 확률 및 특징 확률 분포)는 훈련 데이터에서 상대 도수를 통해 추정할 수 있으며, 이는 확률의 최대 우도 추정치이다.

만약 특정 클래스와 특징 값의 조합이 훈련 데이터에 나타나지 않으면, 도수 기반 확률 추정치는 0이 된다. 이는 곱셈 과정에서 다른 확률값을 모두 0으로 만들 수 있으므로, 확률값 추정을 약간 수정하여 0이 되지 않도록 하는 방법([의사 카운트](https://en.wikipedia.org/wiki/Pseudocount))을 사용하기도 한다.

3. 1. 가우시안 나이브 베이즈

연속적인 값을 지닌 데이터를 처리할 때, 전형적으로 각 클래스의 연속적인 값들이 가우스 분포(또는 정규 분포)를 따른다고 가정한다. 예를 들어, 트레이닝 데이터에 연속적인 속성 x가 포함되어 있다고 가정해 보자. 먼저 데이터를 클래스별로 분할한 다음 각 클래스에서 x의 평균과 분산을 계산한다.

\mu_k

를 클래스

C_k

와 관련된 x 값들의 평균이라고 하고,

\sigma^2_k

를 클래스

C_k

와 관련된 x 값들의 베셀 보정된 분산이라고 하자. 그러면, 주어진 클래스에서 특정 값의 확률 밀도는 정규 분포의 방정식에 대입하여 계산할 수 있다.^[23]^[24]

:

p(x=v \mid C_k) = \frac{1}{\sqrt{2\pi\sigma^2_k}}\,e^{ -\frac{(v-\mu_k)^2}{2\sigma^2_k} }

연속적인 값을 처리하는 또 다른 일반적인 기술은 비닝을 사용하여 특성 값을 이산화하고 새로운 일련의 베르누이 분포 특성을 얻는 것이다. 일부 문헌에서는 나이브 베이즈를 사용하려면 이 방법이 필요하다고 제시하지만, 이산화는 차별적 정보를 버릴 수 있으므로 사실이 아니다.^[2]

3. 2. 다항분포 나이브 베이즈

다항 이벤트 모델에서 샘플(특성 벡터)은 다항 분포에 의해 생성된 이벤트의 빈도수를 나타낸다. 특성 벡터는 특정 인스턴스에서 관찰된 이벤트 횟수를 나타내는 히스토그램으로 생각할 수 있다. 이는 주로 문서 분류에서 단어의 출현 빈도를 나타내는 데 사용된다.^[13]

히스토그램

\mathbf{x}

를 관찰할 우도(가능도)는 다음과 같다.

:

p(\mathbf{x} \vert C_k) = \frac{(\sum_i x_i)!}{\prod_i x_i !} \prod_i {p_{ki}}^{x_i}

다항 나이브 베이즈 분류는 로그 공간에서 표현될 때 선형 분류기가 된다.^[14]

:

\begin{align}\log p(C_k|\mathbf{x}) & \varpropto \log \left( p(C_k) \prod_{i=1}^n {p_{ki}}^{x_i} \right) \\& = \log p(C_k) + \sum_{i=1}^n x_i \cdot \log p_{ki}                 \\& = b + \mathbf{w}_k^\top \mathbf{x}\end{align}

여기서

b = \log p(C_k)

이고

w_{ki} = \log p_{ki}

이다. 로그 공간에서 매개변수를 추정하면, 작은 값을 여러 번 곱할 때 발생할 수 있는 반올림 오류의 영향을 줄일 수 있어 유리하다.

클래스와 특성 값이 훈련 데이터에 함께 나타나지 않으면, 빈도 기반 확률 추정치는 0이 된다. 이는 다른 확률값을 모두 0으로 만들어 버릴 수 있어 문제가 된다. 따라서 모든 확률 추정치에 가짜 수(pseudocount)라는 작은 샘플 보정값을 더하여 확률이 0이 되지 않도록 정규화하는 것이 일반적이다. 이러한 방식을 가짜 수가 1일 때는 라플라스 스무딩이라 하고, 일반적인 경우에는 리드스톤 스무딩이라고 한다.

3. 3. 베르누이 나이브 베이즈

다변수 베르누이 이벤트 모델에서, 특성들은 입력들을 설명하는 독립적인 부울 값(이진 변수)이다. 다항 모델의 특성 벡터가 이벤트의 빈도수를 나타내는 반면, 이 모델은 이벤트 발생 여부를 나타내는 부울 값을 가진다. 이진 변수의 발생이 특성으로 사용되는 문서 분류 작업에 널리 이용된다.^[9] 만일

x_i

가 어휘들 중 i번째 용어의 발생 유무를 표현하는 부울일 경우, 주어진 클래스

C_k

에 대한 문서의 우도는 다음 식으로 주어진다.^[9]

:

p(\mathbf{x} \vert C_k) = \prod_{i=1}^n p_{ki}^{x_i} (1 - p_{ki})^{(1-x_i)}

위 식에서

p_{ki}

는 용어

w_i

를 발생시키는 클래스

C_k

의 확률이다.

이 이벤트 모델은 짧은 텍스트를 분류하는 데 특히 인기가 있고, 용어의 부재를 명시적으로 모델링하는 데 이점을 지닌다.

또한 베르누이 이벤트 모델을 통해 모델링된 나이브 베이즈 분류는 빈도 수를 1로 가지는 다항식 NB 분류기와 동일하지 않다는 점에 유의해야 한다.

3. 4. Semi-supervised 모수 추정

레이블 된 데이터와 레이블되지 않은 데이터를 조합하여 지도 학습 알고리즘으로 비지도 학습 알고리즘을 구축할 수 있다. 우선 레이블 된 샘플 ''L''과 레이블되지 않은 샘플 ''U''의 집합

D = L \uplus U

에서, 샘플 ''L''에 나이브 베이즈를 이용한 훈련을 하는 것으로 시작한다.^[26]

다음 단계를 수렴할 때까지 반복한다.

1.

D

에 속하는 모든 샘플 ''X''에 대해서 확률

P(C|x)

를 예측한다.

2. 이전 단계에서 예측된 확률에 기반하여 모델을 다시 훈련한다.

모델의 우도

P(D|\theta)

의 개선에 따라 수렴 여부가 결정된다. (

\theta

는 나이브 베이즈 모델의 파라미터를 나타낸다.)

이 훈련 알고리즘은 일반적인 기댓값 최대화 알고리즘(EM)의 한 요소이다. 루프 내에서의 예측 단계는 EM에서 E 단계이고, 나이브 베이즈를 통해 다시 훈련하는 것은 M 단계로 볼 수 있다. 이 알고리즘은 데이터가 혼합 모델에 의해 생성되었다는 가정에 의해 정당화되며, 이 혼합 모델의 구성요소는 정확히 분류 문제의 클래스이다.^[26]

4. 예시

나이브 베이즈 분류는 여러 예시를 통해 그 작동 방식과 활용법을 이해할 수 있다. 성별 분류 및 문서 분류(스팸 메일 분류)와 같은 예시가 있다.

4. 1. 성별 분류하기

나이브 베이즈 분류기를 사용하여 주어진 사람의 키, 몸무게, 발 크기 등의 측정된 특징들을 기반으로 그 사람이 남성인지 여성인지를 분류하는 문제를 해결할 수 있다. 이 방법은 각 특징들이 정규 분포(가우스 분포)를 따른다고 가정하고, 훈련 데이터를 통해 각 클래스(남성 또는 여성)별 특징들의 평균과 분산을 계산한다.

이 문제를 해결하기 위해 훈련 데이터 세트를 사용하여 분류기를 훈련시키고, 테스트 샘플에 대해 남성 또는 여성일 확률을 계산하여 성별을 예측한다. 커널 밀도 추정을 사용하면 분류기의 정확도를 향상시킬 수 있다.^[8]

다음은 분류할 샘플이다.

사람	키 (피트)	몸무게 (파운드)	발 크기 (인치)
샘플	약 1.83m	약 58.97kg	약 20.32cm

이 샘플을 분류하기 위해 남성 또는 여성 중 어떤 사후 확률이 더 큰지 결정해야 한다.

4. 1. 1. 훈련

연속적인 값을 가진 데이터를 처리할 때, 각 클래스의 연속적인 값들이 가우스 분포를 따른다고 가정한다. 예를 들어 훈련 데이터에 연속적인 속성 x가 포함된다고 가정하면, 먼저 클래스에 따라 데이터를 나눈 뒤, 각 클래스에서 x의 평균과 분산을 계산한다.
문제: 주어진 사람들을 측정된 특성에 따라 남성(male) 또는 여성(female) 인지 여부를 분류한다. 특성은 신장(height), 체중(weight), 발의 크기(foot size)가 포함된다. 훈련을 위해 쓰이는 샘플 셋은 다음과 같다.

성별	신장 (feet)	무게 (lbs)	발의 크기(inches)
남성	약 1.83m	약 81.65kg	약 30.48cm
남성	약 1.80m	약 86.18kg	약 27.94cm
남성	약 1.70m	약 77.11kg	약 30.48cm
남성	약 1.80m	약 74.84kg	약 25.40cm
여성	약 1.52m	약 45.36kg	약 15.24cm
여성	약 1.68m	약 68.04kg	약 20.32cm
여성	약 1.65m	약 58.97kg	약 17.78cm
여성	약 1.75m	약 68.04kg	약 22.86cm

가우스 분포의 가정을 사용하여 생성된 훈련 셋으로부터 만들어진 분류기는 다음과 같다 (주어진 분산은 불편 표본분산이다).

성별	평균 (신장)	분산 (신장)	평균 (무게)	분산 (무게)	평균 (발 크기)	분산 (발 크기)
남성	약 1.78m	3.5033e-02	약 79.95kg	1.2292e+02	약 28.57cm	9.1667e-01
여성	약 1.65m	9.7225e-02	약 60.10kg	5.5833e+02	약 19.05cm	1.6667

먼저 P(남성) = P(여성) = 0.5로 각 클래스의 동등한 값을 할당한다. 이 사전 확률 분포는 전체 인구 구성에 대한 지식이나 혹은 트레이닝 셋에서의 각 클래스의 빈도수에 기반을 두어 정해진다.

4. 1. 2. 테스트

주어진 사람을 측정된 특성에 따라 남성 또는 여성으로 분류하는 문제를 다룬다.

성별	신장 (feet)	무게 (lbs)	발 크기 (inches)
샘플	약 1.83m	약 58.97kg	약 20.32cm

위 표는 남성 또는 여성으로 분류될 샘플의 데이터를 나타낸다.

남성과 여성의 사후 확률을 계산하고, 더 높은 사후 확률을 가진 그룹으로 샘플을 분류한다.

'''남성의 사후 확률'''

: $posterior (male) = \frac{P(male) \, p(height | male) \, p(weight | male) \, p(foot size | male)}{evidence}$

'''여성의 사후 확률'''

: $posterior (female) = \frac{P(female) \, p(height | female) \, p(weight | female) \, p(foot size | female)}{evidence}$

'''증거(evidence)''' (또는 정규화 상수)는 다음과 같이 계산된다.

: $evidence = P(male) \, p(height | male) \, p(weight | male) \, p(foot size | male)$

: $+ P(female) \, p(height | female) \, p(weight | female) \, p(foot size | female)$

주어진 샘플에서 증거 값은 일정하므로, 두 사후 확률을 동일하게 스케일링하여 분류에 영향을 미치지 않는다. 따라서 무시할 수 있다.

계산 결과는 다음과 같다.

: $P(male) = 0.5$

: $p(\mbox{height} | \mbox{male}) = \frac{1}{\sqrt{2\pi \sigma^2}}\exp\left(\frac{-(6-\mu)^2}{2\sigma^2}\right) \approx 1.5789$

(여기서, $\mu = 5.855$ 와 $\sigma^2 = 3.5033 \cdot 10^{-2}$ 는 트레이닝 셋으로부터 결정된 정규 분포의 매개변수이다. 확률 밀도이기 때문에 1보다 큰 값도 허용된다.)

: $p(\mbox{weight} | \mbox{male}) = 5.9881 \cdot 10^{-6}$

: $p(\mbox{foot size} | \mbox{male}) = 1.3112 \cdot 10^{-3}$

: $\mbox{posterior numerator (male)} = \mbox{their product} = 6.1984 \cdot 10^{-9}$

: $P(\mbox{female}) = 0.5$

: $p(\mbox{height} | \mbox{female}) = 2.2346 \cdot 10^{-1}$

: $p(\mbox{weight} | \mbox{female}) = 1.6789 \cdot 10^{-2}$

: $p(\mbox{foot size} | \mbox{female}) = 2.8669 \cdot 10^{-1}$

: $\mbox{posterior numerator (female)} = \mbox{their product} = 5.3778 \cdot 10^{-4}$

사후 확률은 여성이 더 크기 때문에, 주어진 샘플을 여성으로 예측한다.

4. 2. 문서 분류 (스팸 메일 분류)

나이브 베이즈 분류는 문서 내용에 따라 문서를 분류하는 데 사용되며, 스팸 메일 분류가 대표적인 예시다. 이 방법은 문서 내 단어들의 확률을 이용하여 주어진 문서가 스팸인지 아닌지 판별한다.

먼저, 문서 D가 주어졌을 때 특정 클래스 C에 속할 확률 p(C|D)를 구한다. 베이즈 정리를 사용하면 다음과 같다.

:

p(C\vert D)={p(C)\over p(D)}\,p(D\vert C)

여기서 p(D|C)는 주어진 클래스 C에 대해 문서 D가 나타날 확률이며, 문서 내 각 단어

w_i

가 클래스 C에 나타날 확률 p(

w_i

|C)의 곱으로 표현된다. 이때 각 단어는 문서 내에서 독립적으로 분포한다고 가정한다.

:

p(D\vert C)=\prod_i p(w_i \vert C)\,

스팸(S)과 스팸이 아닌(¬S) 두 가지 클래스가 있다고 가정하면, p(S|D)와 p(¬S|D)를 위 식에 따라 계산할 수 있다. 두 확률의 비율은 다음과 같다.

:

{p(S\vert D)\over p(\neg S\vert D)}={p(S)\over p(\neg S)}\,\prod_i {p(w_i \vert S)\over p(w_i \vert\neg S)}

양변에 로그를 취하면,

:

\ln{p(S\vert D)\over p(\neg S\vert D)}=\ln{p(S)\over p(\neg S)}+\sum_i \ln{p(w_i\vert S)\over p(w_i\vert\neg S)}

이 식의 값이 0보다 크면, 즉 p(S|D) > p(¬S|D)이면 해당 문서는 스팸으로 분류되고, 그렇지 않으면 스팸이 아닌 것으로 분류된다.

훈련 데이터에 특정 단어가 특정 클래스에서 나타나지 않으면 확률 추정치가 0이 되는 문제가 발생할 수 있다. 이를 방지하기 위해 라플라스 스무딩과 같은 정규화 방법을 사용한다.

다항 이벤트 모델에서 샘플은 다항 분포에 의해 생성된 빈도를 나타낸다. 특성 벡터는 히스토그램으로 표현되며, 문서 분류에 사용된다. 이 모델에서 로그 공간의 식은 선형 분류기가 된다.^[25]

5. 토론

나이브 베이즈 분류기는 모든 특성(feature) 값이 서로 독립이라고 가정하지만, 이러한 가정이 항상 정확한 것은 아니다. 그럼에도 불구하고 나이브 베이즈 분류기는 실제로 유용한 속성을 가지고 있다.^[4]

특히, 클래스 조건부 특성 분포를 분리하여 각 분포를 1차원 분포로 독립적으로 추정할 수 있다. 이는 특성의 수에 따라 데이터 세트가 지수적으로 증가해야 하는 차원의 저주 문제를 완화하는 데 도움이 된다.^[16]

나이브 베이즈는 종종 정확한 클래스 확률 추정에 실패하지만, 올바른 MAP 결정 규칙에 따른 분류는 가능하다. 즉, 확률 추정치가 부정확하더라도 다른 클래스보다 확률이 높을 가능성이 더 큰 클래스를 선택하면 올바른 분류가 된다.^[17] 이러한 방식으로 나이브 베이즈 분류기는 확률 모델의 결함을 무시할 만큼 충분히 견고하다.^[17]

나이브 베이즈 분류기의 성공에 대한 다른 이유들은 관련 문헌에서 논의되고 있다.^[19]

5. 1. 로지스틱 회귀와의 관계

나이브 베이즈 분류기와 로지스틱 회귀 분류기는 ''생성-판별'' 쌍을 형성한다.^[18] 나이브 베이즈 분류기는 결합 우도

p(C, \mathbf{x})

를 최적화하는 확률 모델을 적합하는 방법으로 간주할 수 있으며, 로지스틱 회귀는 조건부

p(C \mid \mathbf{x})

를 최적화하기 위해 동일한 확률 모델을 적합한다.^[18]

보다 형식적으로, 이진 특징에 대한 나이브 베이즈 분류기는 로지스틱 회귀 분류기에 포함된다.

가능한 클래스

Y\in \{1, ..., n\}

를 가진 일반적인 다중 클래스 분류 문제에서, (비-나이브) 베이즈 분류기는 베이즈 정리에 의해 다음과 같다.

p(Y \mid X=x) = \text{softmax}(\{\ln p(Y = k) + \ln p(X=x \mid Y=k)\}_k)

나이브 베이즈 분류기는 다음과 같다.

\text{softmax}\left(\left\{\ln p(Y = k) + \frac 12 \sum_i (a^+_{i, k} - a^-_{i, k})x_i + (a^+_{i, k} + a^-_{i, k})\right\}_k\right)

여기서

a^+_{i, s} = \ln p(X_i=+1 \mid Y=s);\quad a^-_{i, s} = \ln p(X_i=-1 \mid Y=s)

이것은 정확히 로지스틱 회귀 분류기이다.

두 가지 간의 연관성은 나이브 베이즈의 결정 함수 (이진 경우)를 "

p(C_1 \mid \mathbf{x})

의 오즈가

p(C_2 \mid \mathbf{x})

의 오즈를 초과하면 클래스

C_1

을 예측한다"로 다시 쓸 수 있다는 것을 관찰하여 확인할 수 있다. 이를 로그 공간으로 표현하면 다음과 같다.

\log\frac{p(C_1 \mid \mathbf{x})}{p(C_2 \mid \mathbf{x})} = \log p(C_1 \mid \mathbf{x}) - \log p(C_2 \mid \mathbf{x}) > 0

이 방정식의 왼쪽은 로그-오즈 또는 ''로짓''이며, 로지스틱 회귀의 기본이 되는 선형 모델에서 예측하는 값이다. 나이브 베이즈는 두 "이산" 이벤트 모델에 대한 선형 모델이기도 하므로,

b + \mathbf{w}^\top x > 0

의 선형 함수로 재매개변수화될 수 있다. 확률을 구하는 것은

b + \mathbf{w}^\top x

에 로지스틱 함수를 적용하는 문제이며, 다중 클래스 경우에는 소프트맥스 함수를 적용하는 문제이다.

판별 분류기는 생성 분류기보다 낮은 점근 오차를 갖는다. 그러나 응과 조던의 연구에 따르면, 일부 실제 사례에서 나이브 베이즈는 점근 오차에 더 빨리 도달하기 때문에 로지스틱 회귀보다 성능이 우수할 수 있다.^[18]

6. Complement Naive Bayes

단순 베이즈 분류기에서 특정 클래스에 '''속하지 않는''' 보집합(Complement|보집합^영어)을 사용하여 학습시키는 확장을 Complement Naive Bayes|컴플리먼트 나이브 베이즈^영어라고 한다.

예를 들어 문장 분류에서 순수한 단순 베이즈 분류기는 문장 내 해당 클래스에 속하는 단어의 출현율이 높아지지만, 속하지 않을 확률이 가장 낮은 클래스로 식별함으로써 문장 내의 이 편차를 최소화할 수 있다. 이를 통해 더 나은 식별이 가능해진다.

7. 추가 문헌

Pedro Domingos, Michael Pazzani (1997). “On the optimality of the simple Bayesian classifier under zero-one loss”. 《Machine Learning》 29: 103–137. [http://citeseer.ist.psu.edu/domingos97optimality.html](http://citeseer.ist.psu.edu/domingos97optimality.html).
G. I. Webb, J. Boughton, Z. Wang (2005). “Not So Naive Bayes: Aggregating One-Dependence Estimators”. 《Machine Learning》 58 (1): 5–24. [http://www.springerlink.com/content/u8w306673m1p866k/](http://www.springerlink.com/content/u8w306673m1p866k/).
M. Mozina, J. Demsar, M. Kattan, B. Zupan (2004). “Nomograms for Visualization of Naive Bayesian Classifier”. 《Proc. PKDD-2004》: 337–348. [http://eprints.fri.uni-lj.si/154/01/PKDD_camera_mozina.pdf](http://eprints.fri.uni-lj.si/154/01/PKDD_camera_mozina.pdf).
M. E. Maron (1961). “Automatic Indexing: An Experimental Inquiry”. 《Journal of the ACM》 8 (3): 404–417.
M. Minsky (1961). “Steps toward Artificial Intelligence”. 《Proc. IRE》 49 (1): 8–30.

참조

_[1] 웹사이트 Graphical Models, Lecture2: Bayesian Network Representation https://people.cs.um[...] 2019-10-22
_[2] 논문 Idiot's Bayes — not so stupid after all?
_[3] AIMA
_[4] 학회자료 The Optimality of Naive Bayes http://www.cs.unb.ca[...]
_[5] 학회자료 An empirical comparison of supervised learning algorithms
_[6] 웹사이트 Why does Naive Bayes work better when the number of features >> sample size compared to more sophisticated ML algorithms? https://stats.stacke[...] 2023-01-24
_[7] 서적 Pattern Recognition: An Algorithmic Approach
_[8] 학회자료 Estimating Continuous Distributions in Bayesian Classifiers https://dl.acm.org/d[...] Morgan Kaufmann
_[9] 학회자료 A comparison of event models for Naive Bayes text classification http://www.kamalniga[...]
_[10] 학회자료 Spam filtering with Naive Bayes—which Naive Bayes? https://www.research[...]
_[11] 논문 Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems 2020-06-01
_[12] 서적 The elements of statistical learning : data mining, inference, and prediction : with 200 full-color illustrations Springer 2001
_[13] 서적 An introduction to statistical learning: with applications in R https://link.springe[...] Springer 2024-11-10
_[14] 학회자료 Tackling the poor assumptions of naive Bayes classifiers http://people.csail.[...]
_[15] 논문 Learning to classify text from labeled and unlabeled documents using EM http://www.kamalniga[...]
_[16] 학회자료 Predicting good probabilities with supervised learning http://machinelearni[...] 2016-04-24
_[17] 학회자료 An empirical study of the naive Bayes classifier http://www.research.[...]
_[18] 학회자료 On discriminative vs. generative classifiers: A comparison of logistic regression and naive Bayes http://papers.nips.c[...]
_[19] 문서 The Optimality of Naive Bayes http://www.cs.unb.ca[...] Harry Shang
_[20] 웹인용 보관된 사본 http://www.research.[...] 2015-04-18
_[21] URL http://www.cs.unb.ca[...]
_[22] 학회자료 An empirical comparison of supervised learning algorithms
_[23] 학회자료 A comparison of event models for Naive Bayes text classification http://www.kamalniga[...]
_[24] 학회자료 Spam filtering with Naive Bayes—which Naive Bayes?
_[25] 학회자료 Tackling the poor assumptions of Naive Bayes classifiers http://people.csail.[...]
_[26] 저널 Learning to classify text from labeled and unlabeled documents using EM http://www.kamalniga[...]

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com