판별 모델

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

판별 모델은 관측된 변수를 기반으로 타겟 변수의 클래스 라벨을 예측하는 조건부 확률 분포에 초점을 맞춘 기계 학습 모델이다. 생성 모델과는 달리, 판별 모델은 결합 확률 분포를 연구하지 않고, 직접적으로 조건부 확률 P(y|x)를 모델링한다. 선형 분류기, 로지스틱 회귀 등이 있으며, 분류 및 회귀 분석과 같이 결합 분포가 필요하지 않은 작업에서 더 나은 성능을 보일 수 있다. 판별 모델은 높은 정확도, 계산 자원 절약, 낮은 점근적 오류 등의 장점을 가지며, 생성 모델과 결합하여 사용되기도 한다.

판별 모델

모델 정보

종류	통계적 모델
분야	패턴 인식 기계 학습
목적	분류 회귀

특징

설명	입력 변수와 목표 변수 사이의 관계를 직접 모델링
장점	해석 용이성 계산 효율성
단점	모델링 가정에 따른 성능 제한 복잡한 데이터에 대한 표현력 부족 가능성

예시

종류	로지스틱 회귀 서포트 벡터 머신 결정 트리 랜덤 포레스트

관련 개념

관련 모델	생성 모델

📚 더 읽어볼만한 페이지

통계학 - 확률
확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다.
통계학 - 사분위수
사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.
토론 이름공간 토막글 - 전향
전향은 종교적 개종이나 노선 변경을 의미하며, 근대 이후 정치적 이념 변화를 지칭하는 용어로 확장되어 개인의 신념 변화, 정치적 압력 등 다양한 요인으로 발생하며, 사회주의·공산주의로부터의 전향, 전향 문학, 냉전 시대 이후의 전향 현상 등을 폭넓게 논의한다.
토론 이름공간 토막글 - 포토마스크
포토마스크는 반도체, 디스플레이, 인쇄 회로 기판 제조 시 웨이퍼에 회로 패턴을 전사하는 마스크로, 기술 발전을 거듭하며 융용 실리카 기판과 금속 흡수막을 사용하고 위상 천이 마스크, EUV 마스크 등의 고급 기술이 개발되어 반도체 미세화에 기여하고 있지만, 높은 제작 비용과 기술적 어려움은 해결해야 할 과제이다.
위키백과 이름공간 토막글 - 전향
전향은 종교적 개종이나 노선 변경을 의미하며, 근대 이후 정치적 이념 변화를 지칭하는 용어로 확장되어 개인의 신념 변화, 정치적 압력 등 다양한 요인으로 발생하며, 사회주의·공산주의로부터의 전향, 전향 문학, 냉전 시대 이후의 전향 현상 등을 폭넓게 논의한다.
위키백과 이름공간 토막글 - 포토마스크
포토마스크는 반도체, 디스플레이, 인쇄 회로 기판 제조 시 웨이퍼에 회로 패턴을 전사하는 마스크로, 기술 발전을 거듭하며 융용 실리카 기판과 금속 흡수막을 사용하고 위상 천이 마스크, EUV 마스크 등의 고급 기술이 개발되어 반도체 미세화에 기여하고 있지만, 높은 제작 비용과 기술적 어려움은 해결해야 할 과제이다.

1. 개요
2. 정의
- 2.1. 순수 판별 모델 vs. 조건부 모델
3. 판별 모델링의 접근 방식
- 3.1. 선형 분류기 (Linear Classifier)
- 3.2. 로지스틱 회귀 (Logistic Regression)
4. 생성 모델과의 비교
- 4.1. 접근 방식의 차이
- 4.2. 응용 분야에서의 장단점
5. 최적화
6. 종류

2. 정의

판별 모델은 관측되지 않은 변수(타겟) $x$ 를 관측된 변수(훈련 샘플)에 기반한 클래스 라벨 $y$ 에 대응시키는 조건부 확률 분포 $P(y|x)$ 에 초점을 맞춘 연구이다.

이 점에서 결합 확률 분포 $P(x,y)$ 를 연구하는 생성 모델과는 다르다.

예를 들어 객체 인식에서는 $x$ 는 일반적으로 이미지의 원시 픽셀 또는 이미지의 원시 픽셀에서 추출된 특징의 벡터를 나타낸다. 확률론적인 틀 내에서 조건부 확률 분포 $P(y|x)$ 를 모델링함으로써 $x$ 로부터 $y$ 를 예측할 수 있다.

2.1. 순수 판별 모델 vs. 조건부 모델

조건부 모델은 조건부 확률 분포를 모델링하는 반면, 전통적인 판별 모델은 입력 데이터를 가장 유사한 훈련 샘플에 매핑하는 방식으로 작동한다.

3. 판별 모델링의 접근 방식

주어진 훈련 데이터 집합 $D=\{(x_i;y_i)|i\leq N\in \mathbb{Z}\}$ 를 기반으로 판별 모델을 학습시킨다. 여기서 $y_i$ 는 입력 $x_i$ 에 대한 해당 출력이다.

3.1. 선형 분류기 (Linear Classifier)

선형 분류기는 훈련 데이터 세트에서 관찰된 동작을 시뮬레이션하기 위해 함수 $f(x)$ 를 사용한다. 결합된 특징 벡터 $\phi(x,y)$ 를 사용하여 결정 함수는 다음과 같이 정의된다.

: $f(x;w)=\arg \max_y w^T \phi(x,y)$

Memisevic의 해석에 따르면, $w^T \phi(x,y)$ 는 $c(x,y;w)$ 이기도 한데, 입력 $x$ 와 잠재적 출력 $y$ 의 호환성을 측정하는 점수를 계산한다. 그런 다음 $\arg \max$ 는 가장 높은 점수를 가진 클래스를 결정한다.

3.2. 로지스틱 회귀 (Logistic Regression)

0-1 손실 함수는 결정 이론에서 일반적으로 사용되므로, 훈련 데이터를 최적화하기 위한 파라미터 벡터 $w$ 가 있는 조건부 확률 분포 $P(y|x;w)$ 는 로지스틱 회귀 모델에 대해 다음과 같이 다시 고려할 수 있다.
: $P(y|x;w)= \frac{1}{Z(x;w)} \exp(w^T\phi(x,y))$
여기서
: $Z(x;w)= \textstyle \sum_{y} \displaystyle\exp(w^T\phi(x,y))$
위 방정식은 로지스틱 회귀를 나타낸다. 모델 간의 주요 차이점은 사후 확률을 도입하는 방식에 있다는 점에 유의해야 한다. 사후 확률은 매개변수 모델에서 추론된다. 그런 다음 다음 방정식을 따라 매개변수를 최대화할 수 있다.
: $L(w)=\textstyle \sum_{i} \displaystyle \log p(y^i|x^i;w)$
이는 아래의 로그 손실 방정식으로 대체될 수도 있다.
: $l^{\log} (x^i, y^i,c(x^i;w)) = -\log p(y^i|x^i;w) = \log Z(x^i;w)-w^T\phi(x^i,y^i)$
로그 손실은 미분 가능하므로 기울기 기반 방법을 사용하여 모델을 최적화할 수 있다. 목적 함수가 볼록하므로 전역 최적값이 보장된다. 로그 우도 함수의 기울기는 다음과 같이 나타낸다.
: $\frac{\partial L(w)}{\partial w} = \textstyle \sum_{i} \displaystyle \phi(x^i,y^i) - E_{p(y|x^i;w)} \phi(x^i,y)$
여기서 $E_{p(y|x^i;w)}$ 는 $p(y|x^i;w)$ 의 기대값이다.

위의 방법은 비교적 적은 수의 분류에 대해 효율적인 계산을 제공한다.

4. 생성 모델과의 비교

생성 모델은 입력 데이터와 출력 레이블의 결합 확률 P(x, y)를 모델링하는 반면, 판별 모델은 조건부 확률 분포 P(y|x)를 직접 모델링한다.

예를 들어, 객체 인식에서 x는 이미지의 원시 픽셀 또는 그 특징 벡터가 될 수 있다. 판별 모델은 확률론적 프레임워크 내에서 P(y|x)를 모델링하여 x로부터 y를 예측한다.

조건부 모델과 판별 모델은 종종 함께 묶여서 판별 모델로 분류되지만, 엄밀하게는 구별되는 개념이다.

4.1. 접근 방식의 차이

생성 모델과 판별 모델은 사후 확률을 도입하는 데 차이가 있다. 판별 모델에서는 사후 확률 $P(y|x)$ 를 매개변수 모델에서 추론하며, 여기서 매개변수는 훈련 데이터에서 가져온다. 매개변수의 추정치는 매개변수에 대한 우도 또는 분포 계산의 최대화를 통해 얻어진다. 반면에 생성 모델은 베이즈 정리를 사용하여 클래스 사후 확률 $P(y|x)$ 를 다음과 같이 계산한다.

: $P(y|x) = \frac{p(x|y)p(y)}{\textstyle \sum_{i}p(x|i)p(i) \displaystyle}=\frac{p(x|y)p(y)}{p(x)}$

즉, 생성 모델은 결합 확률에 초점을 맞추는 반면, 판별 모델은 $P(y|x)$ 를 직접적으로 모델링하여 계산 효율성을 높인다.

4.2. 응용 분야에서의 장단점

반복적인 실험에서 로지스틱 회귀와 나이브 베이즈를 이진 분류 작업에 적용한 결과, 판별적 학습은 더 낮은 점근적 오류를 보였고, 생성적 학습은 더 빠르게 더 높은 점근적 오류를 보였다. 그러나 울루소이(Ulusoy)와 비숍(Bishop)의 공동 연구 "객체 감지 및 분류를 위한 생성적 기법과 판별적 기법 비교"에 따르면, 이는 모델이 데이터에 적합할 때, 즉 데이터 분포가 생성적 모델에 의해 올바르게 모델링될 때만 참이다.

판별 모델은 다음과 같은 장점이 있다.

* 더 높은 정확도를 얻을 수 있으며, 이는 주로 학습 결과 향상으로 이어진다.
* 입력을 간소화하고, 조건부 확률 P(y|x)에 대한 직접적인 접근이 가능하다.
* 계산 자원을 절약할 수 있다.
* 점근적 오차가 작다.

생성 모델과 비교했을 때, 판별 모델은 다음과 같은 특징을 갖는다.

* 생성 모델은 모든 데이터를 고려하므로 처리 속도가 느려지는 제약이 있다.
* 판별 모델은 더 적은 훈련 샘플로도 가능하다.
* 다른 응용 프로그램의 요구에 쉽게 연동할 수 있는 유연한 프레임워크를 제공한다.

5. 최적화

실제 응용에서는 판별 모델과 생성 모델의 장점을 결합하여 사용하는 경우가 많다. 예를 들어, Marras의 논문 "변형 가능한 모델 구축 및 분류를 위한 결합된 판별 생성 모델"에서 저자와 공동 저자는 모델의 얼굴 분류에 두 가지 모델링의 조합을 적용하여 기존 방식보다 더 높은 정확도를 얻었다. Kelm은 그의 논문 "다중 조건 학습을 사용한 픽셀 분류를 위한 생성 및 판별 방법 결합"에서 픽셀 분류에 두 가지 모델링 조합을 적용할 것을 제안했다.

주성분 분석(PCA)은 판별적인 접근 방식은 아니다. 반대로, 선형 판별 분석(LDA)은 판별적인 방식이다. 선형 판별 분석(LDA)은 차원 축소를 통해 판별 모델의 성능을 향상시킨다.

6. 종류

* 로지스틱 회귀: 일반화 선형 회귀의 한 유형으로, 이진 또는 범주형 출력을 예측하는 데 사용된다. (최대 엔트로피 분류기라고도 한다.)
* 부스팅
* 조건부 무작위장
* 선형 회귀
* 랜덤 포레스트