생성 모델

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

생성 모델은 관측값과 목표값의 결합 확률 분포 또는 목표값이 주어졌을 때 관측값의 조건부 확률을 모델링하는 반면, 판별 모델은 관측값이 주어졌을 때 목표값의 조건부 확률을 모델링한다. 생성 모델은 새로운 데이터를 생성하는 데 사용될 수 있으며, 판별 모델은 데이터를 특정 범주로 분류하거나 예측하는 데 활용된다. 두 모델은 서로 상호 보완적인 관계를 가지며, 생성 모델에는 가우시안 혼합 모델, 은닉 마르코프 모델 등이 있고, 판별 모델에는 로지스틱 회귀, 서포트 벡터 머신 등이 있다. 심층 학습의 발전으로 심층 생성 모델이 등장하여 이미지, 텍스트, 오디오 등 다양한 분야에서 활용되고 있으며, 변분 오토인코더, 생성적 적대 신경망 등이 대표적인 예시이다.

생성 모델

지도 정보

개요

정의	확률 및 통계에서 관측된 데이터를 생성하기 위한 모형
목표	주어진 데이터 세트의 확률 분포를 학습하고, 학습된 분포로부터 새로운 데이터를 생성하는 것
응용 분야	기계 학습 통계학 컴퓨터 과학 자연어 처리 컴퓨터 비전 생물정보학

종류

명시적 밀도 모델	자동 회귀 모델 변분 자동 인코더 (VAE)
암시적 밀도 모델	생성적 적대 신경망 (GAN)
기타	마르코프 확률장 확산 모델 에너지 기반 모델 정규화 흐름

학습 방법

최대 우도 추정	모델이 학습 데이터의 확률 분포를 최대화하도록 파라미터를 조정하는 방법
대조 발산	에너지 기반 모델에서 사용되는 학습 방법으로, 데이터 분포와 모델 분포 간의 차이를 최소화
적대적 학습	생성적 적대 신경망에서 사용되는 학습 방법으로, 생성자와 감별자라는 두 개의 신경망을 경쟁적으로 학습

평가 방법

재구성 오차	모델이 생성한 데이터와 실제 데이터 간의 차이를 측정
로그 가능도	모델이 학습 데이터를 얼마나 잘 설명하는지를 측정
프레셰 시작 거리 (FID)	생성된 데이터의 품질과 다양성을 평가하는 지표, 생성적 적대 신경망 평가에 사용

장점

데이터 생성	현실적인 데이터를 생성하여 데이터 증강, 시뮬레이션 등에 활용 가능
확률 모델링	데이터의 기저 확률 분포를 학습하여 데이터 생성 외에도 다양한 분석에 활용 가능
표현 학습	데이터의 저차원 표현을 학습하여 데이터 압축, 특징 추출 등에 활용 가능

단점

학습의 어려움	특히 복잡한 데이터 분포를 학습하는 것이 어려움
모드 붕괴	생성적 적대 신경망에서 발생하는 문제로, 모델이 다양한 데이터를 생성하지 못하고 특정 패턴만 반복하는 현상
평가의 어려움	특히 생성된 데이터의 품질과 다양성을 평가하는 것이 어려움

참고 자료

관련 연구	Generative Adversarial Networks (GAN) Auto-Encoding Variational Bayes (VAE) DRAW: A Recurrent Neural Network For Image Generation On the Quantitative Analysis of Decoder Networks

📚 더 읽어볼만한 페이지

통계 모형 - 예측 분석
예측 분석은 통계학, 기계 학습 등의 분석 기법을 활용하여 과거 및 현재 데이터를 토대로 미래의 사건이나 결과를 예측하는 방법론으로, 다양한 분야에서 의사 결정 지원 및 위험 관리 등에 활용되지만, 인간 행동의 복잡성으로 인한 예측 불가능성에 대한 비판도 존재한다.
통계 모형 - 박스-젠킨스 방법
박스-젠킨스 방법은 자기상관 및 편자기상관 함수를 활용하여 시계열 데이터를 분석하고 예측하는 통계적 방법론으로, ARIMA 모델을 통해 데이터에 적합한 모델을 식별, 추정, 검증한다.
입력지원 - 인류학
인류학은 인간의 생물학적, 문화적, 사회적 측면을 종합적으로 연구하는 학문으로, 형질인류학, 문화인류학, 고고학, 언어인류학 등의 분야로 나뉘어 인간의 진화, 문화적 다양성, 사회 조직, 언어의 기원과 발전을 탐구하며, 학제 간 연구를 통해 인간과 사회에 대한 포괄적인 이해를 추구한다.
입력지원 - 양궁
양궁은 활과 화살로 표적을 맞히는 스포츠로, 선사 시대부터 무기로 사용되다가 1538년 영국에서 스포츠로 발전하여 올림픽 정식 종목으로 채택되었으며, 대한민국에서는 1950년대 말부터 시작되어 국제 대회에서 경기가 열린다.
수학 - 회귀 분석
회귀 분석은 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링하고 분석하는 통계적 기법으로, 최소 제곱법 개발 이후 골턴의 연구로 '회귀' 용어가 도입되어 다양한 분야에서 예측 및 인과 관계 분석에 활용된다.
수학 - 수학적 최적화
수학적 최적화는 주어진 집합에서 실수 또는 정수 변수를 갖는 함수의 최댓값이나 최솟값을 찾는 문제로, 변수 종류, 제약 조건, 목적 함수 개수에 따라 다양한 분야로 나뉘며 여러 학문 분야에서 활용된다.

1. 개요
2. 생성 모델과 판별 모델의 정의 및 관계
3. 심층 생성 모델 (Deep Generative Models)
- 3.1. 주요 심층 생성 모델
4. 생성 모델과 판별 모델의 종류
- 4.1. 생성 모델의 종류
- 4.2. 판별 모델의 종류
5. 생성 모델과 판별 모델의 활용 예시
- 5.1. 간단한 예시
- 5.2. 텍스트 생성 예시 (생성 모델)
6. 한국의 생성 모델 및 판별 모델 연구 동향 (추가)

2. 생성 모델과 판별 모델의 정의 및 관계

생성 모델과 판별 모델은 기계 학습에서 데이터를 분류하고 예측하는 데 사용되는 두 가지 주요 접근 방식이다. 두 모델은 서로 다른 방식으로 작동하며, 각각 고유한 장점과 단점을 가진다.

* 생성 모델(Generative Model)은 관측값 X와 목표값 y의 결합 확률 분포 P(X, Y) 또는 목표값 y가 주어졌을 때 관측값 X의 조건부 확률 $P(X\mid Y = y)$ 를 모델링한다.
* 판별 모델(Discriminative Model)은 관측값 x가 주어졌을 때 목표값 Y의 조건부 확률 $P(Y\mid X = x)$ 를 모델링한다.

간단히 말해, 생성 모델은 데이터가 어떻게 생성되었는지를 모델링하고, 판별 모델은 주어진 데이터를 어떻게 분류할지를 모델링한다.

두 모델의 관계를 살펴보면, 결합 분포 $P(X, Y)$ 모델이 주어지면, 개별 변수의 분포는 주변 분포 $P(X) = \sum_y P(X , Y = y)$ 와 $P(Y) = \int_x P(Y, X = x)$ 로 계산할 수 있다. 어떤 조건부 분포든 조건부 확률의 정의에서 $P(X\mid Y)=P(X, Y)/P(Y)$ 와 $P(Y\mid X)=P(X, Y)/P(X)$ 로 계산할 수 있다.

또한, 베이즈 정리를 사용하면 조건부 확률을 서로 변환할 수 있다. 예를 들어, $P(X\mid Y)$ 에 대한 생성 모델이 있으면 $P(Y\mid X) = P(X\mid Y)P(Y)/P(X)$ 를 추정할 수 있고, $P(Y\mid X)$ 에 대한 판별 모델이 있으면 $P(X\mid Y) = P(Y\mid X)P(X)/P(Y)$ 를 추정할 수 있다.

분류 문제에서는 일반적으로 판별 모델이 생성 모델보다 더 높은 성능을 보이는 경향이 있지만, 생성 모델은 데이터의 분포를 학습하여 기존 데이터와 유사한 새로운 데이터를 생성할 수 있다는 장점이 있다.

2.1. 생성 모델 (Generative Model)

생성 모델은 관측값 X와 목표값 y의 결합 확률 분포 P(X, Y) 또는 목표값 y가 주어졌을 때 관측값 X의 조건부 확률 P(X|Y = y)를 모델링한다. 이를 통해 새로운 데이터를 생성할 수 있다.

예를 들어, 어떤 사진이 주어졌을 때 그 사진이 고양이 사진인지 강아지 사진인지 판별하는 문제를 생각해 보자. 생성 모델은 고양이 사진과 강아지 사진 각각의 특징을 학습하여, 새로운 사진이 주어졌을 때 그 사진이 고양이일 확률과 강아지일 확률을 계산한다. 또한, 학습된 특징을 바탕으로 새로운 고양이 사진이나 강아지 사진을 생성할 수도 있다.

생성 모델의 종류는 다음과 같다.

👆

좌우로 밀어서 보기

모델 종류	설명
가우시안 혼합 모델	여러 개의 가우시안 분포(정규 분포)를 혼합하여 데이터의 분포를 모델링한다.
숨겨진 마르코프 모델	순차적인 데이터(예: 음성, 텍스트)를 모델링하는 데 사용된다.
베이지안 네트워크	변수들 간의 확률적 관계를 그래프 형태로 표현한다. 나이브 베이즈 분류기 등이 여기에 속한다.
변분 자동 인코더	잠재 변수를 활용하여 데이터의 특징을 추출하고, 이를 통해 새로운 데이터를 생성한다.
생성적 적대 신경망	생성자와 판별자라는 두 개의 신경망을 경쟁적으로 학습시켜 데이터를 생성한다.

이 외에도 확률적 문맥 자유 문법, 평균화된 일의존 추정기, 잠재 디리클레 할당, 볼츠만 머신, 플로우 기반 생성 모델, 에너지 기반 모델, 확산 모델 등 다양한 생성 모델이 존재한다.

만약 관측된 데이터가 실제로 어떤 생성 모델에서 나왔다면, 데이터의 우도를 최대화하는 방식으로 생성 모델의 매개변수를 조정하는 것이 일반적이다. 하지만 대부분의 통계 모델은 실제 분포를 완벽하게 표현하지 못하므로, 주어진 문제에 따라 생성 모델보다 판별 모델이 더 적합할 수도 있다.

2.2. 판별 모델 (Discriminative Model)

판별 모델은 관측값 *x*가 주어졌을 때 목표값 *Y*의 조건부 확률 *P(Y|X = x)*를 모델링하는 방법이다. 이는 주어진 데이터를 특정 범주로 분류하거나 예측하는 데 사용된다.

판별 모델은 데이터에서 직접 $P(Y|X)$ 를 학습하여 데이터를 분류한다. 생성 모델이 $P(X, Y)$ 를 학습하여 $P(Y|X)$ 로 변환하는 것과 대조적이다.

분류와 관련하여, 관측 가능 변수 X는 대부분 이며, 목표 Y는 일반적으로 레이블의 유한 집합으로 구성된 이다. 또한, 조건부 확률 $P(Y\mid X)$ 는 X를 입력, Y를 출력으로 하는 (비결정론적인) $f\colon X \to Y$ 로 해석할 수도 있다.

판별 모델은 관측 변수의 분포를 모델링할 필요가 없지만, 일반적으로 분류나 회귀 분석 작업에서 생성 모델보다 반드시 더 나은 성능을 보이는 것은 아니다. 두 가지 종류는 상호 보완적인 것으로 간주되기도 한다.

판별 모델의 예시:
* 로지스틱 회귀
* 서포트 벡터 머신
* 결정 트리
* 랜덤 포레스트
* k-최근접 이웃 알고리즘
*
* 조건부 랜덤 필드

2.3. 모델 간의 관계

생성 모델은 결합 확률 분포 $P(X, Y)$ 를 통해 조건부 확률을 계산할 수 있다. 결합 분포 모델이 주어지면, 주변 분포를 통해 개별 변수의 분포를 계산할 수 있고, 조건부 확률의 정의를 활용하여 조건부 분포를 구할 수 있다.

또한, 베이즈 정리를 이용하면 조건부 확률 $P(X|Y)$ 에 대한 생성 모델을 조건부 확률 $P(Y|X)$ 를 추정하는 데 사용할 수 있다. 반대로, $P(Y|X)$ 에 대한 판별 모델을 통해 $P(X|Y)$ 를 추정할 수도 있다.

일반적으로 분류 문제에서는 판별 모델이 생성 모델보다 더 높은 성능을 보이는 경향이 있다. 하지만 생성 모델은 $p(x,y)$ 를 학습하여 기존 데이터와 유사한 새로운 데이터를 생성할 수 있다는 장점이 있다.

3. 심층 생성 모델 (Deep Generative Models)

심층 생성 모델(Deep Generative Models, DGMs)은 심층 신경망을 사용하여 복잡한 데이터 분포를 모델링하는 생성 모델의 발전된 형태이다. 심층 학습의 발전과 함께 등장한 방법론으로, 생성 모델과 심층 신경망을 결합하여 만들어졌다. 신경망의 규모와 훈련 데이터의 규모는 모두 성능 향상에 필수적이다.

최근에는 매우 큰 심층 생성 모델을 구축하는 경향이 나타나고 있다. 예를 들어, GPT-3와 그 전신인 GPT-2는 수십억 개의 매개변수를 포함하는 자기 회귀 신경망 언어 모델이며, 이미지 생성에 사용되는 BigGAN이나 VQ-VAE는 수억 개의 매개변수를 가지며, Jukebox는 수십억 개의 매개변수를 가진 매우 큰 음악 오디오용 생성 모델이다.

3.1. 주요 심층 생성 모델

심층 학습의 발전과 함께, 생성 모델과 심층 신경망을 결합한 심층 생성 모델(DGMs, Deep Generative Models)이 등장하였다. 신경망과 훈련 데이터의 규모는 모두 성능 향상에 필수적이다.

대표적인 DGMs에는 변분 오토인코더(VAEs), 생성적 적대 신경망(GANs), 자기 회귀 모델이 있다. 최근에는 매우 큰 심층 생성 모델을 구축하는 경향이 나타나고 있다. 예를 들어, GPT-3와 그 전신인 GPT-2는 수십억 개의 매개변수를 포함하는 자기 회귀 신경망 언어 모델이며, BigGAN 및 VQ-VAE는 수억 개의 매개변수를 가질 수 있는 이미지 생성에 사용되는 모델이고, Jukebox는 수십억 개의 매개변수를 포함하는 매우 큰 음악 오디오 생성 모델이다.

4. 생성 모델과 판별 모델의 종류

생성 모델은 데이터의 실제 분포를 모방하여 새로운 데이터를 생성하는 모델이고, 판별 모델은 주어진 데이터를 특정 기준으로 분류하는 모델이다.

관측된 데이터가 생성 모델에서 실제로 샘플링된 경우, 데이터 우도를 최대화하도록 생성 모델의 매개변수를 조정하는 것이 일반적인 방법이다. 그러나 대부분의 통계적 모델은 '참' 분포에 대한 근사치이므로, 모델 적용이 다른 변수의 알려진 값을 조건으로 하는 변수의 하위 집합에 대한 추론인 경우, 해당 근사치가 문제 해결에 필요한 것보다 더 많은 가정을 한다고 주장할 수 있다. 이러한 경우, 판별 모델을 사용하여 조건부 밀도 함수를 직접 모델링하는 것이 더 정확할 수 있지만, 응용 프로그램별 세부 정보에 따라 어떤 접근 방식이 특정 경우에 가장 적합한지 결정된다.

4.1. 생성 모델의 종류

* 가우시안 혼합 모델 (및 기타 혼합 모델)
* 숨겨진 마르코프 모델
* 확률적 문맥 자유 문법
* 베이지안 네트워크 (예: 나이브 베이즈, 자기회귀 모형)
* 평균화된 일의존 추정기
* 잠재 디리클레 할당
* 볼츠만 머신 (예: 제한 볼츠만 머신, 심층 신념 네트워크)
* 변이 자동 인코더
* 생성적 적대 신경망
* 플로우 기반 생성 모델
* 에너지 기반 모델
* 확산 모델

4.2. 판별 모델의 종류

* k-최근접 이웃 알고리즘
* 로지스틱 회귀
* 서포트 벡터 머신
* 결정 트리 학습
* 랜덤 포레스트
* 최대 엔트로피 마르코프 모델
* 조건부 랜덤 필드

5. 생성 모델과 판별 모델의 활용 예시

생성 모델과 판별 모델은 다양한 분야에서 활용된다. 섀넌(1948)은 텍스트 생성 모델의 예시를 보였다.

5.1. 간단한 예시

입력 데이터 $x \in \{1, 2\}$ 이고, $x$ 에 대한 레이블 집합이 $y \in \{0, 1\}$ 인 경우에 대해 두 가지 예시를 살펴보자.

첫 번째 예시:

4개의 데이터 포인트가 다음과 같다고 가정한다.
: $(x,y) = \{(1,0), (1,1), (2,0), (2,1)\}$

위 데이터에 대해, 경험적 분포에서 결합 확률 분포 $p(x,y)$ 를 추정하면 다음과 같다.

👆

좌우로 밀어서 보기

	$y=0$	$y=1$
$x=1$	$1/4$	$1/4$
$x=2$	$1/4$	$1/4$

조건부 확률 분포

p(y|x)

는 다음과 같다.

👆

좌우로 밀어서 보기

	$y=0$	$y=1$
$x=1$	$1/2$	$1/2$
$x=2$	$1/2$	$1/2$

두 번째 예시:

4개의 데이터 포인트가 다음과 같다고 가정한다.
:

(x,y) = \{(1,0), (1,1), (2,0), (2,0)\}

이 경우 결합 확률 분포

p(x,y)

는 다음과 같다.

👆

좌우로 밀어서 보기

	$y=0$	$y=1$
$x=1$	$1/4$	$1/4$
$x=2$	$2/4$	$0$

조건부 확률 분포

p(y|x)

는 다음과 같다.

👆

좌우로 밀어서 보기

	$y=0$	$y=1$
$x=1$	$1/2$	$1/2$
$x=2$	$1$	$0$

5.2. 텍스트 생성 예시 (생성 모델)

섀넌(Shannon)은 영어 단어 쌍의 빈도표를 사용하여 "representing and speedily is an good"으로 시작하는 문장을 생성하는 예를 제시하였다. 이 문장은 올바른 영어가 아니지만, 단어 쌍에서 단어 삼중항 등으로 표를 확장할수록 점점 더 영어에 가까워진다.

6. 한국의 생성 모델 및 판별 모델 연구 동향 (추가)

이전의 출력은 원본 소스가 비어 있어 내용을 생성할 수 없다는 메시지였으므로, 현재 주어진 지시사항에 따라 수정할 내용이 없습니다. 따라서 이전 출력을 그대로 유지합니다.

(참조할 원본 소스가 비어있으므로, 주어진 정보를 바탕으로 내용을 생성할 수 없습니다.)