제한된 볼츠만 머신

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 구조
3. 훈련 알고리즘
- 3.1. 대비 발산(Contrastive Divergence, CD)
4. 다른 모델과의 관계
5. 스택형 제한 볼츠만 머신(Stacked RBM)
참조

1. 개요

제한된 볼츠만 머신(RBM)은 이분 그래프 구조를 가진 인공 신경망으로, 가시 유닛과 은닉 유닛 간의 연결만 존재하고 같은 층 내의 연결은 없는 특징을 가진다. RBM은 이진 값을 갖는 은닉 유닛과 가시 유닛으로 구성되며, 에너지 함수와 확률 분포를 사용하여 데이터의 특징을 학습한다. 훈련은 대비 발산(CD) 알고리즘을 통해 이루어지며, 가중치와 편향을 조정하여 모델의 확률을 최대화한다. RBM은 볼츠만 머신의 특수한 경우이며, 스택형 제한 볼츠만 머신(SRBM)과 같은 심층 신경망 구조를 구성하는 데 사용되며, 자연어 이해, 문서 검색, 이미지 생성 및 분류 등 다양한 분야에 활용된다.

더 읽어볼만한 페이지

확률 모형 - 확률 과정
확률 과정은 시간의 흐름에 따라 변화하는 확률 변수들의 집합으로, 수학적 모델링과 다양한 분야에 응용되며, 이산 시간 또는 연속 시간, 이산 또는 연속 상태 공간으로 분류된다.
확률 모형 - 블랙-숄즈 모형
블랙-숄즈 모형은 피셔 블랙과 마이런 숄스가 개발한 옵션 가격 계산 모형으로, 자산 가격 변동의 확률적 분석을 통해 옵션 가격 결정에 기여하며 파생 상품 시장에서 중요한 위치를 차지한다.
비지도 학습 - 챗GPT
챗GPT는 오픈AI가 개발한 GPT-3.5 기반의 대화형 인공지능 서비스로, 인간과 유사한 텍스트 생성, 코드 생성, 보고서 작성, 번역 등의 다양한 기능을 제공하지만, 편향된 정보 생성, 데이터 유출, 윤리 및 저작권 문제 등의 논란도 있으며, 유료 서비스를 포함한 다양한 형태로 제공되고, 지속적인 모델 개발을 통해 성능을 향상시키고 있다.
비지도 학습 - 환각 (인공지능)
인공지능 환각은 인공지능이 사실이 아닌 정보를 사실처럼 생성하는 현상으로, 대규모 언어 모델의 부정확한 정보 생성 문제를 설명하기 위해 사용되며, 데이터 불일치, 모델 오류, 훈련 데이터 부족 등이 원인으로 발생하여 다양한 완화 기술이 연구되고 있다.

제한된 볼츠만 머신
개요
유형	확률 그래프 모델
모델 유형	에너지 기반 모델
발명 연도	1986년
관련 항목	볼츠만 머신, 딥 러닝, 인공 신경망
상세 정보
정의	제한된 볼츠만 머신 (RBM)은 신경망의 일종으로, 확률적이고 생성적인 특성을 가짐. 두 개의 층, 즉 가시층 (visible layer)과 은닉층 (hidden layer)으로 구성되며, 층 내의 뉴런들은 서로 연결되어 있지 않음.
특징	RBM은 차원 축소, 분류, 협업 필터링, 특징 학습 등 다양한 작업에 사용될 수 있음. 특히 딥 러닝 구조에서 중요한 구성 요소로 활용됨.
작동 방식	가시층은 입력 데이터를 나타내고, 은닉층은 입력 데이터의 잠재적인 특징을 학습함. RBM은 에너지 기반 모델로, 시스템의 상태에 에너지를 할당하고 확률 분포를 통해 학습을 진행함.
학습 방법	RBM의 학습은 주로 대조 발산 (Contrastive Divergence) 알고리즘을 사용함. 이 알고리즘은 모델이 생성한 데이터와 실제 데이터 간의 차이를 최소화하는 방향으로 가중치를 조정함.
응용 분야
이미지 인식	RBM은 이미지의 특징을 추출하고 이미지를 분류하는 데 사용됨.
자연어 처리	텍스트 데이터의 특징을 학습하고 텍스트를 생성하는 데 사용됨.
추천 시스템	사용자-아이템 간의 관계를 모델링하고 사용자에게 아이템을 추천하는 데 사용됨.
양자 물리	양자 시스템의 상태를 나타내고 양자 다체 문제를 해결하는 데 사용됨.
변형
심층 신뢰 신경망 (DBN)	여러 개의 RBM을 쌓아 만든 심층 신경망.
심층 볼츠만 머신 (DBM)	여러 개의 은닉층을 가진 볼츠만 머신.
컨볼루션 RBM	컨볼루션 연산을 사용하여 이미지의 공간적 특징을 학습하는 RBM.

2. 구조

제한된 볼츠만 머신(RBM)은 이분 그래프 형태의 네트워크 구조를 가지며, 가시 유닛과 은닉 유닛으로 구성된다. 각 유닛은 부울 값을 갖는다. 가시 유닛과 은닉 유닛 간의 연결은 가중치 $W$ 의 행렬로 표현되며, 크기는 $m\times n$ 이다. 각 가중치 요소 $(w_{i,j})$ 는 가시 유닛 $v_i$ 와 은닉 유닛 $h_j$ 사이의 연결을 나타낸다. 또한, $v_i$ 에 대한 편향 가중치(오프셋) $a_i$ 와 $h_j$ 에 대한 $b_j$ 가 존재한다. RBM은 층 내 연결이 없으므로, 은닉 유닛과 가시 유닛은 서로 주어진 경우에만 상호 독립적이다.

2. 1. 에너지 함수

표준적인 형태의 제한된 볼츠만 머신(RBM)에서 구성(가시 벡터와 은닉 벡터의 쌍)의 "에너지"는 다음과 같이 정의된다.

:

E(v,h) = -\sum_i a_i v_i - \sum_j b_j h_j -\sum_i \sum_j v_i w_{i,j} h_j

또는 행렬 표기법으로 나타내면 다음과 같다.

:

E(v,h) = -a^{\mathrm{T}} v - b^{\mathrm{T}} h -v^{\mathrm{T}} W h.

여기서

v_i

는 가시(입력) 유닛,

h_j

는 은닉 유닛,

(w_{i,j})

는 가시 유닛과 은닉 유닛 사이의 연결 가중치,

a_i

는 가시 유닛의 편향 가중치,

b_j

는 은닉 유닛의 편향 가중치를 의미한다.

이 에너지 함수는 호프필드 네트워크와 유사하다. 가시 벡터와 은닉 벡터의 결합 확률 분포는 에너지 함수를 사용하여 다음과 같이 정의된다.^[14]

:

P(v,h) = \frac{1}{Z} e^{-E(v,h)}

여기서

Z

는 모든 가능한 구성에 대해

e^{-E(v,h)}

의 합으로 정의된 분할 함수이며, 확률의 합이 1이 되도록 보장하는 정규화 상수이다.^[14]

2. 2. 확률 분포

RBM은 에너지 함수를 기반으로 가시 벡터와 은닉 벡터의 결합 확률 분포를 정의한다. 주변 확률 분포를 통해 가시 벡터 또는 은닉 벡터만의 확률 분포도 계산할 수 있다.^[14]

표준적인 형태의 RBM은 이진 값을 갖는 (부울) 은닉 유닛과 가시 유닛으로 구성되며, 가중치

W

의 행렬로 이루어져 있다. 가중치와 편향이 주어지면, 구성(부울 벡터 쌍)의 "에너지"는 다음과 같이 정의된다.

:

E(v,h) = -\sum_i a_i v_i - \sum_j b_j h_j -\sum_i \sum_j v_i w_{i,j} h_j

일반적인 볼츠만 머신과 마찬가지로, 가시 벡터와 은닉 벡터의 결합 확률 분포는 에너지 함수를 사용하여 다음과 같이 정의된다.^[14]

:

P(v,h) = \frac{1}{Z} e^{-E(v,h)}

여기서

Z

는 모든 가능한 구성에 대해

e^{-E(v,h)}

의 합으로 정의된 분할 함수이며, 확률의 합이 1이 되도록 보장하는 정규화 상수로 해석될 수 있다. 가시 벡터의 주변 확률은 모든 가능한 은닉층 구성에 대해

P(v,h)

의 합이다.^[14]

:

P(v) = \frac{1}{Z} \sum_{\{h\}} e^{-E(v,h)}

RBM의 기본 그래프 구조는 이분 그래프이므로, 은닉 유닛 활성화는 가시 유닛 활성화가 주어지면 상호 독립적이다. 반대로, 가시 유닛 활성화는 은닉 유닛 활성화가 주어지면 상호 독립적이다.^[12] 즉, ''m''개의 가시 유닛과 ''n''개의 은닉 유닛의 경우, 은닉 유닛의 구성이 주어졌을 때 가시 유닛의 구성에 대한 조건부 확률은 다음과 같다.

:

P(v|h) = \prod_{i=1}^m P(v_i|h)

.

개별 활성화 확률은 다음과 같다.

:

P(h_j=1|v) = \sigma \left(b_j + \sum_{i=1}^m w_{i,j} v_i \right)

그리고

\,P(v_i=1|h) = \sigma \left(a_i + \sum_{j=1}^n w_{i,j} h_j \right)

여기서

\sigma

는 로지스틱 시그모이드를 나타낸다.

제한된 볼츠만 머신의 가시 유닛은 다항 분포를 가질 수 있지만, 은닉 유닛은 베르누이 분포를 갖는다. 이 경우, 가시 유닛에 대한 로지스틱 함수는 소프트맥스 함수로 대체된다.

:

P(v_i^k = 1|h) = \frac{\exp(a_i^k + \Sigma_j W_{ij}^k h_j)} {\Sigma_{k'=1}^K \exp(a_i^{k'} + \Sigma_j W_{ij}^{k'} h_j)}

여기서 ''K''는 가시 값이 갖는 이산 값의 개수이다.

2. 3. 조건부 독립

RBM의 기본 그래프 구조는 이분 그래프이므로(층 내 연결이 없음을 의미), 은닉 유닛 활성화는 가시 유닛 활성화가 주어지면 상호 독립적이다.^[12] 반대로, 가시 유닛 활성화는 은닉 유닛 활성화가 주어지면 상호 독립적이다.^[12] 즉, ''m''개의 가시 유닛과 ''n''개의 은닉 유닛이 있을 때, 은닉 유닛의 구성이 주어졌을 때 가시 유닛의 구성에 대한 조건부 확률은 다음과 같다.

:

P(v|h) = \prod_{i=1}^m P(v_i|h)

.

반대로, 가 주어졌을 때 의 조건부 확률은 다음과 같다.

:

P(h|v) = \prod_{j=1}^n P(h_j|v)

.

개별 활성화 확률은 다음과 같이 주어진다.

:

P(h_j=1|v) = \sigma \left(b_j + \sum_{i=1}^m w_{i,j} v_i \right)

그리고

\,P(v_i=1|h) = \sigma \left(a_i + \sum_{j=1}^n w_{i,j} h_j \right)

여기서

\sigma

는 로지스틱 시그모이드를 나타낸다.

2. 4. 활성화 확률

표준적인 형태의 제한된 볼츠만 머신(RBM)에서 개별 유닛의 활성화 확률은 로지스틱 시그모이드 함수를 통해 계산된다. 은닉 유닛의 활성화 확률은 다음과 같다.

:

P(h_j=1|v) = \sigma \left(b_j + \sum_{i=1}^m w_{i,j} v_i \right)

가시 유닛의 활성화 확률은 다음과 같다.

:

\,P(v_i=1|h) = \sigma \left(a_i + \sum_{j=1}^n w_{i,j} h_j \right)

^[14]

여기서

\sigma

는 로지스틱 시그모이드를 나타낸다.

가시 유닛이 다항 분포를 갖는 경우, 로지스틱 함수는 소프트맥스 함수로 대체된다.

:

P(v_i^k = 1|h) = \frac{\exp(a_i^k + \Sigma_j W_{ij}^k h_j)} {\Sigma_{k'=1}^K \exp(a_i^{k'} + \Sigma_j W_{ij}^{k'} h_j)}

여기서 ''K''는 가시 값이 갖는 이산 값의 개수이다. 이러한 방식은 추천 시스템 등에 적용된다.^[5]

3. 훈련 알고리즘

RBM 훈련은 주어진 훈련 데이터에 대한 모델의 확률(우도)을 최대화하는 방향으로 가중치와 편향을 조정하는 과정이다. 훈련 세트 $V$ (각 행이 가시 벡터 $v$ 로 취급되는 행렬)가 주어졌을 때, RBM은 이 훈련 세트에 할당된 확률의 곱을 최대화하도록 훈련된다.

: $\arg\max_W \prod_{v \in V} P(v)$

또는 동등하게, $V$ 에서 무작위로 선택된 훈련 샘플 $v$ 의 기대 로그 확률을 최대화한다.^[15]^[16]

: $\arg\max_W \mathbb{E} \left[ \log P(v)\right]$

RBM 훈련 알고리즘에 대한 자세한 내용은 하위 섹션인 대비 발산(Contrastive Divergence, CD)에서 확인할 수 있다.

3. 1. 대비 발산(Contrastive Divergence, CD)

대비 발산(Contrastive Divergence, CD)은 제한된 볼츠만 머신(RBM)을 훈련하는 데 가장 자주 사용되는 알고리즘이다. 이 알고리즘은 전문가들의 곱(PoE) 모델을 훈련하기 위해 제프리 힌튼이 개발했다.^[18]^[19] 대비 발산은 깁스 샘플링을 수행하며, 경사 하강법 절차 내에서 가중치 업데이트를 계산하는 데 사용된다. 이는 마치 피드포워드 신경망 훈련에서 역전파가 사용되는 방식과 유사하다.

단일 샘플에 대한 기본적인 단일 단계 대비 발산(CD-1) 절차는 다음과 같다.

1. 훈련 샘플 v 를 가져와 숨겨진 유닛의 확률을 계산하고, 이 확률 분포에서 숨겨진 활성화 벡터 h 를 샘플링한다.

2. v 와 h 의 외적을 계산하고, 이를 "양의 기울기"라고 부른다.

3. h 에서 가시 유닛의 재구성 v' 를 샘플링한 다음, 여기서 숨겨진 활성화 h' 를 다시 샘플링한다. (깁스 샘플링 단계)

4. v' 와 h' 의 외적을 계산하고, 이를 "음의 기울기"라고 부른다.

5. 가중치 행렬 W 에 대한 업데이트는 양의 기울기에서 음의 기울기를 뺀 값에 학습률을 곱한 값이다: .

6. 편향 a 및 b 를 유사하게 업데이트한다: , .

제프리 힌튼이 작성한 RBM 훈련에 대한 실용 가이드는 그의 홈페이지에서 확인할 수 있다.^[14]

4. 다른 모델과의 관계

제한된 볼츠만 머신(RBM)은 볼츠만 머신과 마르코프 무작위 필드의 특수한 경우이다.^[15]^[16]

RBM의 그래프 모델은 요인 분석의 그래프 모델에 해당한다.^[17]

5. 스택형 제한 볼츠만 머신(Stacked RBM)

스택형 제한 볼츠만 머신(Stacked Restricted Boltzmann Machine, SRBM)은 여러 제한된 볼츠만 머신(RBM)을 쌓아 올려 만든 심층 신경망 구조이다. 이는 더 복잡한 특징 표현을 학습할 수 있게 해준다.

스택형 RBM은 비지도 사전 훈련과 지도 미세 조정을 통해 훈련될 수 있다. 비지도 사전 훈련 단계에서는 각 RBM이 입력 데이터의 특징을 학습하고, 지도 미세 조정 단계에서는 전체 네트워크가 특정 작업(예: 분류)에 맞게 최적화된다. 스택형 RBM은 자연어 이해, 문서 검색, 이미지 생성 및 분류 등에 활용된다.

스택형 RBM의 에너지 함수는 깁스 확률 척도에 의해 주어지며, 다음과 같이 표현된다.

: $E = -\frac12\sum_{i,j}{w_{ij}{s_i}{s_j}}+\sum_i{\theta_i}{s_i}$

여기서 $w_{ij}$ 는 뉴런 i와 j 사이의 연결 가중치, $s_i$ 는 뉴런 i의 상태, $\theta_i$ 는 뉴런 i의 편향(bias)을 나타낸다.

스택형 RBM의 훈련은 대비 발산(Contrastive Divergence) 알고리즘을 사용하며, 깁스 샘플링을 통해 이루어진다. 가중치 업데이트 규칙은 다음과 같다.

:Δw_ij = e*(p_ij - p'_ij)

여기서 e는 학습률, p_ij는 데이터로부터 계산된 상관관계, p'_ij는 모델로부터 생성된 상관관계를 의미한다.^[14]

5. 1. 스택형 RBM과 RBM의 비교

RBM은 층 내 연결이 없는 반면, 스택형 RBM은 여러 층으로 구성되어 더 복잡한 모델을 구성할 수 있다는 점에서 차이가 있다. 스택형 RBM은 대칭 가중치를 가진 비지도 3계층 네트워크와 세 가지 클래스를 인식하기 위한 지도 미세 조정 상위 계층의 조합으로 구성된다.^[14]

스택형 RBM은 자연어 이해, 문서 검색, 이미지 생성 및 분류에 사용된다. 이러한 기능은 비지도 사전 훈련 및/또는 지도 미세 조정을 통해 훈련된다. RBM은 양방향 비대칭 계층으로 연결되지만, 스택형 RBM은 비대칭 가중치를 가진 3계층으로 연결되며, 두 개의 네트워크가 하나로 결합된다.^[14]

스택형 RBM은 RBM과 유사하게 호프필드 신경망 뉴런을 사용하며, 에너지 계산에는 깁스 확률 척도가 사용된다. RBM의 훈련 과정은 한 번에 한 계층씩 훈련하고, 역전파 없이 3-세그먼트 패스로 평형 상태를 근사하는 방식으로, 깁스 샘플링을 이용한 대비 발산을 사용한다.^[14]

RBM은 비선형 변환을 통해 확장이 용이하고 계층적 특징 계층을 제공할 수 있다는 장점이 있지만, 정수 및 실수 값 뉴런 계산이 복잡하고 최대 우도에 대한 대비 발산 근사가 즉흥적이라는 단점이 있다.^[14]

5. 2. 스택형 RBM의 활용

스택형 제한 볼츠만 머신(SRBM)은 자연어 이해, 문서 검색, 이미지 생성 및 분류에 사용된다.^[14] 이러한 기능은 비지도 사전 훈련 및/또는 지도 미세 조정을 통해 훈련된다. 특히 이미지 생성 및 분류에서 스택형 RBM을 활용하여 성능을 향상시킨 사례들이 보고되고 있다.

5. 3. 스택형 RBM의 장단점

스택형 제한 볼츠만 머신(SRBM)은 비선형 변환을 수행하여 확장이 용이하고, 계층적 특징 계층을 제공할 수 있다는 장점이 있다. 반면 정수 및 실수 값 뉴런의 계산이 복잡하다는 약점이 있다. 이는 어떠한 함수의 기울기도 따르지 않으므로, 최대 우도에 대한 대비 발산의 근사가 즉흥적으로 이루어진다는 것이다.^[14]

참조

_[1] 논문 Solvable Model of a Spin-Glass
_[2] 서적 Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Volume 1: Foundations MIT Press
_[3] 간행물 Reducing the Dimensionality of Data with Neural Networks http://www.cs.toront[...] 2015-12-02
_[4] 학회자료 Classification using discriminative restricted Boltzmann machines http://machinelearni[...]
_[5] 학회자료 Restricted Boltzmann machines for collaborative filtering
_[6] 학회자료 An analysis of single-layer networks in unsupervised feature learning http://cs.stanford.e[...] 2014-12-19
_[7] Webarchive Replicated softmax: an undirected topic model http://books.nips.cc[...] 2012-05-25
_[8] 간행물 A transfer-learning approach to predict antigen immunogenicity and T-cell receptor specificity 2023-09-08
_[9] 간행물 Solving the quantum many-body problem with artificial neural networks 2017-02-10
_[10] 간행물 Restricted Boltzmann machines in quantum physics 2019-09
_[11] 간행물 Efficiency of neural-network state representations of one-dimensional quantum spin systems
_[12] 문서 On contrastive divergence learning http://citeseerx.ist[...]
_[13] 간행물 Deep belief networks
_[14] 문서 A Practical Guide to Training Restricted Boltzmann Machines http://www.cs.toront[...] University of Toronto
_[15] 간행물 On the convergence properties of contrastive divergence http://machinelearni[...]
_[16] Webarchive Training Restricted Boltzmann Machines: An Introduction http://image.diku.dk[...] 2015-06-10
_[17] 간행물 Geometry of the restricted Boltzmann machine American Mathematical Society
_[18] 문서 Products of Experts http://www.gatsby.uc[...]
_[19] 간행물 Training Products of Experts by Minimizing Contrastive Divergence http://www.cs.toront[...]
_[20] 인용 Solvable Model of a Spin-Glass
_[21] 서적 Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Volume 1: Foundations MIT Press

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com