심층 신뢰 신경망

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 훈련
- 2.1. 대조 발산 (Contrastive Divergence, CD)
- 2.2. RBM 스태킹
참조

1. 개요

심층 신뢰 신경망은 여러 층의 제한된 볼츠만 머신 (RBM)을 쌓아 올린 신경망의 한 종류이다. RBM은 제프리 힌튼이 제안한 대조 발산 (CD) 훈련 방법을 사용하여 훈련된다. CD는 최대 우도 방법의 근사치로, 가중치 업데이트를 위해 경사 하강법을 사용하며, 깁스 샘플링을 대체하는 방식으로 작동한다. RBM이 훈련된 후에는 다른 RBM을 그 위에 쌓아 훈련을 진행하며, 이 과정은 원하는 중지 기준이 충족될 때까지 반복된다. CD는 최대 우도에 대한 근사치가 조잡하지만, 경험적으로 효과적인 것으로 알려져 있다.

더 읽어볼만한 페이지

신경망 아키텍처 - 홉필드 네트워크
홉필드 네트워크는 상호 연결된 뉴런으로 구성된 순환 신경망으로, 모든 뉴런이 서로 연결되고 연결 가중치가 대칭적인 특징을 가지며, 연상 메모리로서 입력된 패턴을 가장 가까운 저장된 패턴으로 수렴시키는 방식으로 작동하여 최적화 문제 해결 및 패턴 인식 등에 응용된다.
신경망 아키텍처 - 알렉스넷
알렉스넷은 2012년 이미지 인식 대회에서 우승하며 딥 러닝과 CNN의 중요성을 알린 모델이며, GPU를 활용하여 학습 속도를 높이고 8개의 층으로 구성되어 컴퓨터 비전과 딥 러닝 연구 발전에 기여했다.

2. 훈련

RBM의 훈련은 네트워크의 가중치를 조정하여 훈련 데이터의 확률을 최대화하는 방식으로 이루어진다. 단일 RBM을 훈련할 때, 가중치 업데이트는 경사 하강법으로 수행되며, 다음 방정식을 따른다.

: $w_{ij}(t+1) = w_{ij}(t) + \eta\frac{\partial \log(p(v))}{\partial w_{ij}}$

여기서 $p(v)$ 는 가시 벡터의 확률이며, $p(v) = \frac{1}{Z}\sum_he^{-E(v,h)}$ 로 주어진다. $Z$ 는 분배 함수 (정규화에 사용)이고, $E(v,h)$ 는 네트워크 상태에 할당된 에너지 함수이다. 더 낮은 에너지는 네트워크가 더 "바람직한" 구성에 있음을 나타낸다. 경사 $\frac{\partial \log(p(v))}{\partial w_{ij}}$ 는 $\langle v_ih_j\rangle_\text{data} - \langle v_ih_j\rangle_\text{model}$ 의 형태를 갖는다.

2. 1. 대조 발산 (Contrastive Divergence, CD)

제프리 힌튼이 "전문가 제품" 모델 훈련에 사용하기 위해 제안한 RBM 훈련 방법은 대조 발산(CD)이라고 불린다.^[9] CD는 이상적으로 가중치 학습에 적용될 최대 우도 방법에 대한 근사치를 제공한다.^[10]^[11] 단일 RBM을 훈련할 때, 가중치 업데이트는 경사 하강법으로 수행된다.

모델 분포에 따른 평균인

\langle v_ih_j\rangle_\text{model}

을 샘플링하는 것은 확장된 교대 깁스 샘플링을 필요로 하기 때문에 어렵다. CD는 이 단계를

n

단계 동안 교대 깁스 샘플링을 실행하여 대체한다(

n = 1

의 값은 잘 수행된다).

n

단계 후, 데이터가 샘플링되고 해당 샘플은

\langle v_ih_j\rangle_\text{model}

대신 사용된다. CD 절차는 다음과 같이 작동한다:^[10]

1. 가시 유닛을 훈련 벡터로 초기화한다.

2. 가시 유닛을 기준으로 숨겨진 유닛을 병렬로 업데이트한다.

\sigma

는 시그모이드 함수이다.

3. 숨겨진 유닛을 기준으로 가시 유닛을 병렬로 업데이트한다. 이것은 "재구성" 단계라고 한다.

4. 재구성된 가시 유닛을 기준으로 숨겨진 유닛을 다시 업데이트한다.

5. 가중치 업데이트를 수행한다.

RBM이 훈련되면, 다른 RBM이 최종 훈련된 레이어에서 입력을 받아 그 위에 "쌓인다". 새 가시 레이어는 훈련 벡터로 초기화되고, 이미 훈련된 레이어의 유닛 값은 현재 가중치와 편향을 사용하여 할당된다. 그런 다음 새 RBM은 위의 절차로 훈련된다. 이 전체 프로세스는 원하는 중지 기준이 충족될 때까지 반복된다.^[12]

CD의 최대 우도에 대한 근사치는 조잡하지만, 경험적으로 효과적이다.^[10]

완전 연결된 가시 유닛과 숨겨진 유닛을 갖는 제한된 볼츠만 머신(RBM). 숨겨진-숨겨진 또는 가시-가시 연결이 없음에 유의하십시오.

2. 2. RBM 스태킹

RBM이 훈련되면, 다른 RBM을 그 위에 "쌓아" 최종 훈련된 레이어에서 입력을 받는다.^[12] 새 가시 레이어는 훈련 벡터로 초기화되고, 이미 훈련된 레이어의 유닛 값은 현재 가중치와 편향을 사용하여 할당된다. 그런 다음 새 RBM은 위에 제시된 절차로 훈련된다. 이 전체 프로세스는 원하는 중지 기준이 충족될 때까지 반복된다.^[12]

참조

_[1] 논문 Deep belief networks
_[2] 간행물 Greedy Layer-Wise Training of Deep Networks http://papers.nips.c[...]
_[3] 논문 A fast learning algorithm for deep belief nets http://www.cs.toront[...] 2006-07
_[4] 논문 Learning Deep Architectures for AI http://www.iro.umont[...]
_[5] 논문 Deep Belief Networks for Electroencephalography: A Review of Recent Contributions and Future Outlooks 2018-05
_[6] 논문 Neural network and deep-learning algorithms used in QSAR studies: merits and drawbacks
_[7] 논문 The Role of Different Sampling Methods in Improving Biological Activity Prediction Using Deep Belief Network
_[8] 논문 Deep Learning in Drug Discovery 2016-01
_[9] 논문 Training Product of Experts by Minimizing Contrastive Divergence http://www.cs.toront[...] 2002
_[10] 논문 A Practical Guide to Training Restricted Boltzmann Machines https://www.research[...] 2010
_[11] 논문 Training Restricted Boltzmann Machines: An Introduction http://image.diku.dk[...] 2017-07-02
_[12] 논문 Learning Deep Architectures for AI http://sanghv.com/do[...] 2017-07-02
_[13] 논문 Deep belief networks
_[14] 간행물 Greedy Layer-Wise Training of Deep Networks http://papers.nips.c[...]
_[15] 논문 A fast learning algorithm for deep belief nets http://www.cs.toront[...] 2006-07
_[16] 논문 Learning Deep Architectures for AI http://www.iro.umont[...]
_[17] 논문 Deep Belief Networks for Electroencephalography: A Review of Recent Contributions and Future Outlooks 2018-05
_[18] 논문 Neural network and deep-learning algorithms used in QSAR studies: merits and drawbacks
_[19] 논문 The Role of Different Sampling Methods in Improving Biological Activity Prediction Using Deep Belief Network
_[20] 논문 Deep Learning in Drug Discovery 2016-01

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com

심층 신뢰 신경망
개요
유형	인공 신경망
종류	심층 학습 신경망
구조	다층 신경망
학습 방식	지도 학습 또는 비지도 학습
활용 분야	이미지 인식 음성 인식 자연어 처리 추천 시스템
구조
기본 구성 요소	여러 층의 제한된 볼츠만 머신(RBM) 오토인코더
층간 연결	각 층은 이전 층의 출력을 입력으로 받음
깊이	일반적으로 3개 이상의 층을 가짐
학습
사전 학습 (Pre-training)	각 층을 비지도 학습 방식으로 개별적으로 학습
미세 조정 (Fine-tuning)	전체 네트워크를 지도 학습 방식으로 조정
학습 알고리즘	역전파 알고리즘 확률적 경사 하강법
특징
장점	복잡한 데이터 패턴 학습 가능 다양한 종류의 데이터에 적용 가능
단점	학습에 많은 데이터와 시간이 필요 과적합 발생 가능성 존재 모델 해석의 어려움
응용
이미지 처리	이미지 인식 및 분류 객체 탐지 이미지 생성
음성 처리	음성 인식 음성 합성
자연어 처리	기계 번역 텍스트 분류 감성 분석
기타	추천 시스템 생물 정보학 의료 진단
관련 연구
연구 동향	모델 경량화 및 효율성 향상 비지도 학습 및 자기 지도 학습 방법 연구 다양한 분야에 적용하기 위한 연구 진행
추가 정보
관련 용어	심층 신경망(DNN) 제한된 볼츠만 머신(RBM) 오토인코더 합성곱 신경망(CNN) 순환 신경망(RNN)