비지도 학습

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

비지도 학습은 기계 학습의 한 분야로, 레이블이 지정되지 않은 데이터를 사용하여 패턴을 발견하고 데이터를 이해하는 것을 목표로 한다. 주요 과제는 데이터의 구조를 파악하고, 데이터 특징을 요약하는 것이다. 주요 방법으로는 주성분 분석, 군집 분석, 밀도 추정, 차원 축소, 이상 탐지, 잠재 변수 모델 학습 등이 있으며, 다양한 신경망 아키텍처가 활용된다.

비지도 학습

지도 정보

개요

유형	기계 학습 패러다임
설명	분류 레이블이 없는 데이터에서 패턴을 학습하는 방법
목표	데이터의 내재된 구조, 패턴 또는 표현을 발견

역사

기원	1970년대 초반부터 연구 시작
발전	초기에는 주로 통계학 및 데이터 마이닝 분야에서 사용
현재	심층 학습과 결합하여 다양한 분야에서 활용

주요 접근 방식

클러스터링	데이터를 유사한 그룹으로 분할
차원 축소	고차원 데이터를 저차원 공간으로 변환하여 시각화 및 분석 용이
특징 학습	데이터에서 유용한 특징을 자동으로 학습
이상 탐지	정상 데이터와 다른 이상 데이터를 탐지

알고리즘

클러스터링	k-평균 알고리즘 계층적 군집화 DBSCAN 평균 이동 GMM (Gaussian Mixture Model) BIRCH
차원 축소	PCA (주성분 분석) t-SNE UMAP ICA (독립 성분 분석)
특징 학습	오토인코더 VAE (변분 오토인코더) GAN (생성적 적대 신경망) 자기 지도 학습

응용 분야

이미지 처리	이미지 분류 객체 인식 이미지 생성
자연어 처리	단어 임베딩 텍스트 요약 감성 분석 언어 모델
추천 시스템	사용자 선호도 분석 상품 추천
의료 분야	질병 진단 환자 분류
금융 분야	사기 탐지 위험 관리
기타 분야	유전자 데이터 분석 로봇 공학

장점

데이터 활용	레이블링된 데이터 없이도 학습 가능
패턴 발견	숨겨진 패턴 및 관계 발견
일반화	새로운 데이터에 대한 일반화 능력 향상

단점

평가 어려움	학습 결과의 평가가 어려움
지역 최적화	지역 최적화 문제 발생 가능성
결과 해석	결과 해석의 어려움

지도 학습	레이블된 데이터를 사용한 학습
반지도 학습	레이블된 데이터와 레이블이 없는 데이터를 모두 사용한 학습
강화 학습	에이전트가 환경과의 상호 작용을 통해 학습
자기 지도 학습	자체적으로 생성한 레이블을 사용하여 학습

참고자료	Wu, Wei. Unsupervised Learning Liu, Xiao; Zhang, Fanjin; Hou, Zhenyu; Mian, Li; Wang, Zhaoyu; Zhang, Jing; Tang, Jie. Self-supervised Learning: Generative or Contrastive Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya. Improving Language Understanding by Generative Pre-Training Li, Zhuohan; Wallace, Eric; Shen, Sheng; Lin, Kevin; Keutzer, Kurt; Klein, Dan; Gonzalez, Joey. Train Big, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers

2. 역사

1974년 윌리엄 A. 리틀(William A.^영어)이 인지 과정을 위한 이징 자기 모델을 제안했다. 1980년 후쿠시마는 합성곱 신경망의 초기 형태인 네오코그니트론을 소개했다. 1982년 존 홉필드(John Hopfield)는 내용 주소 지정 메모리(Content-Addressable Memory, CAM) 및 분류기로서 홉필드 네트워크를 제안했다. 1983년 제프리 힌튼(Geoffrey Hinton)과 테리 세이노우스키(Terry Sejnowski)는 확률적 뉴런을 가진 볼츠만 머신을 발표했다. 1986년 폴 스몰렌스키(Paul Smolensky)는 제한 볼츠만 머신(Restricted Boltzmann Machine, RBM)과 사실상 동일한 하모니 이론(Harmony Theory)을 발표했다. 1995년 슈미트후버(Schmidthuber)는 장단기 기억(Long Short-Term Memory, LSTM) 뉴런을 소개했고, 같은 해 다얀(Dayan)과 힌튼(Hinton)은 헬름홀츠 머신(Helmholtz Machine)을 소개했다. 2013년 킹마(Kingma), 레젠데(Rezende) 등은 변분 오토인코더(Variational Autoencoders)를 발표했다.

3. 주요 과제 및 방법

비지도 학습의 주요 과제는 데이터의 숨겨진 구조를 파악하고 유용한 정보를 추출하는 것이다. 지도 학습과 달리 비지도 학습은 목표 변수에 해당하는 것이 애초에 존재하지 않거나, 존재하더라도 알 수 없다. 따라서 출력의 타당성을 직접 평가하기 어려우며, 주관적인 판단이나 휴리스틱한 논의가 필요하다.

지도학습 대비 비지도학습 방법을 사용하는 작업의 경향. 원의 경계를 넘나드는 작업 이름은 의도적인 것입니다. 이는 비지도학습을 사용하는 기존의 상상력 작업(왼쪽) 분류가 오늘날의 학습 체계에서 모호해짐을 보여줍니다.

일반적인 생성적 작업은 데이터 세트에서 데이터 포인트를 샘플링하고 데이터의 일부를 제거하며, 모델은 제거된 부분을 추론해야 한다. 이는 잡음 제거 오토인코더와 BERT에서 특히 명확하다.

비지도 학습에서 가장 일반적으로 사용되는 알고리즘은 크게 (1) 군집화, (2) 이상 탐지, (3) 잠재 변수 모델 학습 접근 방식으로 나눌 수 있다. 각 접근 방식은 여러 가지 방법을 사용한다.

* 군집화 방법에는 계층적 군집화, k-평균, 혼합 모델, 모델 기반 군집화, DBSCAN, 및 OPTICS 알고리즘이 포함된다.
* 이상 탐지 방법에는 Local Outlier Factor, 및 Isolation Forest가 포함된다.
* 잠재 변수 모델 학습 접근 방식으로는 기대-최대화 알고리즘(EM), 모멘트 방법, 및 맹신호 분리 기법(주성분 분석, 독립 성분 분석, 비음수 행렬 분해, 특이값 분해)이 있다.

3.1. 밀도 추정

밀도 추정은 관측된 데이터의 확률 밀도 함수 $p(\mathbf{x})$ 자체를 추정하는 과제이다. 커널 밀도 추정과 같은 비모수적 방법이 사용되지만, $\mathbf{x}$ 의 차원이 높은 경우 차원의 저주 때문에 이러한 추정은 잘 되지 않는다. 따라서, 많은 비지도학습에서는 $p(\mathbf{x})$ 를 모수적 모델로 근사하거나, 훈련 데이터에서 $p(\mathbf{x})$ 의 중요한 특성을 추출하는 접근 방식이 취해진다.

3.2. 차원 축소

고차원 데이터의 정보를 보존하면서 저차원으로 변환하여 데이터를 시각화하거나, 노이즈를 제거하거나, 계산 효율성을 높인다. 고차원 데이터는 차원의 저주 때문에 추정이 잘 되지 않으므로, 많은 비지도학습에서는 확률 분포 $p(\mathbf{x})$ 의 어떤 모수적 모델로 $p(\mathbf{x})$ 를 근사하거나, 훈련 데이터에서 $p(\mathbf{x})$ 의 어떤 중요한 특성을 추출하는 접근 방식이 취해진다.

주요 방법으로는 주성분 분석이 있다.

3.3. 군집화 (클러스터링)

군집화 방법에는 계층적 군집화, k-평균, 혼합 모델, 모델 기반 군집화, DBSCAN, OPTICS 알고리즘 등이 있다.

3.4. 이상 탐지

이상 탐지 방법에는 Local Outlier Factor, Isolation Forest가 있다.

3.5. 잠재 변수 모델 학습

잠재 변수 모델은 관측 변수 외에 숨겨진 잠재 변수를 가정하는 통계 모델이다. 기대-최대화 알고리즘(EM)과 모멘트 방법 등이 잠재 변수 모델 학습에 사용된다.

기대-최대화 알고리즘(EM)은 잠재 변수 모델 학습에 널리 사용되지만, 지역 최적점에 빠질 수 있다는 단점이 있다. 반면, 모멘트 방법은 특정 조건에서 전역 수렴이 보장된다. 모멘트 방법은 모델의 알려지지 않은 매개변수가 확률 변수의 모멘트와 관련되어 있다는 점을 이용하여, 표본에서 경험적으로 추정한 모멘트를 통해 매개변수를 추정한다. 이때 1차 모멘트는 평균 벡터, 2차 모멘트는 공분산 행렬을 사용하며, 고차 모멘트는 텐서를 사용하여 표현한다.

잠재 변수 모델의 예시로는 토픽 모델링이 있다. 토픽 모델링은 문서의 단어(관측 변수)가 문서의 토픽(잠재 변수)에 따라 생성된다고 가정하는 통계 모델이다. 모멘트 방법은 특정 가정 하에 토픽 모델링과 같은 다양한 잠재 변수 모델의 매개변수를 효과적으로 추정할 수 있다고 알려져 있다.

4. 신경망 아키텍처

비지도 학습에는 다양한 신경망 아키텍처가 사용된다.

* 홉필드 네트워크

강자성에 영감을 받은 네트워크이다. 뉴런은 이진 자기 모멘트 위(Up)와 아래(Down)를 갖는 철 영역에 해당하고, 신경 연결은 영역 간의 상호 영향에 해당한다. 대칭 연결은 전역 에너지 공식화를 가능하게 한다. 추론 중에는 네트워크가 표준 활성화 단계 함수를 사용하여 각 상태를 업데이트한다. 대칭 가중치와 올바른 에너지 함수는 안정적인 활성화 패턴으로의 수렴을 보장한다. 비대칭 가중치는 분석하기 어렵다. 홉필드 네트워크는 내용 주소 지정 메모리(CAM)로 사용된다.

* 볼츠만 머신

확률적인 홉필드 네트워크이다. 상태 값은 pdf에서 샘플링된다. 이진 뉴런이 베르누이 확률 p(1) = 1/3으로 발화하고 p(0) = 2/3으로 휴지 상태에 있을 때, 균일하게 분포된 난수 y를 취하고 역 누적 분포 함수에 대입하여 샘플링한다. 이 경우 역함수는 임계값이 2/3인 단계 함수이다.

* 심층 신념 네트워크

RBM과 시그모이드 신념 네트워크의 하이브리드이다. 상위 2계층은 RBM이고, 그 아래 계층은 시그모이드 신념 네트워크를 형성한다. 스택 RBM 방법으로 훈련한 다음 상위 RBM 아래의 인식 가중치를 버린다. 2009년 기준으로 3~4계층이 최적의 깊이로 보인다.

* 헬름홀츠 머신

VAE의 초기 영감이 되었다. 두 네트워크가 하나로 결합되어 전방 가중치는 인식을 수행하고 후방 가중치는 상상을 구현한다. 아마도 두 가지 작업을 모두 수행하는 최초의 네트워크일 것이다. 헬름홀츠는 기계 학습 분야에서 일하지 않았지만 "감각 입력의 가능성 있는 원인을 추론하는 기능을 하는 통계적 추론 엔진"이라는 관점에 영감을 주었다. 확률적 이진 뉴런은 상태가 0 또는 1일 확률을 출력한다. 데이터 입력은 일반적으로 계층으로 간주되지 않지만, 헬름홀츠 머신 생성 모드에서 데이터 계층은 중간 계층에서 입력을 받고 이를 위해 별도의 가중치를 가지므로 계층으로 간주된다. 따라서 이 네트워크는 3계층을 갖는다.

* 변분 오토인코더

헬름홀츠 머신에서 영감을 받았으며 확률 네트워크와 신경 네트워크를 결합한다. 오토인코더는 3계층 CAM 네트워크로, 중간 계층은 입력 패턴의 내부 표현으로 간주된다. 인코더 신경 네트워크는 확률 분포 q_φ(z given x)이고, 디코더 네트워크는 p_θ(x given z)이다. 가중치는 헬름홀츠에서와 같이 W와 V가 아닌 phi와 theta로 명명된다. 여기서 두 네트워크는 완전히 연결될 수도 있고 다른 NN 구성표를 사용할 수도 있다.

👆

좌우로 밀어서 보기

	홉필드 네트워크	볼츠만 머신	제한 볼츠만 머신(RBM)	\| 헬름홀츠 머신	오토인코더	VAE
용도 및 주목할 만한 점	CAM, 외판원 문제	CAM. 연결의 자유도 때문에 분석하기 어렵다.	패턴 인식. MNIST 숫자와 음성에 사용됨.	인식 및 상상. 비지도 사전 훈련 및/또는 지도 미세 조정으로 훈련됨.	상상, 모방	언어: 창작 글쓰기, 번역. 비전: 흐릿한 이미지 향상	현실적인 데이터 생성
뉴런	결정적 이진 상태. 활성화 = { x가 음수이면 0(또는 -1), 그렇지 않으면 1}	확률적 이진 홉필드 뉴런	볼츠만 머신과 동일 (2000년대 중반 실수값으로 확장됨)	RBM과 동일	RBM과 동일	언어: LSTM. 비전: 국소 수용 영역. 일반적으로 실수값 ReLU 활성화 함수 사용.	중간 계층 뉴런은 가우스 분포의 평균과 분산을 인코딩한다. 실행 모드(추론)에서 중간 계층의 출력은 가우스 분포에서 샘플링된 값이다.
연결	대칭 가중치를 가진 1계층. 자기 연결 없음.	2계층. 1개의 은닉층과 1개의 가시층. 대칭 가중치.	볼츠만 머신과 동일. 계층 내 측면 연결 없음.	최상위 계층은 무향, 대칭적이다. 다른 계층은 양방향, 비대칭적이다.	3계층: 비대칭 가중치. 2개의 네트워크가 1개로 결합됨.	3계층. 입력은 들어오는 가중치가 없더라도 계층으로 간주된다. NLP를 위한 순환 계층. 비전을 위한 피드포워드 합성곱. 입력과 출력은 뉴런 수가 같다.	3계층: 입력, 인코더, 분포 샘플러 디코더. 샘플러는 계층으로 간주되지 않는다.
추론 및 에너지	에너지는 기브스 확률 측도로 주어짐: $E = -\frac12\sum_{i,j}{w_{ij}{s_i}{s_j}}+\sum_i{\theta_i}{s_i}$	홉필드 네트워크와 동일	홉필드 네트워크와 동일	해당사항 없음	KL 발산 최소화	추론은 피드포워드만 수행된다. 이전 비지도 학습 네트워크는 앞뒤로 실행되었다.	오류 = 재구성 오류 - KLD 최소화
훈련	Δw_ij = s_i*s_j, +1/-1 뉴런의 경우	Δw_ij = e*(p_ij - p'_ij). 이것은 KLD 최소화에서 유도된다. e = 학습률, p' = 예측 분포, p = 실제 분포.	Δw_ij = e*( < v_i h_j >_data - < v_i h_j >_equilibrium ). 이것은 기브스 샘플링을 사용한 대조적 발산의 한 형태이다. "<>"는 기대값이다.	RBM과 유사. 한 번에 1계층씩 훈련. 3구간 패스로 평형 상태를 근사. 역전파 없음.	깨어있는-잠자는 2단계 훈련	재구성 오류 역전파	역전파를 위한 은닉 상태 재매개변수화
강점	물리 시스템과 유사하므로 방정식을 상속받음	홉필드 네트워크와 동일. 은닉 뉴런은 외부 세계의 내부 표현으로 작용한다.	볼츠만 머신보다 빠르고 실용적인 훈련 방식	빠르게 훈련된다. 계층적인 특징 계층을 제공한다.	약간 해부학적이다. 정보 이론과 통계 역학으로 분석 가능	해당사항 없음	해당사항 없음
약점	해당사항 없음	측면 연결로 인해 훈련하기 어렵다.	평형 상태에 도달하려면 너무 많은 반복이 필요하다.	정수 및 실수값 뉴런이 더 복잡하다.	해당사항 없음	해당사항 없음	해당사항 없음

4.1. 훈련

학습 단계에서 비지도 학습 네트워크는 주어진 데이터를 모방하려고 시도하고, 모방된 출력의 오류를 사용하여 자신을 수정한다(즉, 가중치와 편향을 수정한다). 때때로 오류는 잘못된 출력이 발생할 확률이 낮다는 것으로 표현되거나, 네트워크에서 불안정한 높은 에너지 상태로 표현될 수도 있다.

지도 학습에서 역전파가 주로 사용되는 것과는 대조적으로, 비지도 학습은 홉필드 학습 규칙, 볼츠만 학습 규칙, 대조적 발산, 웨이크 슬립, 변분 추론, 최대 우도법, 최대 사후 확률, 깁스 샘플링 및 역전파 재구성 오류 또는 잠재 상태 재매개변수화를 포함한 다른 방법들을 사용한다.

4.2. 에너지

에너지 함수는 네트워크의 활성화 상태를 거시적으로 측정하는 지표이다. 볼츠만 머신에서는 비용 함수(Cost function)의 역할을 한다. 이러한 물리학과의 유사성은 루트비히 볼츠만이 입자 운동의 미시적 확률 $p \propto e^{-E/kT}$ 로부터 기체의 거시적 에너지를 분석한 데서 영감을 얻었다. 여기서 k는 볼츠만 상수이고 T는 온도이다. 제한 볼츠만 머신(RBM) 네트워크에서는 $p = e^{-E} / Z$ 의 관계가 성립한다. 여기서 $p$ 와 $E$ 는 모든 가능한 활성화 패턴에 따라 달라지며 $\textstyle{Z = \sum_{\scriptscriptstyle{\text{All Patterns}}} e^{-E(\text{pattern})}}$ 이다. 더 정확히 말하면, $p(a) = e^{-E(a)} / Z$ 이며, 여기서 $a$ 는 모든 뉴런(보이는 뉴런과 숨겨진 뉴런)의 활성화 패턴이다. 따라서 초기 신경망 중 일부는 볼츠만 머신이라는 이름을 가지고 있다. 폴 스몰렌스키는 $-E\,$ 를 '조화(Harmony)'라고 부른다. 네트워크는 에너지가 낮고 조화가 높은 상태를 추구한다.

4.3. 주요 네트워크

단일 자기 연결 계층을 가진 철의 자기 도메인을 기반으로 하는 네트워크로, 내용 주소 지정 메모리로 사용할 수 있다.

네트워크는 2개의 계층(은닉 계층 대 가시 계층)으로 분리되지만 여전히 대칭적인 양방향 가중치를 사용한다. 볼츠만의 열역학을 따르면 개별 확률이 거시적 에너지를 발생시킨다.

여러 개의 RBM을 사용하여 계층적 은닉 특징을 인코딩한다. 단일 RBM이 학습된 후, 또 다른 파란색 은닉 계층(왼쪽 RBM 참조)이 추가되고, 상위 2개 계층이 빨간색 및 파란색 RBM으로 학습된다. 따라서 RBM의 중간 계층은 학습 단계에 따라 은닉 또는 가시 계층으로 작용한다.

적층 볼츠만 머신의 양방향 대칭 연결 대신, 루프를 형성하기 위해 별도의 단방향 연결을 사용한다. 생성과 판별을 모두 수행한다.

입력 세계의 좋은 중간 계층 표현을 찾는 것을 목표로 하는 순전파 네트워크. 이 네트워크는 결정적이므로 후속 네트워크인 VAE만큼 강력하지 않다.

오토인코더에 변이 추론을 적용한다. 중간 계층은 가우스 분포의 평균 및 분산 집합이다. 확률적 특성으로 인해 결정적 오토인코더보다 더 강력한 상상력을 허용한다.

사람 이름을 딴 네트워크 중에서는 홉필드만이 직접 신경망과 함께 작업했다. 볼츠만과 헬름홀츠는 인공 신경망 이전에 활동했지만, 그들의 물리학 및 생리학 연구는 사용된 분석 방법에 영감을 주었다.

다음은 주요 네트워크의 특징이다.

* 홉필드 네트워크

강자성에 영감을 받은 네트워크이다. 뉴런은 이진 자기 모멘트 위(Up)와 아래(Down)를 갖는 철 영역에 해당하고, 신경 연결은 영역 간의 상호 영향에 해당한다. 대칭 연결은 전역 에너지 공식화를 가능하게 한다. 추론 중에는 네트워크가 표준 활성화 단계 함수를 사용하여 각 상태를 업데이트한다. 대칭 가중치와 올바른 에너지 함수는 안정적인 활성화 패턴으로의 수렴을 보장한다. 비대칭 가중치는 분석하기 어렵다. 홉필드 네트워크는 내용 주소 지정 메모리(CAM)로 사용된다.

* 볼츠만 머신

확률적인 홉필드 네트워크이다. 상태 값은 pdf에서 샘플링된다. 이진 뉴런이 베르누이 확률 p(1) = 1/3으로 발화하고 p(0) = 2/3으로 휴지 상태에 있을 때, 균일하게 분포된 난수 y를 취하고 역 누적 분포 함수에 대입하여 샘플링한다. 이 경우 역함수는 임계값이 2/3인 단계 함수이다.

* 심층 신념 네트워크

RBM과 시그모이드 신념 네트워크의 하이브리드이다. 상위 2계층은 RBM이고, 그 아래 계층은 시그모이드 신념 네트워크를 형성한다. 스택 RBM 방법으로 훈련한 다음 상위 RBM 아래의 인식 가중치를 버린다. 2009년 기준으로 3~4계층이 최적의 깊이로 보인다.

* 헬름홀츠 머신

VAE의 초기 영감이 되었다. 두 네트워크가 하나로 결합되어 전방 가중치는 인식을 수행하고 후방 가중치는 상상을 구현한다. 아마도 두 가지 작업을 모두 수행하는 최초의 네트워크일 것이다. 헬름홀츠는 기계 학습 분야에서 일하지 않았지만 "감각 입력의 가능성 있는 원인을 추론하는 기능을 하는 통계적 추론 엔진"이라는 관점에 영감을 주었다. 확률적 이진 뉴런은 상태가 0 또는 1일 확률을 출력한다. 데이터 입력은 일반적으로 계층으로 간주되지 않지만, 헬름홀츠 머신 생성 모드에서 데이터 계층은 중간 계층에서 입력을 받고 이를 위해 별도의 가중치를 가지므로 계층으로 간주된다. 따라서 이 네트워크는 3계층을 갖는다.

* 변분 오토인코더

헬름홀츠 머신에서 영감을 받았으며 확률 네트워크와 신경 네트워크를 결합한다. 오토인코더는 3계층 CAM 네트워크로, 중간 계층은 입력 패턴의 내부 표현으로 간주된다. 인코더 신경 네트워크는 확률 분포 q_φ(z given x)이고, 디코더 네트워크는 p_θ(x given z)이다. 가중치는 헬름홀츠에서와 같이 W와 V가 아닌 phi와 theta로 명명된다. 여기서 두 네트워크는 완전히 연결될 수도 있고 다른 NN 구성표를 사용할 수도 있다.

👆

좌우로 밀어서 보기

	홉필드 네트워크	볼츠만 머신	RBM	\| 헬름홀츠 머신	오토인코더	VAE
용도 및 주목할 만한 점	CAM, 외판원 문제	CAM. 연결의 자유도 때문에 분석하기 어렵다.	패턴 인식. MNIST 숫자와 음성에 사용됨.	인식 및 상상. 비지도 사전 훈련 및/또는 지도 미세 조정으로 훈련됨.	상상, 모방	언어: 창작 글쓰기, 번역. 비전: 흐릿한 이미지 향상	현실적인 데이터 생성
뉴런	결정적 이진 상태. 활성화 = { x가 음수이면 0(또는 -1), 그렇지 않으면 1}	확률적 이진 홉필드 뉴런	← 동일. (2000년대 중반 실수값으로 확장됨)	← 동일	← 동일	언어: LSTM. 비전: 국소 수용 영역. 일반적으로 실수값 ReLU 활성화 함수 사용.	중간 계층 뉴런은 가우스 분포의 평균과 분산을 인코딩한다. 실행 모드(추론)에서 중간 계층의 출력은 가우스 분포에서 샘플링된 값이다.
연결	대칭 가중치를 가진 1계층. 자기 연결 없음.	2계층. 1개의 은닉층과 1개의 가시층. 대칭 가중치.	← 동일. 계층 내 측면 연결 없음.	최상위 계층은 무향, 대칭적이다. 다른 계층은 양방향, 비대칭적이다.	3계층: 비대칭 가중치. 2개의 네트워크가 1개로 결합됨.	3계층. 입력은 들어오는 가중치가 없더라도 계층으로 간주된다. NLP를 위한 순환 계층. 비전을 위한 피드포워드 합성곱. 입력과 출력은 뉴런 수가 같다.	3계층: 입력, 인코더, 분포 샘플러 디코더. 샘플러는 계층으로 간주되지 않는다.
추론 및 에너지	에너지는 기브스 확률 측도로 주어짐: $E = -\frac12\sum_{i,j}{w_{ij}{s_i}{s_j}}+\sum_i{\theta_i}{s_i}$	← 동일	← 동일		KL 발산 최소화	추론은 피드포워드만 수행된다. 이전 비지도 학습 네트워크는 앞뒤로 실행되었다.	오류 = 재구성 오류 - KLD 최소화
훈련	Δw_ij = s_i*s_j, +1/-1 뉴런의 경우	Δw_ij = e*(p_ij - p'_ij). 이것은 KLD 최소화에서 유도된다. e = 학습률, p' = 예측 분포, p = 실제 분포.	Δw_ij = e*( < v_i h_j >_data - < v_i h_j >_equilibrium ). 이것은 기브스 샘플링을 사용한 대조적 발산의 한 형태이다. "<>"는 기대값이다.	← 유사. 한 번에 1계층씩 훈련. 3구간 패스로 평형 상태를 근사. 역전파 없음.	깨어있는-잠자는 2단계 훈련	재구성 오류 역전파	역전파를 위한 은닉 상태 재매개변수화
강점	물리 시스템과 유사하므로 방정식을 상속받음	← 동일. 은닉 뉴런은 외부 세계의 내부 표현으로 작용한다.	볼츠만 머신보다 빠르고 실용적인 훈련 방식	빠르게 훈련된다. 계층적인 특징 계층을 제공한다.	약간 해부학적이다. 정보 이론과 통계 역학으로 분석 가능
약점		측면 연결로 인해 훈련하기 어렵다.	평형 상태에 도달하려면 너무 많은 반복이 필요하다.	정수 및 실수값 뉴런이 더 복잡하다.

5. 헵 학습, ART, SOM

도널드 헵(Donald Hebb)의 원리는 "함께 활성화되는 뉴런은 서로 연결된다"는 것이다. 헵 학습(Hebbian learning)에서 연결은 오류와 무관하게 강화되지만, 두 뉴런 사이의 활동 전위의 일치에만 의존한다. 시냅스 가중치를 수정하는 유사한 버전은 활동 전위 사이의 시간을 고려한다(시냅스 시간 의존 가소성 또는 STDP). 헵 학습은 패턴 인식 및 경험적 학습과 같은 다양한 인지 기능의 기초가 된다고 가정되어 왔다.

신경망 모델 중에서 자기조직화지도(SOM)와 적응 공명 이론(ART)은 비지도 학습 알고리즘에서 일반적으로 사용된다. SOM은 지도의 인접한 위치가 유사한 특성을 가진 입력을 나타내는 지형 조직이다. ART 모델은 문제 크기에 따라 클러스터의 수를 다르게 하고, 사용자가 정의한 상수인 각성 매개변수를 통해 동일한 클러스터의 구성원 간 유사성 정도를 제어할 수 있게 한다. ART 네트워크는 자동 표적 인식(automatic target recognition) 및 지진 신호 처리와 같은 많은 패턴 인식 작업에 사용된다.

6. 확률적 방법

주성분 분석과 군집 분석은 주요 비지도 학습 방법이다. 군집 분석은 공통 속성을 가진 데이터 세트를 그룹화하여 알고리즘적 관계를 추론한다. 군집 분석은 레이블이 지정되지 않은 데이터를 그룹화하며, 데이터의 공통점을 식별하고 새로운 데이터에 이러한 공통점의 존재 여부에 따라 반응하여 이상 데이터 지점을 감지하는 데 도움을 준다.

비지도 학습의 중심적인 응용 분야는 통계학의 밀도 추정이다. 커널 밀도 추정 등 통계학에서 다양한 비모수적 밀도 추정 방법이 알려져 있다. 그러나 입력 데이터( $\mathbf{x}$ )의 차원이 높은 경우 차원의 저주 때문에 이러한 추정은 잘 되지 않으며, 따라서 많은 비지도 학습에서는 확률 분포( $p(\mathbf{x})$ )의 모수적 모델로 $p(\mathbf{x})$ 를 근사하거나, 훈련 데이터에서 $p(\mathbf{x})$ 의 중요한 특성을 추출하는 접근 방식이 취해진다.