변분 베이즈 방법은 주어진 데이터에 대한 관측되지 않은 변수의 사후 분포를 변분 분포로 근사하여 추론하는 데 사용되는 기술이다. 이 방법은 쿨백-라이블러 발산을 최소화하여 변분 분포를 구하며, 증거 하한(ELBO)을 최대화하여 이를 달성한다. 평균장 근사를 통해 변분 분포를 인수분해하고 반복 알고리즘을 적용하여 각 인자에 대한 최적 분포를 도출한다. 변분 베이즈는 지수족 분포에 대한 일반적인 결과를 가지며, 기대값 최대화(EM) 알고리즘과 비교하여 매개변수와 잠재 변수의 사후 분포를 추정하는 차이점을 보인다.
더 읽어볼만한 페이지
베이즈 통계학 - 주관주의 주관주의는 현실이 인식에 의존한다는 철학적 입장으로, 형이상학에서는 궁극적 실재가 인식에 달려있다고 보며, 윤리학에서는 윤리적 판단이 개인의 태도에 따라 달라진다고 보고, 확률론에서는 확률을 개인의 신념으로 해석한다.
베이즈 통계학 - 사후 확률 사후 확률은 베이즈 통계학에서 증거가 주어졌을 때 모수의 확률을 나타내며, 베이즈 정리를 통해 계산하고, 사전 확률을 갱신하여 사후 확률 분포를 얻는 데 활용된다.
는 사전 분포의 하이퍼파라미터와 잠재 변수의 기댓값 및 모멘트의 함수로 단순화될 수 있다. 이는 잠재 변수의 기댓값을 초기화하고, 각 분포의 매개변수를 계산한 후, 기댓값을 다시 설정하는 반복 알고리즘을 통해 해결할 수 있다. 이 알고리즘은 수렴이 보장된다.[5]
2. 1. 문제 정의
변분법 추론에서, 주어진 데이터 에 대한 관측되지 않은 변수 집합 에 대한 사후 분포는 '''변분 분포''' 에 의해 근사된다.
:
분포 는 보다 더 간단한 형태의 분포 집합(예: 가우시안 분포 집합)에 속하도록 제한되며, 를 실제 사후 분포인 와 유사하게 만들려는 의도로 선택된다.
유사성(또는 비유사성)은 비유사성 함수 로 측정되므로, 추론은 를 최소화하는 분포 를 선택하여 수행된다.
2. 2. KL 발산
변분법 추론에서, 주어진 데이터 에 대한 관측되지 않은 변수 집합 에 대한 사후 분포는 '''변분 분포''' 에 의해 근사된다.
:
분포 는 보다 더 간단한 형태의 분포 집합(예: 가우시안 분포 집합)에 속하도록 제한되며, 를 실제 사후 분포인 와 유사하게 만들려는 의도로 선택된다.
유사성(또는 비유사성)은 비유사성 함수 로 측정되므로, 추론은 를 최소화하는 분포 를 선택하여 수행된다.
변분 베이즈의 가장 일반적인 유형은 불일치 함수 선택으로 ''P''에 대한 ''Q''의 쿨백-라이블러 발산 (KL 발산)을 사용한다. 이러한 선택은 이 최소화를 다루기 쉽게 만든다. KL 발산은 다음과 같이 정의된다.
:
''Q''와 ''P''가 예상과 반대로 되어 있음에 유의한다. 이처럼 반대 방향의 KL 발산을 사용하는 것은 기대값-최대화 알고리즘과 개념적으로 유사하다. (반대 방향으로 KL 발산을 사용하면 기대 전파 알고리즘이 생성된다.)
2. 3. 증거 하한 (ELBO)
변분 베이즈 방법에서 증거 하한(Evidence Lower Bound, ELBO)은 중요한 개념이다. ELBO는 데이터의 로그 증거(log evidence)에 대한 하한을 나타내며, 변분 추론에서 핵심적인 역할을 한다.
변분 베이즈의 일반적인 형태는 ''P''에 대한 ''Q''의 쿨백-라이블러 발산(KL 발산)을 최소화하는 것이다. KL 발산은 다음과 같이 정의된다.
:
여기서 ''Q''와 ''P''의 위치가 일반적인 KL 발산과 반대임에 유의해야 한다. 이러한 반대 방향의 KL 발산 사용은 기대값-최대화 알고리즘과 유사하다.
관계식을 이용하면, 위의 KL-발산은 다음과 같이 다시 쓸 수 있다.
:
는 에 대해 상수이고, (''Q(Z)''는 분포)이므로, 다음을 얻는다.
:
이를 재정렬하면 다음과 같이 된다.
:
로그 증거 는 에 대해 고정되어 있으므로, 마지막 항 를 최대화하면 와 의 KL 발산을 최소화하게 된다. 를 적절하게 선택하면, 를 계산하고 최대화하는 것이 쉬워진다. 결과적으로, 사후 분포 에 대한 근사 와 로그 증거 에 대한 하한 를 모두 얻을 수 있다. (KL 발산은 항상 0보다 크거나 같기 때문이다.)
이 하한 는 (음의) '''변분 자유 에너지'''라고도 불리며, 음의 에너지 에 의 엔트로피를 더한 것으로 표현할 수 있다. 는 데이터의 로그 증거에 대한 하한(최악의 경우)임을 강조하기 위해 '''증거 하한(ELBO)'''이라고도 하며, '''ELBO'''로 줄여 쓰기도 한다.
브레그만 발산의 일반화된 피타고라스 정리에 의해, 다음이 성립한다.[1][2]
:
여기서 는 볼록 집합이고, 등식은 일 때 성립한다.
이 경우, 전역 최소화자 는 다음과 같이 구할 수 있다.[1]
:
여기서 정규화 상수는 다음과 같다.
:
는 '''증거 하한(ELBO)'''이라고도 불리는데, 이기 때문이다.[1]
와 의 역할을 바꾸어 가며, 참 모델의 주변 확률 및 에 대한 근사 및 를 반복적으로 계산할 수 있다. 이 반복 방식은 단조롭게 수렴하지만,[1] 수렴된 는 의 국소 최소화자일 수 있다.
만약 제약된 공간 가 독립 공간으로 한정되면, 즉 이면, 위의 반복 방식은 평균장 근사 가 된다.
2. 4. 평균장 근사
변분 분포 는 일반적으로 잠재 변수의 일부 분할에 대해 인수분해된다고 가정한다. 즉, 잠재 변수 를 으로 분할하는 경우, 다음이 성립한다.
:
변분법을 사용하여 (따라서 "변분 베이즈"라는 이름이 붙었다) 각 인자 에 대한 "최적" 분포 (위에 설명된 KL 발산을 최소화하는 분포)는 다음을 만족한다.[3]
:
여기서 는 분할에 없는 모든 변수에 대해 에 대해 계산된 데이터와 잠재 변수의 결합 확률의 로그의 기댓값이다. 분포 의 유도는[4]의 Lemma 4.1을 참조하면 된다.
실제로 우리는 일반적으로 로그를 사용하여 작업한다. 즉, 다음이 성립한다.
:
위 식의 상수는 정규화 상수(에 대한 위의 식에서 분모)와 관련이 있으며, 일반적으로 나머지가 알려진 유형의 분포(예: 정규 분포, 감마 분포 등)로 인식될 수 있으므로 육안으로 복원된다.
기댓값의 속성을 사용하여 식 는 일반적으로 잠재 변수에 대한 사전 분포의 고정된 하이퍼파라미터와 현재 분할에 없는 잠재 변수(즉, 에 포함되지 않은 잠재 변수)의 기댓값(및 때로는 더 높은 모멘트인 분산)의 함수로 단순화될 수 있다. 이렇게 하면 한 분할의 변수 분포 매개변수와 다른 분할의 변수 기댓값 사이에 순환 종속성이 생성된다. 이는 EM(기댓값-최대화 알고리즘)과 매우 유사한 반복 알고리즘을 자연스럽게 제안한다. 여기서 잠재 변수의 기댓값(및 가능하면 더 높은 모멘트)은 어떤 방식(아마도 임의로)으로 초기화된 다음, 각 분포의 매개변수는 기댓값의 현재 값을 사용하여 차례로 계산되고, 그 후 새로 계산된 분포의 기댓값은 계산된 매개변수에 따라 적절하게 설정된다. 이러한 종류의 알고리즘은 수렴이 보장된다.[5]
즉, 변수의 각 분할에 대해 분할 변수에 대한 분포의 식을 단순화하고 해당 변수에 대한 분포의 함수적 종속성을 검사함으로써 분포의 family를 일반적으로 결정할 수 있다(결과적으로 상수의 값을 결정한다). 분포 매개변수에 대한 공식은 사전 분포의 하이퍼파라미터(알려진 상수)의 측면으로 표현되지만, 다른 분할의 변수 함수에 대한 기댓값 측면에서도 표현된다. 일반적으로 이러한 기댓값은 변수 자체의 기댓값(즉, 평균)의 함수로 단순화될 수 있다. 때로는 제곱 변수(변수의 분산)의 기댓값 또는 더 높은 거듭제곱의 기댓값(즉, 더 높은 모멘트)도 나타난다. 대부분의 경우 다른 변수의 분포는 알려진 family에서 가져오며 관련 기댓값에 대한 공식은 찾아볼 수 있다. 그러나 이러한 공식은 다른 변수에 대한 기댓값에 차례로 의존하는 해당 분포의 매개변수에 따라 달라진다. 그 결과 각 변수의 분포에 대한 매개변수에 대한 공식은 변수 간의 상호 비선형 종속성이 있는 일련의 방정식으로 표현될 수 있다. 일반적으로 이 방정식 시스템을 직접 풀 수는 없다. 그러나 위에 설명된 것처럼 종속성은 간단한 반복 알고리즘을 제안하며, 대부분의 경우 수렴이 보장된다.
3. 평균장 이론
변분 분포 는 일반적으로 잠재 변수의 일부 분할에 대해 인수분해된다고 가정한다. 즉, 잠재 변수 를 으로 분할하는 경우, 다음과 같이 표현할 수 있다.
여기서 는 분할에 없는 모든 변수에 대해 에 대해 계산된 데이터와 잠재 변수의 결합 확률의 로그의 기댓값이다. 분포 의 유도는[4]의 Lemma 4.1을 참조하면 된다.
실제로 로그를 사용하면 다음과 같다.
:
위 식의 상수는 정규화 상수와 관련이 있으며, 일반적으로 나머지가 알려진 유형의 분포(예: 정규 분포, 감마 분포 등)로 인식될 수 있으므로 육안으로 복원할 수 있다.
기댓값의 속성을 사용하여 식 는 잠재 변수에 대한 사전 분포의 고정된 하이퍼파라미터와 현재 분할에 없는 잠재 변수의 기댓값 및 분산과 같은 모멘트의 함수로 단순화될 수 있다.
이렇게 하면 한 분할의 변수 분포 매개변수와 다른 분할의 변수 기댓값 사이에 순환 종속성이 생성된다. 이는 기댓값-최대화 알고리즘(EM)과 매우 유사한 반복 알고리즘을 자연스럽게 제안한다. 잠재 변수의 기댓값은 임의로 초기화된 다음, 각 분포의 매개변수는 기댓값의 현재 값을 사용하여 차례로 계산되고, 그 후 새로 계산된 분포의 기댓값은 계산된 매개변수에 따라 적절하게 설정된다. 이러한 알고리즘은 수렴이 보장된다.[5]
즉, 변수의 각 분할에 대해, 분할 변수에 대한 분포의 식을 단순화하고 해당 변수에 대한 분포의 함수적 종속성을 검사함으로써 분포의 family를 결정할 수 있다. 분포 매개변수에 대한 공식은 사전 분포의 하이퍼파라미터(알려진 상수)와 다른 분할의 변수 함수에 대한 기댓값으로 표현된다. 일반적으로 이러한 기댓값은 변수 자체의 기댓값(즉, 평균)의 함수로 단순화될 수 있다. 때로는 제곱 변수(변수의 분산)의 기댓값 또는 더 높은 거듭제곱의 기댓값(즉, 더 높은 모멘트)도 나타난다.
대부분의 경우 다른 변수의 분포는 알려진 family에서 가져오며 관련 기댓값에 대한 공식은 찾아볼 수 있다. 그러나 이러한 공식은 다른 변수에 대한 기댓값에 차례로 의존하는 해당 분포의 매개변수에 따라 달라진다. 그 결과 각 변수의 분포에 대한 매개변수에 대한 공식은 변수 간의 상호 비선형 종속성이 있는 일련의 방정식으로 표현될 수 있다. 일반적으로 이 방정식 시스템을 직접 풀 수는 없지만, 종속성은 간단한 반복 알고리즘을 제안하며, 대부분의 경우 수렴이 보장된다.
4. 기본 예제
평균과 분산이 알려지지 않은, 정규 분포에서 i.i.d. 관측값들의 집합으로 구성된 단일 수준의 간단한 베이즈 모형을 가정하고, 이 모형을 통해 변분 베이즈 방법의 작동 방식을 살펴본다.[6]
수학적 편의를 위해 분산 대신 정밀도 (분산의 역수, 다변량 정규 분포의 경우 공분산 행렬의 역수)를 사용한다. 정밀도와 분산은 이론적으로 일대일 대응 관계이므로 동등하다.
4. 1. 수학적 모델
단일 수준의 간단한 베이즈 모형을 생각해 보자. 이 모형은 정규 분포에서 i.i.d. 관측값들의 집합으로 구성되며, 평균과 분산은 알려지지 않았다.[6] 다음은 변분 베이즈 방법의 작동 방식을 설명하기 위해 이 모형을 자세히 살펴본다.
수학적 편의를 위해, 다음 예에서는 분산 자체가 아닌 정밀도 — 즉, 분산의 역수 (또는 다변량 정규 분포의 경우, 공분산 행렬의 역수) —를 사용한다. (이론적인 관점에서 볼 때, 정밀도와 분산은 두 값 사이에 일대일 대응이 있으므로 동등하다.)
알려지지 않은 평균 와 정밀도 에 켤레 사전 분포를 배치한다. 즉, 평균은 가우시안 분포를 따르고 정밀도는 감마 분포를 따른다.
:
사전 분포의 초모수 및 는 고정된 값이다. 이 값은 와 의 사전 분포에 대한 무지를 나타내는 광범위한 사전 분포를 제공하기 위해 작은 양수로 설정할 수 있다.
개의 데이터 포인트 가 주어지며 우리의 목표는 매개변수 와 의 사후 분포 를 추론하는 것이다.
4. 2. 결합 확률
알려지지 않은 평균 와 정밀도 에 켤레 사전 분포를 사용한다. 즉, 평균은 가우시안 분포를 따르고 정밀도는 감마 분포를 따른다.
:
사전 분포의 초모수 및 는 고정된 값이다. 이 값은 와 의 사전 분포에 대한 무지를 나타내는 광범위한 사전 분포를 제공하기 위해 작은 양수로 설정할 수 있다.
개의 데이터 포인트 가 주어졌을 때, 목표는 매개변수 와 의 사후 분포 를 추론하는 것이다. 모든 변수의 결합 확률은 다음과 같이 다시 쓸 수 있다.
:
개별 요인은 다음과 같다.
:
여기서
:
4. 3. 인수분해 근사
사후 분포(Posterior distribution)가 와 에 대한 독립적인 인자로 분해된다고 가정한다. 즉, 라고 가정한다. 이러한 종류의 가정은 변분 베이즈 방법의 기초가 된다. 실제 사후 분포는 실제로 이러한 방식으로 분해되지 않으며 (사실, 이 간단한 경우, 그것은 가우시안-감마 분포인 것으로 알려져 있다), 따라서 우리가 얻는 결과는 근사치이다.
4. 4. q(μ)의 도출
는 에 대한 2차 다항식으로 표현된다. 이는 자체가 가우시안 분포를 따른다는 것을 의미한다.
:
위 식에서 괄호 안의 제곱을 전개하고, 및 와 관련된 항을 분리 및 그룹화한 후, 에 대해 제곱 완성을 수행하면 가우시안 분포의 매개변수를 도출할 수 있다. 위의 모든 단계는 두 이차식의 합 공식을 이용해 간략하게 나타낼 수 있다.
그 후, ${\displaystyle \lambda _{N}}$을 임의의 값으로 초기화하고, 다음 단계들을 반복하여 ${\displaystyle b_{N}}$과 ${\displaystyle \lambda _{N}}$을 계산한다.
1. ${\displaystyle \lambda _{N}}$의 현재 값을 사용하여 ${\displaystyle b_{N}}$을 계산한다.
:
2. ${\displaystyle b_{N}}$의 현재 값을 사용하여 ${\displaystyle \lambda _{N}}$을 계산한다.
:
3. 위의 두 단계, 즉, ${\displaystyle b_{N}}$과 ${\displaystyle \lambda _{N}}$의 계산을 수렴할 때까지 반복한다. 수렴 조건은 어떤 값도 작은 양 이상으로 변경되지 않는 것이다.
이 과정을 통해 사후 매개변수를 근사하는 분포의 하이퍼 매개변수 값을 얻을 수 있으며, 이를 통해 사후 분포의 평균, 분산, 95% 최고 밀도 영역 등을 계산할 수 있다.
이 알고리즘은 지역 최댓값으로 수렴하는 것이 보장된다.
또한, 사후 분포가 사전 분포와 동일한 형태를 갖는다는 점은 주목할 만하다. 이는 변분 베이즈 방법에서 분포가 인수분해된다는 가정에서 자연스럽게 유도되는 결과이다. 사전 분포가 지수족의 구성원일 때, 사후 분포가 사전 분포와 동일한 형식을 갖는 것은 일반적인 현상이다.
5. 심화 예제
판 표기법을 사용한 베이즈 가우시안 혼합 모델에 대한 심화 예제를 살펴보자.[3]
판 표기법을 사용한 베이즈 가우시안 혼합 모델. 작은 사각형은 고정된 매개변수를 나타내고, 더 큰 원은 임의 변수를 나타낸다. 채워진 모양은 알려진 값을 나타냅니다. [K] 표시는 크기 ''K''의 벡터를 의미하고, [''D'',''D'']는 크기 ''D''×''D''의 행렬을 의미하며, ''K''만으로는 ''K''개의 결과를 가진 범주형 변수를 의미한다. ''z''에서 시작하여 가로대로 끝나는 물결선은 ''스위치''를 나타낸다. 즉, 이 변수의 값은 다른 들어오는 변수에 대해 가능한 값의 크기 ''K'' 배열에서 사용할 값을 선택한다.
이 모델은 다음과 같이 표현된다.
:
여기서 사용된 기호는 다음과 같다:
SymDir()는 각 구성 요소에 대한 하이퍼파라미터가 로 설정된 차원 의 대칭 디리클레 분포이다. 디리클레 분포는 범주형 분포 또는 다항 분포의 켤레사전분포이다.
이전 예에서 관찰되지 않은 변수에 대한 분포가 "매개변수"에 대한 분포와 "잠재 데이터"에 대한 분포로 인수분해된다고 가정하면, 각 변수에 대해 유도된 "최적" 분포는 해당 변수에 대한 해당 사전 분포와 동일한 패밀리에 속한다는 점에 유의해야 한다. 이는 지수족 분포에서 파생된 모든 사전 분포에 대해 참인 일반적인 결과이다.
7. 다른 방법과의 비교
변분 베이즈(VB) 방법은 기대값 최대화(EM) 알고리즘과 유사하게 최적의 매개변수 값을 찾기 위해 반복적인 절차를 사용한다. 하지만 두 방법은 계산하는 대상에서 중요한 차이점을 보인다. EM 알고리즘은 확률 변수의 사후 분포에 대한 점 추정치를 계산하는 반면, VB는 매개변수와 잠재 변수를 모두 포함한 모든 변수의 실제 사후 분포에 대한 추정치를 계산한다. VB에서 점 추정치가 필요한 경우, 최빈값보다는 평균이 일반적으로 사용된다.[1]
7. 1. 기대값 최대화(EM) 알고리즘과의 비교
기대값 최대화(EM) 알고리즘과 변분 베이즈(VB) 방법은 모두 최적의 매개변수 값을 찾기 위해 반복적인 절차를 사용한다는 점에서 유사하다. 두 방법 모두 확률 밀도에 대한 공식에서 시작하여 상당한 수학적 계산을 포함한다.
그러나 두 방법은 계산하는 대상에서 중요한 차이점을 보인다.
EM 알고리즘: 확률 변수의 사후 분포에 대한 점 추정치를 계산한다. 잠재 변수의 사후 분포에 대한 추정치만 계산하며(소프트 EM의 경우, 잠재 변수가 이산적인 경우에만), 계산된 점 추정치는 이러한 매개변수의 최빈값이다.
변분 베이즈(VB): 매개변수와 잠재 변수 모두를 포함한 모든 변수의 실제 사후 분포에 대한 추정치를 계산한다. 점 추정치가 필요한 경우, 평균이 최빈값보다 일반적으로 사용된다. VB에서 계산된 매개변수는 EM의 매개변수와 동일한 의미를 갖지 ''않는다''. VB는 베이즈 네트워크의 매개변수와 잠재 변수를 근사하는 데 사용되는 분포의 매개변수의 최적 값을 계산한다.
예를 들어, 가우스 혼합 모델에서 EM은 각 혼합 성분의 평균과 분산에 대한 최적 값을 직접 추정한다. 반면 VB는 먼저 이러한 매개변수에 분포(일반적으로 사전 분포 형태, 예: 정규 스케일 역 감마 분포)를 맞춘 다음, 이 사전 분포의 매개변수(하이퍼파라미터)에 대한 값을 계산한다. 즉, VB는 구성 요소의 평균과 분산의 결합 분포를 설명하는 정규 스케일 역 감마 분포의 네 가지 매개변수에 대한 최적 추정치를 계산한다.[1]
참조
[1]
arXiv
Copula Variational Bayes inference via information geometry
[2]
학술지
The Information Geometry of Bregman Divergences and Some Applications in Multi-Expert Reasoning
2014
[3]
웹사이트
AN IN DEPTH INTRODUCTION TO VARIATIONAL BAYES NOTE
https://papers.ssrn.[...]
2023-08-15
[4]
학술지
Gibbs sampler and coordinate ascent variational inference: A set-theoretical review
[5]
서적
Convex Optimization
https://web.stanford[...]
Cambridge University Press
2011-10-15
[6]
서적
Pattern Recognition and Machine Learning
Springer
[7]
간행물
Infinite Markov-Switching Maximum Entropy Discrimination Machines
http://proceedings.m[...]
Proc. 30th International Conference on Machine Learning (ICML). Journal of Machine Learning Research: Workshop and Conference Proceedings
2013-06
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.