혼합 모델
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
혼합 모델은 여러 확률 분포를 결합하여 데이터를 모델링하는 통계적 기법이다. 지도 학습과 비지도 학습, 클러스터링, EM 알고리즘 등 다양한 배경과 구조를 가지며, 가우시안 혼합 모델, 다변량 가우스 혼합 모델, 다항 혼합 모델 등 여러 유형이 존재한다. 혼합 모델의 식별성은 모델의 고유한 특성을 의미하며, EM 알고리즘, 마르코프 체인 몬테 카를로 방법, 적률법, 스펙트럼 방법, 그래픽 방법 등 다양한 매개변수 추정 및 시스템 확인 방법이 사용된다. 혼합 모델은 금융 모델, 주택 가격, 퍼지 영상 분할, 문서 주제 분석, 필기 인식, 발사체 정확도 평가, 예측 정비 등 다양한 분야에 응용된다. 베이즈 추론 환경에서의 확장과 은닉 마르코프 모델로의 연결도 가능하다. 혼합 모델 연구는 칼 피어슨의 1894년 연구를 시작으로 다양한 분야에서 활발하게 진행되어 왔다.
더 읽어볼만한 페이지
- 클러스터 분석 - 잠재 공간
잠재 공간은 데이터 항목 집합과 유사성 함수를 활용하여 데이터 특징을 저차원 공간에 표현하는 임베딩 모델을 통해 생성되는 공간으로, 다양한 모델과 기법을 통해 학습되며 여러 분야에 응용된다. - 클러스터 분석 - 덴드로그램
덴드로그램은 데이터 분석에서 데이터 포인트 간 계층적 관계를 시각적으로 표현하는 나무 형태의 다이어그램으로, 군집 분석에서 클러스터 간 유사성을 나타내기 위해 활용되며 다양한 분야에 응용된다. - 잠재 변수 모형 - 잠재 의미 분석
잠재 의미 분석은 텍스트 데이터의 의미 구조를 파악하기 위해 문서-단어 행렬에 특이값 분해를 적용하여 차원을 축소하고 잠재된 의미를 추출하는 정보 검색 기술이다. - 잠재 변수 모형 - 토픽 모델
토픽 모델은 텍스트 데이터에서 문서의 주제를 찾기 위해 사용되는 통계적 모델링 방법으로, 잠재 의미 분석(LSI)에서 잠재 디리클레 할당(LDA)까지 다양한 모델이 개발되어 텍스트 데이터 분석 외 여러 분야에 응용되며, Mallet, Gensim 등의 도구로 사용 가능하다. - 확률론 - 확률 밀도 함수
확률 밀도 함수는 연속 확률 변수의 확률 분포를 나타내는 함수로, 특정 구간에서 확률 변수가 값을 가질 확률은 해당 구간에 대한 함수의 적분으로 계산되며, 통계적 특성 계산 및 변수 변환 등에 활용되어 불확실성 모델링 및 분석에 중요한 역할을 한다. - 확률론 - 체비쇼프 부등식
체비쇼프 부등식은 확률 변수가 평균에서 얼마나 멀리 떨어져 있는지에 대한 확률의 상한을 제공하는 부등식으로, 이레네-쥘 비네메가 처음 공식화하고 체비쇼프와 안드레이 마르코프에 의해 일반화 및 증명되었으며, 확률론적 표현 외에도 측도 공간에 대한 명제로 확장될 수 있다.
| 혼합 모델 |
|---|
2. 혼합 모델의 배경
혼합 모델은 혼합 밀도, 혼합 (확률) 등과 관련이 있다. 유연 혼합 모델(FMM), 부분 공간 가우시안 혼합 모델, 기리 모나드 등의 개념도 참고할 수 있다.
2. 1. 지도 학습과 비지도 학습
2. 1. 1. 지도 학습(Supervised Learning)
관측된 자료가 특징 벡터 x 와 관측 값이 속해있는 클래스 ω 로 이루어진 변수 쌍 {x, ω}으로 구성될 경우의 학습은 특징벡터와 정확한 답이 주어졌기 때문에 교사/감독/지도(supervised: 교사와 함께 훈련한/교사가 지도한) 학습이라고 한다.2. 1. 2. 비지도 학습(Unsupervised Learning)
클래스 라벨 ω 가 주어지지 않고 특징 벡터 x={x1, x2,...,xN } 만으로 이루어진 데이터 집합이 주어질 경우의 학습은 정확한 답은 제공 받지 못하므로 비교사/무감독/비지도 (unsupervised: 교사 없이 훈련한) 학습이라고 한다.2. 2. 클러스터 구분의 최적화 규준
클러스터링을 통해 데이터들을 클래스로 분류하면 오차가 발생한다. 클래스의 중심이 되는 값(클래스 내에 가장 밀도가 높은 지점)과 그 클래스로 분류된 데이터 간의 차가 최소가 되도록 하는 것이 최적화 과정이다.이 때 특징 벡터 x의 개수(N)는 항상 클래스의 개수(K)보다 훨씬 많고 서로 관계는 대부분 비선형이므로 직접적으로 최적의 값을 찾는 것은 불가능하다. 따라서 반복적인 최적화 과정을 통해 오차를 최소화 할 수 있다.
군집화에서 고려해야 하는 중요한 문제점은 다음과 같다.[25]
1) 최적의 클래스(확률분포모델) 개수는 몇 개인가?(K의 개수 결정)
2) 주어진 데이터에서 가장 근접한 클래스(확률분포모델)는 무엇인가?(클러스터링 과정)
3) 오차가 가장 최소가 되는 클래스(확률분포모델)는 무엇인가?(클래스 특징을 변화)
위의 3가지 문제를 고려하여 클래스 구성과 최적화 과정을 EM 알고리즘을 통하여 진행한다.

2. 2. 1. 군집화에서 고려해야 하는 중요한 문제점
군집화에서 고려해야 하는 중요한 문제점은 다음과 같다.[25]1) 최적의 클래스(확률분포모델) 개수는 몇 개 인가?(K의 개수 결정)
2) 주어진 데이터에서 가장 근접한 클래스(확률분포모델)는 무엇인가?(클러스터링 과정)
3) 오차가 가장 최소가 되는 클래스(확률분포모델)는 무엇인가?(클래스 특징을 변화)
위의 3가지 문제를 고려하여 클래스 구성과 최적화 과정을 EM 알고리즘을 통하여 진행한다.
3. 혼합 모델의 구조
3. 1. 일반적인 혼합 모델
일반적인 유한 차원의 혼합 모델은 계층적 모델이며, 다음과 같은 구성 요소로 이루어진다.- ''N''개의 관측된 확률 변수. 각 변수는 ''K''개의 성분 혼합에 따라 분포하며, 성분들은 동일한 모수적 모형 분포(예: 모두 정규 분포, 모두 지프 분포 등)를 따르지만, 서로 다른 매개변수를 가진다.
- 각 관측값의 혼합 성분을 지정하는 ''N''개의 임의의 잠재 변수로, 각 변수는 ''K''차원 범주형 분포를 따른다.
- 1로 합산되는 확률인 ''K''개의 혼합 가중치 집합.
- 각각 해당 혼합 성분의 매개변수를 지정하는 ''K''개의 매개변수 집합. 예를 들어, 혼합 성분이 가우시안 분포인 경우 각 성분에 대한 평균과 분산이 있다. 혼합 성분이 범주형 분포인 경우(예: 각 관측값이 크기가 ''V''인 유한 알파벳의 토큰인 경우) 1로 합산되는 ''V''개의 확률 벡터가 있다.
베이즈 설정에서 혼합 가중치와 매개변수 자체는 임의의 변수가 되며, 변수에 대한 사전 분포가 적용된다. 이러한 경우 가중치는 일반적으로 디리클레 분포에서 추출된 ''K''차원 임의 벡터로 간주됩니다(범주형 분포의 켤레 사전 분포). 매개변수는 해당 켤레 사전 분포에 따라 분포된다.
수학적으로, 기본적인 모수적 혼합 모델은 다음과 같이 설명할 수 있다.
:
베이즈 설정에서 모든 매개변수는 다음과 같이 임의의 변수와 관련된다.
:
이 특성은 각각 관측값과 매개변수에 대한 임의의 분포를 설명하기 위해 ''F''와 ''H''를 사용한다. 일반적으로 ''H''는 ''F''의 켤레 사전 분포가 된다. ''F''의 가장 일반적인 두 가지 선택은 가우시안 (aka "정규") (실수 값 관측값의 경우) 및 범주형 (이산 관측값의 경우)이다.

혼합 성분의 분포에 대한 다른 일반적인 가능성은 다음과 같다.[1]
- 이항 분포, 고정된 총 발생 횟수가 주어졌을 때 "긍정적 발생" (예: 성공, 찬성표 등)의 수에 대한 분포
- 다항 분포, 이항 분포와 유사하지만, 여러 가지 발생 횟수 (예: 설문 조사에서 예/아니오/모름)에 대한 분포
- 음이항 분포, 이항형 관측값에 대해 특정 성공 횟수가 발생하기 전의 실패 횟수가 관심 대상인 경우
- 푸아송 분포, 고정된 발생률로 특징지어지는 사건에 대해 주어진 시간 동안 사건 발생 횟수에 대한 분포
- 지수 분포, 고정된 발생률로 특징지어지는 사건에 대해 다음 사건이 발생하기까지의 시간에 대한 분포
- 로그 정규 분포, 소득 또는 가격과 같이 지수적으로 증가한다고 가정되는 양의 실수에 대한 분포
- 다변량 정규 분포 (aka 다변량 가우시안 분포), 개별적으로 가우시안 분포를 따르는 상관된 결과의 벡터에 대한 분포
- 다변량 스튜던트 ''t''-분포, 헤비 테일(heavy-tailed) 상관된 결과의 벡터에 대한 분포[1]
- 베르누이 분포 값을 가진 벡터 (예: 흑백 이미지)로, 각 값은 픽셀을 나타낸다.
3. 2. 구체적인 예
3. 2. 1. 가우스 혼합 모델 (Gaussian Mixture Model, GMM)

- 가우스 모델은 자연적인 현상을 표현하기에 좋은 모델이기 때문에, 많은 분야에서 가우스 모델이 사용될 수 있다.
- 두 개 이상의 봉우리를 가진 분포를 최소의 오류로 모델링하기 위해서는 여러 개의 가우시안 분포를 사용하는 가우스 혼합 모델을 사용해야한다.
- 가우스 혼합 모델의 매개변수를 찾아내는 과정은 "패턴인식,교보문고,2008,오일석"의 내용을 바탕으로 작성되었다.
- * 샘플의 집합이 으로 주어진다면, 주어진 X를 바탕으로 추정해야 할 매개변수는 다음과 같다.
- ** 가우시언의 개수
- ** k 번째 가우시언의 매개 변수
- ** k 번째 가우시언의 가중치
- * 최적화 대상이 되는 함수는 개의 가우시언 분포의 합으로 다음과 같이 나타낼 수 있다.
- **
- * 사용해야 하는 가우시언의 개수는 사용자가 미리 정해준다고 가정하면 나머지 매개변수를 추정하면 된다.(실제로 몇 개의 가우시언을 사용해야할지 자동으로 결정할 수는 있다.)
- ** 추정할 매개변수
- * 이들을 이용하여 다음과 같이 최대 우도 추정 문제로 발전시킬 수 있다.
- **
- **
- * 따라서 관찰된 X에 대해 이것을 발생시켰을 가능성이 가장 큰 매개 변수 집합 를 찾아 그것을 해로 취하는 것이 최종 문제이다.
- **
- * 이 최적화 문제는 두 가지 단계가 필요하다. 먼저 샘플이 어느 가우시언에 속하는 지를 추정하는 단계가 기대화(Expectation) 단계이다. 이 때 가우시언에 속하는 정도를 확률로 표현하는 연성 소속을 사용한다. E 단계를 마친 뒤 매개 변수 집합 를 추정하는 단계가 최대화(Maximization) 단계이다. 에는 두 가지 매개 변수가 있는데, 하나는 개의 와 이고, 다른 하나는 혼합 계수 벡터 이다. 따라서 와 를 먼저 계산한 후 를 계산한다.
- ** E 단계를 위해 필요한 가우시언에 속하는 정도에 대한 값의 식은 다음과 같다.(자세한 과정은 https://en.wikipedia.org/wiki/Expectation%E2%80%93maximization_algorithm EM 알고리즘 참고)
- ** , 샘플 가 관찰되었을 때 그것이 j번째 가우시언에서 발생했을 확률(사후확률)
- ** M 단계를 위해 필요한 매개 변수 값들의 식은 다음과 같다.(자세한 과정은 https://en.wikipedia.org/wiki/Expectation%E2%80%93maximization_algorithm EM 알고리즘 참고)
- ** ,
- **
- **
- * 이들 E와 M단계를 번갈아 가며 반복하다가 수렴 조건이 만족되면 멈춘다.
- 대표적인 비(非)베이지안 혼합모델은 다음과 같다.
:
- 위와 같음
- 위와 같음
- 위와 같음
- 구성 요소 i의 평균
- 구성 요소 i의 분산
베이지안 버전의 가우스 혼합 모델은 다음과 같다.
:
- 위와 같음
- 위와 같음
- 위와 같음
- 구성 요소 i의 평균
- 구성 요소 i의 분산
- 공유되는 하이퍼 매개변수
3. 2. 2. 다변량 가우스 혼합 모델 (Multivariate Gaussian Mixture Model)
베이즈 가우시안 혼합 모델은 일반적으로 미지의 파라미터 벡터(굵은 글씨로 표시)에 적용되거나 다변량 정규 분포로 확장된다. 다변량 분포(즉, ''N''개의 확률 변수를 갖는 벡터 를 모델링하는 분포)에서 가우시안 혼합 모델 사전 분포를 사용하여 파라미터 벡터(예: 신호의 여러 관측치 또는 이미지 내의 패치)를 모델링할 수 있다. 이 사전 분포는 다음과 같다.:
여기서 ''i번째'' 벡터 구성 요소는 가중치 , 평균 및 공분산 행렬 를 갖는 정규 분포로 특징지어진다.[2] 이 사전 분포를 베이즈 추정에 통합하기 위해, 사전 분포는 추정할 매개변수 에 따라 조건화된 데이터 의 알려진 분포 와 곱해진다. 이 공식에서 사후 분포 는 ''또한'' 다음과 같은 형태의 가우시안 혼합 모델이다.
:
새로운 파라미터 및 는 EM 알고리즘을 사용하여 업데이트된다.[2] EM 기반 파라미터 업데이트는 잘 정립되어 있지만, 이러한 파라미터의 초기 추정치를 제공하는 것은 현재 활발히 연구되는 분야이다. 이 공식은 전체 사후 분포에 대한 폐쇄형 해를 제공한다. 확률 변수 의 추정치는 사후 분포의 평균 또는 최댓값과 같은 여러 추정기 중 하나를 통해 얻을 수 있다.
이러한 분포는 예를 들어 이미지 및 클러스터의 패치별 모양을 가정하는 데 유용하다. 이미지 표현의 경우, 각 가우시안은 공분산 행렬 에 따라 기울어지고, 확장되고, 왜곡될 수 있다. 집합의 하나의 가우시안 분포는 이미지의 각 패치(일반적으로 크기가 8x8 픽셀)에 맞는다. 특히, 클러스터 주변의 점들의 모든 분포(''k''-평균)는 충분한 가우시안 구성 요소가 주어지면 정확하게 주어질 수 있지만, 주어진 이미지 분포 또는 데이터 클러스터를 정확하게 모델링하는 데는 ''K''=20개의 구성 요소 이상이 거의 필요하지 않다.
3. 2. 3. 다항 혼합 모델 (Categorical Mixture Model)
범주형 분포 관측치를 사용하는 일반적인 비 베이시안 혼합 모델은 다음과 같다.
- 위와 같음
- 위와 같음
- 위와 같음
- 범주형 관측치의 차원, 예를 들어 단어 어휘의 크기
- 항목 를 관찰하는 구성 요소 의 확률
- 차원이 인 벡터, 로 구성됨, 합계는 1이어야 함
확률 변수:
:
범주형 분포 관측치를 사용하는 일반적인 베이시안 혼합 모델은 다음과 같다.
- 위와 같음
- 위와 같음
- 위와 같음
- 범주형 관측치의 차원, 예를 들어 단어 어휘의 크기
- 항목 를 관찰하는 구성 요소 의 확률
- 차원이 인 벡터, 로 구성됨, 합계는 1이어야 함
- 각 구성 요소에 대한 의 공유된 집중 하이퍼파라미터
- 의 집중 하이퍼파라미터
확률 변수:
:
4. 혼합 모델의 식별성 (Identifiability)
혼합 모델의 식별성은 특정 클래스에서의 어떠한 모델에 대해서 고유한 특성의 존재를 의미한다.[27] 모델이 식별 가능하지 않다면, 추정 과정이 잘 정의되지 않거나 점근적 이론(Asymptotic theory)이 성립하지 않을 수 있다.[27]
잠재 변수 모델(Latent variable model)에 대한 p(θ|D)를 계산할 때, 사후확률이 다수의 봉우리를 포함한([https://en.wikipedia.org/wiki/Multimodal_distribution multi-modal]) 형태로 표현될 수 있다는 문제가 발생한다.[27] 예를 들어 가우스 혼합 모델에서, 값(각 가우스 분포의 비중)을 모두 알고 있다면, 매개변수 D를 이용하여 단봉형의 사후확률을 얻을 수 있다. 그 결과 전역적인 최적의 최대 사후확률 추정(MAP)을 쉽게 구할 수 있다.[27]
만약 값을 모른다면, 값을 채워 넣는 방법에 따라 다른 단봉형의 우도를 얻게 된다. 변수를 통합하여 식에서 제거하면, p(θ|D)에 대해서 다수의 봉우리를 포함한 형태의 사후확률이 얻어지는데, 이는 군집들의 서로 다른 라벨링(labeling) 때문에 발생한다.[27]
K=2인 2차원 가우스 혼합 모델의 데이터(=0.5, =-10, =10)에 대해서 우도 함수 p(D|,)는 두 개의 피크를 포함한다. 하나는 =-10, =10인 피크이고, 다른 하나는 =10, =-10인 피크이다. 이 때 유일한 최대 우도 추정(MLE)이 존재하지 않기 때문에, 매개변수는 "식별 가능하지 않다"고 한다. 사전확률이 특정 라벨링에 영향을 주지 않는다면, 유일한 최대 사후확률 추정(MAP)도 존재하지 않는다. 이는 사후확률이 다수의 봉우리를 포함한 형태라는 것과 같은 의미이다.[27]
사후확률이 포함하는 봉우리의 개수를 찾는 것은 매우 어려운 문제다. K개의 모델이 혼합되어있는 혼합모델은 K!의 라벨링 경우의 수가 있는데, 이 중 몇 개의 피크는 하나로 합쳐질 수 있기 때문이다. 특히 가우스 혼합 모델에 대한 최적의 최대 우도 추정을 찾는 방법이 NP-hard 문제라고 알려져 있다.[28]
''J''를 2}}인 모든 이항 분포의 클래스라고 할 때, ''J''의 두 구성원의 혼합은 와 를 갖는다. 그리고 1 − ''p''0 − ''p''1}}이다. 분명히, ''p''0와 ''p''1이 주어지면, 결정해야 할 세 개의 매개변수 (''π'', ''θ''1, ''θ''2)가 있으므로 위의 혼합 모델을 고유하게 결정하는 것은 불가능하다.
동일한 클래스의 모수적 분포 혼합을 고려할 때, 를 모든 구성 요소 분포의 클래스라고 하자. 그러면 ''J''의 볼록 껍질 ''K''는 ''J''에 있는 모든 유한 혼합 분포의 클래스를 정의한다.
:
''K''는 모든 구성원이 고유할 경우, 즉 ''K''에 있는 두 개의 구성원 ''p''와 가 각각 ''J''에서 ''k''개의 분포와 개의 분포의 혼합이라고 할 때, p′''}}이며, 첫째, k′''}}이고, 둘째, 모든 ''i''에 대해 ai''′}} 및 ƒi''′}}가 되도록 합계를 재정렬할 수 있는 경우에 식별 가능하다고 한다.
5. 매개변수 추정과 시스템 확인
모수적 혼합 모형은 종종 우리가 확률 분포 ''Y''를 알고 있고 ''X''에서 표본 추출을 할 수 있지만, ''ai''와 ''θi'' 값을 결정하고 싶을 때 사용된다. 이러한 상황은 여러 개의 개별 하위 집단으로 구성된 모집단에서 표본을 추출하는 연구에서 발생할 수 있다.
확률 혼합 모형을 누락된 데이터 문제로 생각하는 것이 일반적이다. 이를 이해하는 한 가지 방법은 고려 중인 데이터 포인트가 데이터를 모델링하는 데 사용하는 분포 중 하나에 "멤버십"을 가지고 있다고 가정하는 것이다. 시작할 때 이 멤버십은 알 수 없거나 누락된다. 추정의 역할은 우리가 선택한 모델 함수에 적절한 매개변수를 고안하는 것이며, 데이터 포인트와의 연결은 개별 모델 분포에서 해당 멤버십으로 표현된다.
혼합 분해 문제에 대한 다양한 접근 방식이 제안되었으며, 그중 다수는 기대값 최대화 (EM) 또는 최대 ''사후'' 추정(MAP)과 같은 최대 우도 방법에 중점을 둔다. 일반적으로 이러한 방법은 시스템 식별과 매개변수 추정 문제를 별도로 고려한다. 혼합 내 구성 요소의 수와 함수 형태를 결정하는 방법은 해당 매개변수 값을 추정하는 방법과 구별된다. 주목할 만한 예외는 Tarter와 Lock[12]에서 설명한 그래픽 방법과 최근의 최소 메시지 길이 (MML) 기술(Figueiredo와 Jain[13]) 그리고 어느 정도 McWilliam과 Loh (2009)[14]가 제안한 모멘트 매칭 패턴 분석 루틴이다.
- EM (Expectation-Maximization) 알고리즘
EM 알고리즘은 1958년에 Hartley에 의해서 처음 제안되었고 1977년에 Dempster에 의해서 체계화된 군집 알고리즘이다.[29] EM 알고리즘은 K-Means 알고리즘과 마찬가지로 초기 모델을 생성한 후 반복 정제과정을 통하여 모델을 최적화된 모델을 생성해간다. EM 알고리즘은 반복 정제 과정을 통하여 각 객체들이 혼합 모델에 속할 가능성(Probability)을 조정하여 최적의 모델을 생성해 간다. K-Means 알고리즘에서는 유클리디언(Euclidean) 거리 함수를 사용하는 반면에 EM 알고리즘은 log-likelihood 함수를 사용하여 모델의 적합성을 평가한다. 즉, K-Means가 거리 기반 군집 방법인 것에 비하여 EM은 확률 기반 군집(Probability-based clustering)이라고 한다.
EM 알고리즘은 Finite Mixture Model 통계 개념에 기반하고 있다. Mixture 하는 것은 여러 개의 확률 분포를 혼합된 것을 의미한다. 군집의 개수가 k라고 하면 k개의 확률 분포를 갖는 것을 의미한다. EM 알고리즘에서는 각 레코드들은 여러 개의 확률 분포 모델(군집)에 속하는 가중치를 가지고 배정된다.
EM 알고리즘은 최적해로 수렴한다는 것이 증명되어 있다. 루프를 돌 때마다 우도가 결코 줄어들지 않기 때문이다. 하지만 EM은 초기 해에 따라 최종 해가 달라지는 욕심 알고리즘(https://en.wikipedia.org/wiki/Greedy_algorithm Greedy algorithm)이고, 전역 최적 해(Global optimal solution)이 아닌 지역 최적 해(Local optimal solution)로 수렴할 수도 있다.[29]
기대 값 최대화 (EM)는 사전 정의된 구성 요소 수를 가진 혼합 모델의 매개변수를 결정하는 데 사용되는 가장 널리 사용되는 기술로 보입니다. 이것은 이 문제에 대한 최대 우도 추정을 구현하는 특별한 방법입니다. EM은 Dempster 등이 (1977) [15]에 의해 제시된 다음과 같은 반복 알고리즘과 같이 폐쇄형 표현이 가능한 유한 정규 혼합 모델에 특히 적합합니다.
따라서 현재 매개변수 추정을 기반으로, 주어진 관측치 ''x''(''t'')가 1, …, ''N''}} 에 대해 상태 ''s''에서 생성될 조건부 확률이 결정됩니다. 여기서 ''N''은 표본 크기입니다. 그런 다음 매개변수가 업데이트되어 새로운 구성 요소 가중치가 평균 조건부 확률에 해당하고 각 구성 요소 평균 및 공분산은 전체 표본의 평균 및 공분산의 구성 요소별 가중 평균이 됩니다.
Dempster[15]는 또한 각 연속 EM 반복이 우도를 감소시키지 않는다는 것을 보여주었는데, 이는 다른 기울기 기반 최대화 기술에서는 공유되지 않는 속성입니다. 더욱이 EM은 확률 벡터에 대한 제약 조건을 자연스럽게 포함하고, 충분히 큰 표본 크기에 대해 공분산 반복의 양의 정부호를 포함합니다. 이는 명시적으로 제약된 방법이 적절한 값을 확인하고 유지하기 위해 추가적인 계산 비용을 발생시키기 때문에 중요한 이점입니다. 이론적으로 EM은 일차 알고리즘이며 고정점 해로 느리게 수렴됩니다. Redner와 Walker (1984)는 이 점을 지적하며 초선형 및 이차 Newton 및 준-Newton 방법을 선호하고, 경험적 테스트를 기반으로 EM에서 느린 수렴을 보고합니다. 그들은 매개변수 값 자체의 수렴이 아닐지라도, 우도의 수렴이 빨랐다는 것을 인정합니다. EM과 다른 알고리즘의 수렴에 대한 상대적 장점은 다른 문헌에서 논의되었습니다.[16]
EM 사용에 대한 다른 일반적인 반대는 국부 최댓값을 거짓으로 식별하는 경향이 있고 초기 값에 민감하다는 것입니다.[20][17] 매개변수 공간의 여러 초기 지점에서 EM을 평가하여 이러한 문제를 해결할 수 있지만, 이는 계산 비용이 많이 들며, 초기 구성 요소가 본질적으로 겹치도록 하여 초기 추측에 대한 덜 이질적인 기반을 제공하는 Udea와 Nakano (1998)의 어닐링 EM 방법이 더 선호될 수 있습니다.
Figueiredo와 Jain[13]은 모델 구성 요소 수가 최적/진정한 값을 초과할 때 경계에서 얻은 '의미 없는' 매개변수 값으로의 수렴(예: Ghosh와 Sen (1985)와 같은 규칙성 조건이 무너지는 경우)이 자주 관찰된다고 지적합니다. 이를 바탕으로 그들은 초기 ''n''을 예상되는 최적 값보다 훨씬 크게 선택하는 추정과 식별에 대한 통일된 접근 방식을 제안합니다. 그들의 최적화 루틴은 충분한 정보가 없어 후보 구성 요소를 효과적으로 제거하는 최소 메시지 길이(MML) 기준을 통해 구성됩니다. 이러한 방식으로 ''n''의 감소를 체계화하고 추정과 식별을 공동으로 고려할 수 있습니다.
혼합 모델의 매개변수에 대한 초기 추측을 사용하여, 각 데이터 포인트가 각 구성 분포에 "부분적으로 속하는 정도"는 각 데이터 포인트의 멤버십 변수에 대한 기댓값을 계산하여 산출된다. 즉, 각 데이터 포인트 ''xj''와 분포 ''Yi''에 대해, 멤버십 값 ''y''''i'', ''j''는 다음과 같다:
그룹 멤버십에 대한 기대값을 사용하여 분포 매개변수에 대한 플러그인 추정을 다시 계산합니다.
혼합 계수 ''ai''는 ''N''개의 데이터 포인트에 대한 멤버십 값의 산술 평균입니다.
구성 요소 모델 매개변수 ''θi''도 멤버십 값을 사용하여 가중치가 부여된 데이터 포인트 ''xj''를 사용하여 기대값 최대화에 의해 계산됩니다. 예를 들어, ''θ''가 평균 ''μ''인 경우
''ai'' 및 ''θi''에 대한 새로운 추정치를 사용하여 기대 단계가 반복되어 새로운 멤버십 값을 다시 계산합니다. 모델 매개변수가 수렴될 때까지 전체 절차가 반복됩니다.
- EM 알고리즘과 K-means 알고리즘과의 관계
K-means 알고리즘은 임의의 데이터 셋을 클러스터링할 때 쓰이는 알고리즘으로, 가우스 혼합 모델의 EM 알고리즘과 비슷하다. K-means 알고리즘의 경우, 각 데이터 포인트에 클러스터를 정확히 1가지 지정하는데에 반해(hard assignment), EM알고리즘은 여러개의 클러스터에 대해 사후 확률에 비례하도록 지정한다(soft assignment). 실제로 가우스의 혼합 EM 알고리즘으로부터 K-means 알고리즘을 다음과 같이 유도할 수 있다.[24]
공분산 행렬이 인 가우스 혼합 모델을 고려하자. 은 모든 혼합 구성요소들이 공유하는 분산값이고 는 항등 행렬이다. 따라서,
이제 위와 같은 K개의 가우스 혼합 모델을 위한 EM알고리즘을 고려하면, 특정 데이터 포인트에 대한 사후확률은 다음과 같다.
일 때, 분모의 항중 가장 작은 를 가진 항이 천천히 0 값에 가까워지므로, 데이터 포인트 에 대한 사후확률 은 j를 제외하고는 모두 0이 되고 j에 대한 사후확률은 1이된다. 이것은 모든 값이 0이 아닌 한, 에 관계없이 성립한다.
따라서 위와 같은 경우, 클러스터 지정은 k-means 알고리즘과 똑같이 이루어진다. 따라서 데이터 포인트들은 가장 가까운 거리에 있는 클러스터에 배정되게 된다.
K-means 알고리즘에서는 클러스터의 평균값만 추정하고 공분산값은 추정하지 않는다.[30]
- 마르코프 연쇄 몬테 카를로 (Markov Chain Monte Carlo, MCMC) 방법
EM 알고리즘의 대안으로, 혼합 모델의 매개변수는 베이즈 정리에 의해 표시된 것처럼 사후 표본 추출을 사용하여 추론할 수 있다. 이는 여전히 데이터 포인트의 멤버십이 누락된 데이터인 불완전한 데이터 문제로 간주된다. 깁스 샘플링으로 알려진 2단계 반복 절차를 사용할 수 있다.
이전의 두 가우시안 분포 혼합 예시는 이 방법이 어떻게 작동하는지 보여줄 수 있다. 이전과 마찬가지로 혼합 모델의 매개변수에 대한 초기 추측이 이루어진다. 각 구성 요소 분포에 대한 부분적 멤버십을 계산하는 대신, 각 데이터 포인트에 대한 멤버십 값은 베르누이 분포에서 추출된다(즉, 첫 번째 또는 두 번째 가우시안에 할당됨). 베르누이 매개변수 ''θ''는 구성 요소 분포 중 하나를 기반으로 각 데이터 포인트에 대해 결정된다. 분포에서 추출은 각 데이터 포인트에 대한 멤버십 연관성을 생성한다. 그런 다음 플러그인 추정기를 EM의 M 단계에서와 같이 사용하여 새로운 혼합 모델 매개변수 집합을 생성하고 이항 추출 단계를 반복할 수 있다.
- 적률법 (Moment Matching)
적률 정합법은 1894년 칼 피어슨의 획기적인 연구에서 시작된 혼합 모수를 결정하는 가장 오래된 기술 중 하나이다.[18][19]
이 접근 방식에서 혼합 모수는 복합 분포가 특정 값과 일치하는 적률을 갖도록 결정된다. 많은 경우 적률 방정식의 해를 추출하는 것은 쉽지 않은 대수적 또는 계산적 문제를 제시할 수 있다. 또한, Day에 의한 수치 분석은 이러한 방법이 EM에 비해 비효율적일 수 있음을 나타낸다.[18] 그럼에도 불구하고, Craigmile과 Titterington (1998) 및 Wang과 같이 이 방법에 대한 관심이 다시 높아지고 있다.[19]
McWilliam과 Loh (2009)는 EM이 계산적으로 불가능할 수 있는 대규모 차원 시스템에서 하이퍼큐보이드 정규 혼합 카풀라의 특성화를 고려한다. 여기서는 패턴 분석 루틴을 사용하여 일련의 단변량 및 (어떤 의미에서) 이변량 적률과 일치하는 다변량 꼬리 종속성을 생성한다. 이 방법의 성능은 콜모고로프-스미르노프 검정 통계량을 사용하여 주식 로그 수익률 데이터를 사용하여 평가되며 좋은 설명적 적합성을 시사한다.
- 스펙트럼 방법 (Spectral Method)
혼합 모델 추정의 일부 문제는 스펙트럼 방법을 사용하여 해결할 수 있다. 특히 데이터 포인트 ''xi''가 고차원 실수 공간의 점이고, 숨겨진 분포가 로그 오목(예: 가우시안 분포 또는 지수 분포)으로 알려진 경우 유용하다.
혼합 모델 학습의 스펙트럼 방법은 데이터 포인트를 포함하는 행렬의 특이값 분해를 사용하는 것을 기반으로 한다. 아이디어는 학습할 분포의 수인 ''k''개의 상위 특이 벡터를 고려하는 것이다. 각 데이터 포인트를 해당 벡터에 의해 span되는 선형 부분 공간에 투영하면 동일한 분포에서 파생된 점들이 서로 매우 가깝게 그룹화되는 반면, 다른 분포의 점들은 멀리 떨어져 있게 된다.
스펙트럼 방법의 특징 중 하나는 분포가 특정 분리 조건을 충족하는 경우(예: 너무 가깝지 않음) 추정된 혼합이 높은 확률로 실제 혼합에 매우 가까워질 것임을 증명할 수 있다는 것이다.
- 그래픽 방법 (Graphical Methods)
Tarter와 Lock[12]은 혼합 모델 식별을 위한 그래픽 접근 방식을 설명한다. 이들은 커널 함수를 경험적 빈도 플롯에 적용하여 구성 요소 내 분산을 줄이는 방법을 사용한다. 이 방식을 통해 서로 다른 평균을 가진 구성 요소를 더 쉽게 식별할 수 있다. 이 ''λ''-방법은 구성 요소의 수나 함수 형태에 대한 사전 지식을 요구하지 않지만, 구성 요소 구조에 대한 가정을 어느 정도 암묵적으로 포함하는 커널 매개변수의 선택에 성공 여부가 달려 있다.[12]
5. 1. EM (Expectation-Maximization) 알고리즘
EM 알고리즘은 1958년에 Hartley에 의해서 처음 제안되었고 1977년에 Dempster에 의해서 체계화된 군집 알고리즘이다.[29] EM 알고리즘은 K-Means 알고리즘과 마찬가지로 초기 모델을 생성한 후 반복 정제과정을 통하여 모델을 최적화된 모델을 생성해간다. EM 알고리즘은 반복 정제 과정을 통하여 각 객체들이 혼합 모델에 속할 가능성(Probability)을 조정하여 최적의 모델을 생성해 간다. K-Means 알고리즘에서는 유클리디언(Euclidean) 거리 함수를 사용하는 반면에 EM 알고리즘은 log-likelihood 함수를 사용하여 모델의 적합성을 평가한다. 즉, K-Means가 거리 기반 군집 방법인 것에 비하여 EM은 확률 기반 군집(Probability-based clustering)이라고 한다.EM 알고리즘은 Finite Mixture Model 통계 개념에 기반하고 있다. Mixture 하는 것은 여러 개의 확률 분포를 혼합된 것을 의미한다. 군집의 개수가 k라고 하면 k개의 확률 분포를 갖는 것을 의미한다. EM 알고리즘에서는 각 레코드들은 여러 개의 확률 분포 모델(군집)에 속하는 가중치를 가지고 배정된다.
EM 알고리즘은 최적해로 수렴한다는 것이 증명되어 있다. 루프를 돌 때마다 우도가 결코 줄어들지 않기 때문이다. 하지만 EM은 초기 해에 따라 최종 해가 달라지는 욕심 알고리즘(https://en.wikipedia.org/wiki/Greedy_algorithm Greedy algorithm)이고, 전역 최적 해(Global optimal solution)이 아닌 지역 최적 해(Local optimal solution)로 수렴할 수도 있다.[29]
기대 값 최대화 (EM)는 사전 정의된 구성 요소 수를 가진 혼합 모델의 매개변수를 결정하는 데 사용되는 가장 널리 사용되는 기술로 보입니다. 이것은 이 문제에 대한 최대 우도 추정을 구현하는 특별한 방법입니다. EM은 Dempster 등이 (1977) [15]에 의해 제시된 다음과 같은 반복 알고리즘과 같이 폐쇄형 표현이 가능한 유한 정규 혼합 모델에 특히 적합합니다.
:
:
:
사후 확률은 다음과 같습니다.
:
따라서 현재 매개변수 추정을 기반으로, 주어진 관측치 ''x''(''t'')가 1, …, ''N''}} 에 대해 상태 ''s''에서 생성될 조건부 확률이 결정됩니다. 여기서 ''N''은 표본 크기입니다. 그런 다음 매개변수가 업데이트되어 새로운 구성 요소 가중치가 평균 조건부 확률에 해당하고 각 구성 요소 평균 및 공분산은 전체 표본의 평균 및 공분산의 구성 요소별 가중 평균이 됩니다.
Dempster[15]는 또한 각 연속 EM 반복이 우도를 감소시키지 않는다는 것을 보여주었는데, 이는 다른 기울기 기반 최대화 기술에서는 공유되지 않는 속성입니다. 더욱이 EM은 확률 벡터에 대한 제약 조건을 자연스럽게 포함하고, 충분히 큰 표본 크기에 대해 공분산 반복의 양의 정부호를 포함합니다. 이는 명시적으로 제약된 방법이 적절한 값을 확인하고 유지하기 위해 추가적인 계산 비용을 발생시키기 때문에 중요한 이점입니다. 이론적으로 EM은 일차 알고리즘이며 고정점 해로 느리게 수렴됩니다. Redner와 Walker (1984)는 이 점을 지적하며 초선형 및 이차 Newton 및 준-Newton 방법을 선호하고, 경험적 테스트를 기반으로 EM에서 느린 수렴을 보고합니다. 그들은 매개변수 값 자체의 수렴이 아닐지라도, 우도의 수렴이 빨랐다는 것을 인정합니다. EM과 다른 알고리즘의 수렴에 대한 상대적 장점은 다른 문헌에서 논의되었습니다.[16]
EM 사용에 대한 다른 일반적인 반대는 국부 최댓값을 거짓으로 식별하는 경향이 있고 초기 값에 민감하다는 것입니다.[20][17] 매개변수 공간의 여러 초기 지점에서 EM을 평가하여 이러한 문제를 해결할 수 있지만, 이는 계산 비용이 많이 들며, 초기 구성 요소가 본질적으로 겹치도록 하여 초기 추측에 대한 덜 이질적인 기반을 제공하는 Udea와 Nakano (1998)의 어닐링 EM 방법이 더 선호될 수 있습니다.
Figueiredo와 Jain[13]은 모델 구성 요소 수가 최적/진정한 값을 초과할 때 경계에서 얻은 '의미 없는' 매개변수 값으로의 수렴(예: Ghosh와 Sen (1985)와 같은 규칙성 조건이 무너지는 경우)이 자주 관찰된다고 지적합니다. 이를 바탕으로 그들은 초기 ''n''을 예상되는 최적 값보다 훨씬 크게 선택하는 추정과 식별에 대한 통일된 접근 방식을 제안합니다. 그들의 최적화 루틴은 충분한 정보가 없어 후보 구성 요소를 효과적으로 제거하는 최소 메시지 길이(MML) 기준을 통해 구성됩니다. 이러한 방식으로 ''n''의 감소를 체계화하고 추정과 식별을 공동으로 고려할 수 있습니다.
혼합 모델의 매개변수에 대한 초기 추측을 사용하여, 각 데이터 포인트가 각 구성 분포에 "부분적으로 속하는 정도"는 각 데이터 포인트의 멤버십 변수에 대한 기댓값을 계산하여 산출된다. 즉, 각 데이터 포인트 ''xj''와 분포 ''Yi''에 대해, 멤버십 값 ''y''''i'', ''j''는 다음과 같다:
:
그룹 멤버십에 대한 기대값을 사용하여 분포 매개변수에 대한 플러그인 추정을 다시 계산합니다.
혼합 계수 ''ai''는 ''N''개의 데이터 포인트에 대한 멤버십 값의 산술 평균입니다.
:
구성 요소 모델 매개변수 ''θi''도 멤버십 값을 사용하여 가중치가 부여된 데이터 포인트 ''xj''를 사용하여 기대값 최대화에 의해 계산됩니다. 예를 들어, ''θ''가 평균 ''μ''인 경우
:
''ai'' 및 ''θi''에 대한 새로운 추정치를 사용하여 기대 단계가 반복되어 새로운 멤버십 값을 다시 계산합니다. 모델 매개변수가 수렴될 때까지 전체 절차가 반복됩니다.
5. 1. 1. EM 알고리즘과 K-means 알고리즘과의 관계
K-means 알고리즘은 임의의 데이터 셋을 클러스터링할 때 쓰이는 알고리즘으로, 가우스 혼합 모델의 EM 알고리즘과 비슷하다. K-means 알고리즘의 경우, 각 데이터 포인트에 클러스터를 정확히 1가지 지정하는데에 반해(hard assignment), EM알고리즘은 여러개의 클러스터에 대해 사후 확률에 비례하도록 지정한다(soft assignment). 실제로 가우스의 혼합 EM 알고리즘으로부터 K-means 알고리즘을 다음과 같이 유도할 수 있다.[24]공분산 행렬이 인 가우스 혼합 모델을 고려하자. 은 모든 혼합 구성요소들이 공유하는 분산값이고 는 항등 행렬이다. 따라서,
:
이제 위와 같은 K개의 가우스 혼합 모델을 위한 EM알고리즘을 고려하면, 특정 데이터 포인트에 대한 사후확률은 다음과 같다.
:
일 때, 분모의 항중 가장 작은 를 가진 항이 천천히 0 값에 가까워지므로, 데이터 포인트 에 대한 사후확률 은 j를 제외하고는 모두 0이 되고 j에 대한 사후확률은 1이된다. 이것은 모든 값이 0이 아닌 한, 에 관계없이 성립한다.
따라서 위와 같은 경우, 클러스터 지정은 k-means 알고리즘과 똑같이 이루어진다. 따라서 데이터 포인트들은 가장 가까운 거리에 있는 클러스터에 배정되게 된다.
K-means 알고리즘에서는 클러스터의 평균값만 추정하고 공분산값은 추정하지 않는다.[30]
5. 2. 마르코프 연쇄 몬테 카를로 (Markov Chain Monte Carlo, MCMC) 방법
EM 알고리즘의 대안으로, 혼합 모델의 매개변수는 베이즈 정리에 의해 표시된 것처럼 사후 표본 추출을 사용하여 추론할 수 있다. 이는 여전히 데이터 포인트의 멤버십이 누락된 데이터인 불완전한 데이터 문제로 간주된다. 깁스 샘플링으로 알려진 2단계 반복 절차를 사용할 수 있다.이전의 두 가우시안 분포 혼합 예시는 이 방법이 어떻게 작동하는지 보여줄 수 있다. 이전과 마찬가지로 혼합 모델의 매개변수에 대한 초기 추측이 이루어진다. 각 구성 요소 분포에 대한 부분적 멤버십을 계산하는 대신, 각 데이터 포인트에 대한 멤버십 값은 베르누이 분포에서 추출된다(즉, 첫 번째 또는 두 번째 가우시안에 할당됨). 베르누이 매개변수 ''θ''는 구성 요소 분포 중 하나를 기반으로 각 데이터 포인트에 대해 결정된다. 분포에서 추출은 각 데이터 포인트에 대한 멤버십 연관성을 생성한다. 그런 다음 플러그인 추정기를 EM의 M 단계에서와 같이 사용하여 새로운 혼합 모델 매개변수 집합을 생성하고 이항 추출 단계를 반복할 수 있다.
5. 3. 적률법 (Moment Matching)
적률 정합법은 1894년 칼 피어슨의 획기적인 연구에서 시작된 혼합 모수를 결정하는 가장 오래된 기술 중 하나이다.[18][19]이 접근 방식에서 혼합 모수는 복합 분포가 특정 값과 일치하는 적률을 갖도록 결정된다. 많은 경우 적률 방정식의 해를 추출하는 것은 쉽지 않은 대수적 또는 계산적 문제를 제시할 수 있다. 또한, Day에 의한 수치 분석은 이러한 방법이 EM에 비해 비효율적일 수 있음을 나타낸다.[18] 그럼에도 불구하고, Craigmile과 Titterington (1998) 및 Wang과 같이 이 방법에 대한 관심이 다시 높아지고 있다.[19]
McWilliam과 Loh (2009)는 EM이 계산적으로 불가능할 수 있는 대규모 차원 시스템에서 하이퍼큐보이드 정규 혼합 카풀라의 특성화를 고려한다. 여기서는 패턴 분석 루틴을 사용하여 일련의 단변량 및 (어떤 의미에서) 이변량 적률과 일치하는 다변량 꼬리 종속성을 생성한다. 이 방법의 성능은 콜모고로프-스미르노프 검정 통계량을 사용하여 주식 로그 수익률 데이터를 사용하여 평가되며 좋은 설명적 적합성을 시사한다.
5. 4. 스펙트럼 방법 (Spectral Method)
혼합 모델 추정의 일부 문제는 스펙트럼 방법을 사용하여 해결할 수 있다. 특히 데이터 포인트 ''xi''가 고차원 실수 공간의 점이고, 숨겨진 분포가 로그 오목(예: 가우시안 분포 또는 지수 분포)으로 알려진 경우 유용하다.혼합 모델 학습의 스펙트럼 방법은 데이터 포인트를 포함하는 행렬의 특이값 분해를 사용하는 것을 기반으로 한다. 아이디어는 학습할 분포의 수인 ''k''개의 상위 특이 벡터를 고려하는 것이다. 각 데이터 포인트를 해당 벡터에 의해 span되는 선형 부분 공간에 투영하면 동일한 분포에서 파생된 점들이 서로 매우 가깝게 그룹화되는 반면, 다른 분포의 점들은 멀리 떨어져 있게 된다.
스펙트럼 방법의 특징 중 하나는 분포가 특정 분리 조건을 충족하는 경우(예: 너무 가깝지 않음) 추정된 혼합이 높은 확률로 실제 혼합에 매우 가까워질 것임을 증명할 수 있다는 것이다.
5. 5. 그래픽 방법 (Graphical Methods)
Tarter와 Lock[12]은 혼합 모델 식별을 위한 그래픽 접근 방식을 설명한다. 이들은 커널 함수를 경험적 빈도 플롯에 적용하여 구성 요소 내 분산을 줄이는 방법을 사용한다. 이 방식을 통해 서로 다른 평균을 가진 구성 요소를 더 쉽게 식별할 수 있다. 이 ''λ''-방법은 구성 요소의 수나 함수 형태에 대한 사전 지식을 요구하지 않지만, 구성 요소 구조에 대한 가정을 어느 정도 암묵적으로 포함하는 커널 매개변수의 선택에 성공 여부가 달려 있다.[12]6. 혼합 모델의 응용
- 가우스 모델은 자연적인 현상을 표현하기에 좋은 모델이기 때문에, 많은 분야에서 가우스 모델이 사용될 수 있다.
- 두 개 이상의 봉우리를 가진 분포를 최소의 오류로 모델링하기 위해서는 여러 개의 가우시안 분포를 사용하는 가우스 혼합 모델을 사용해야한다.
- 지금부터의 가우스 혼합 모델의 매개변수를 찾아내는 과정은 "패턴인식,교보문고,2008,오일석"의 내용을 바탕으로 작성되었다.
- * 샘플의 집합이 으로 주어진다면, 주어진 X를 바탕으로 추정해야 할 매개변수는 다음과 같다.
- ** 가우시언의 개수
- ** k 번째 가우시언의 매개 변수
- ** k 번째 가우시언의 가중치
- * 최적화 대상이 되는 함수는 개의 가우시언 분포의 합으로 다음과 같이 나타낼 수 있다.
- **
- * 사용해야 하는 가우시언의 개수는 사용자가 미리 정해준다고 가정하면 나머지 매개변수를 추정하면 된다.(실제로 몇 개의 가우시언을 사용해야할지 자동으로 결정할 수는 있다.)
- ** 추정할 매개변수
- * 이들을 이용하여 다음과 같이 최대 우도 추정 문제로 발전시킬 수 있다.
- **
- **
- * 따라서 관찰된 X에 대해 이것을 발생시켰을 가능성이 가장 큰 매개 변수 집합 를 찾아 그것을 해로 취하는 것이 최종 문제이다.
- **
- * 이 최적화 문제는 두 가지 단계가 필요하다. 먼저 샘플이 어느 가우시언에 속하는 지를 추정하는 단계가 기대화(Expectation) 단계이다. 이 때 가우시언에 속하는 정도를 확률로 표현하는 연성 소속을 사용한다. E 단계를 마친 뒤 매개 변수 집합 를 추정하는 단계가 최대화(Maximization) 단계이다. 에는 두 가지 매개 변수가 있는데, 하나는 개의 와 이고, 다른 하나는 혼합 계수 벡터 이다. 따라서 와 를 먼저 계산한 후 를 계산한다.
- ** E 단계를 위해 필요한 가우시언에 속하는 정도에 대한 값의 식은 다음과 같다.(자세한 과정은 [https://en.wikipedia.org/wiki/Expectation%E2%80%93maximization_algorithm EM 알고리즘] 참고)
- ** , 샘플 가 관찰되었을 때 그것이 j번째 가우시언에서 발생했을 확률(사후확률)
- ** M 단계를 위해 필요한 매개 변수 값들의 식은 다음과 같다.(자세한 과정은 [https://en.wikipedia.org/wiki/Expectation%E2%80%93maximization_algorithm EM 알고리즘] 참고)
- ** ,
- **
- **
- * 이들 E와 M단계를 번갈아 가며 반복하다가 수렴 조건이 만족되면 멈춘다.
- 이러한 과정을 통해 가우시언 혼합 모델을 아래와 같은 응용에 적용시킬 수 있다.
- 위의 금융에 적용한 예시는 혼합 모델의 직접적인 응용 중 하나이다. 왜냐하면 근본적인 메커니즘을 가정하여 각각의 관찰된 정보가 서로 다른 구성성분이나 범주 중 하나에 반드시 속하도록 하였기 때문이다. 그러나 이러한 근본적인 메커니즘은 관찰될 수도 있고, 관찰되지 않을 수도 있다. 이러한 형태의 혼합 모델에서 각각의 구성 성분은 하나의 확률 밀도 함수에 의해 나타날 수 있다. 그리고 각 구성 성분의 계수는 관찰된 정보가 이 성분으로부터 올 확률에 해당한다.
- 혼합 모델의 간접적인 응용에서는 위의 메커니즘처럼 가정할 수 없다. 혼합 모델이 단순히 수학적으로 다루기 쉽도록 사용되는 것이다. 예를 들어, 서로 다른 2개의 정규 분포의 혼합 모델은 표준 범주형 분포(Standard parametric distribution)에 의해 모델링되지 않은 2개의 모드의 분포를 나타낸다. 또 다른 예로 혼합 모델을 사용하여, 기본적인 가우스 분포보다 더 평평한 꼬리 부분(tail)을 만들어서 극단적인 사건에 대해 더 잘 모델링되도록 하는 것이다.
위의 금융 예시는 혼합 모델의 직접적인 응용 사례 중 하나로, 각 관측치가 여러 다른 소스 또는 범주 중 하나에 속한다고 가정하는 상황을 나타낸다. 이러한 기본 메커니즘은 관찰 가능할 수도 있고 그렇지 않을 수도 있다. 이러한 형태의 혼합에서 각 소스는 구성 요소 확률 밀도 함수로 설명되며, 혼합 가중치는 관측치가 이 구성 요소에서 나올 확률이다.
혼합 모델의 간접적인 응용 분야에서는 이러한 메커니즘을 가정하지 않는다. 혼합 모델은 단순히 수학적 유연성을 위해 사용된다. 예를 들어, 서로 다른 평균을 가진 두 개의 정규 분포 혼합은 두 개의 최빈값을 가진 밀도를 생성할 수 있는데, 이는 표준 매개변수 분포로는 모델링되지 않는다. 또 다른 예는 혼합 분포가 기본 가우스 분포보다 더 두꺼운 꼬리를 모델링하여 더 극단적인 사건을 모델링하는 데 적합할 수 있다는 가능성에 의해 제공된다.
==== 금융 모델 ====
금융은 경제가 정상적일 때와 위기 상황일 때의 흐름이 매우 다르다.[3] 따라서 이러한 상황을 모델링하기 위해서 혼합 모델을 사용하는 것이 적합하다. 그 모델로는 점프-확산 모델([https://en.wikipedia.org/wiki/Jump_diffusion jump-diffusion model])이나, 두 개의 정규 분포의 혼합 모델 등이 사용된다.[3]
금융 수익률은 정상적인 상황과 위기 상황에서 다르게 나타나는 경우가 많기 때문에, 수익률 데이터에 대한 혼합 모델은 합리적인 것으로 보인다.[3]
더 자세한 내용은 [https://en.wikipedia.org/wiki/Financial_economics#Challenges_and_criticism Financial economics#Challenges and criticism]에서 찾아볼 수 있다.
==== 주택 가격 ====
서로 다른 ''N''채의 주택 가격을 관찰한다고 가정할 때, 지역 및 유형에 따라 가격이 크게 다를 수 있다. 그러나 특정 지역의 특정 유형의 주택(예: 중간 정도의 고급 지역의 침실 3개짜리 주택) 가격은 평균을 중심으로 비교적 가깝게 형성되는 경향이 있다. 이러한 가격의 가능한 모델 중 하나는 가격이 ''K''개의 서로 다른 구성 요소가 있는 혼합 모델로 정확하게 설명된다고 가정하는 것이다. 각 구성 요소는 알 수 없는 평균과 분산을 가진 정규 분포를 따르며, 주택 유형/지역의 특정 조합을 나타낸다. 예를 들어, 기대값-최대화 알고리즘을 사용하여 관찰된 가격에 이 모델을 적용하면 주택 유형/지역에 따라 가격이 분류되고 각 유형/지역의 가격 분포가 나타난다. 가격이나 소득과 같이 반드시 양수이고 지수 성장으로 성장하는 경향이 있는 값의 경우, 로그 정규 분포가 정규 분포보다 더 나은 모델일 수 있다.
==== 퍼지 영상 분할 (Fuzzy Image Segmentation) ====
영상 처리나 컴퓨터 비전에서 전통적인 이미지 분할 모델은 하나의 픽셀을 오직 하나의 패턴에만 할당시킨다.[8] 그런데 퍼지 영상 분할에서는 어느 패턴도 단일 픽셀에 대한 소유권을 가질 수 없다.[8] 만약 패턴들이 가우시안 분포를 따른다면, 퍼지 영상 분할은 가우스 혼합 모델 분포를 따르게 된다.[8] 이 모델이 다른 분석적이고 기하학적인 기법(가령, 산만한 경계에서의 상전이)과 결합한다면, 공간적으로 정규화 된 혼합 모델로서 더 현실적이고 계산적으로 효율적인 분할 방법이 될 수 있다.[8]

==== 문서의 주제 (토픽 모델) ====
문서가 N개의 서로 다른 단어와 전체 크기가 V인 어휘로 구성되어 있고, 각 단어는 K개의 주제 중 하나에 해당한다고 가정한다. 이러한 단어들의 분포는 K개의 서로 다른 V차원 범주형 분포의 혼합 모델로 표현될 수 있다. 이런 종류의 모델은 주로 토픽 모델이라고 한다.
많은 수의 매개변수 때문에, EM 알고리즘을 이 모델에 적용하면 원하는 결과를 얻는 데에 실패하는 경우가 많다. 그래서 좋은 결과를 얻기 위해 몇 가지 추가 가정이 필요하다. 전형적으로 두 종류의 추가 가정이 모델에 추가된다.
- 사전 분포는 아주 작은 수의 단어만 0이 아닌 확률을 가지고 있는 스파스 분포를 만들기 위해 토픽 분포를 묘사하는 매개변수를 사용한다. 이를 위해 디리클레 분포를 Concentration parameter를 1보다 상당히 작게 설정하여 적용한다.
- 자연적 집단화를 이용하기 위해, 몇몇 종류의 추가 조건은 단어들의 토픽 유사성을 사용한다.
마르코프 연쇄는 인접한 단어가 유사한 주제에 속한다는 사실에 해당하는 주제 정체성(즉, 각 관측치의 혼합 구성 요소를 지정하는 잠재 변수)에 배치될 수 있다. (이로 인해 은닉 마르코프 모델이 생성되며, 특히 동일한 상태를 유지하는 전환을 선호하는 사전 분포가 상태 전환에 배치되는 모델이다.)
또 다른 가능성은 잠재 디리클레 할당 모델로, 단어를 ''D''개의 서로 다른 문서로 나누고 각 문서에서 소수의 주제만 빈번하게 발생한다고 가정한다.
==== 필기 인식 ====
다음 예시는 크리스토퍼 M. 비숍의 저서 ''패턴 인식과 머신 러닝''의 예시를 기반으로 한다.[4]
손으로 쓴 0과 9 사이의 숫자를 스캔한 N*N 크기의 흑백 이미지가 있는데, 어느 숫자가 쓰였는지는 모른다고 가정한다. 여기서 K=10인 서로 다른 성분으로 되어 있는 혼합 모델을 만들 수 있다. 각 성분은 크기가 인 베르누이 분포(픽셀 당 하나)의 벡터로 되어 있다. 이 모델은 기대값-최대화 알고리즘을 분류되지 않은 세트의 손으로 쓴 숫자에 적용시켜 훈련될 수 있고, 쓰인 숫자에 따라 이미지를 효과적으로 분류할 수 있다.[31] 이와 같은 모델을 분류뿐만 아니라 다른 이미지의 숫자를 인식하는 데에 사용할 수 있다. 이는 모델에서 새로운 이미지에 대한 각 숫자의 확률을 계산하여 가장 높은 확률을 나타내는 숫자를 결과 값으로 나타내면 된다.
베르누이 혼합 모델은 손으로 쓴 숫자에 대한 전체적인 모델링에 사용된다. 하나의 데이터 가 D개의 2진 변수 를 가지고 있고, 가 매개변수 에 대해서 베르누이 분포를 가진다고 하면 그 식은 다음과 같다.
, and
이 분포에 대한 혼합 모델은 다음과 같다.
: 혼합계수
이 혼합모델을 풀기 위해서 EM 알고리즘의 각 단계(E단계, M단계)를 위한 식을 구해야 하고, 이 혼합모델에 대한 최대 우도 추정을 구해야한다.
완전한 데이터 로그 우도(Complete data log likelihood) 를 구하는 과정은 다음과 같다.
위 값을 최대화하는 값을 업데이트하는 과정이 기댓값(Expectation) 과정이다.
E 단계에서 구한 을 이용하여 모델 매개변수를 업데이트하는 과정이 최대화(Maximization) 과정이다.
따라서 위 EM 과정을 반복할수록 로그 우도를 최대화하는 매개변수에 수렴하게 되고, 이를 통해 손으로 쓴 숫자를 0~9까지 분류하여 판별할 수 있다.
==== 발사체 정확도 평가 (CEP) ====
혼합 모델은 여러 발사체를 표적에 유도하는 문제(공중, 육상 또는 해상 방어 응용 분야 등)에 적용되며, 여기서 여러 발사체 내에서 발사체의 물리적 및/또는 통계적 특성이 다르다.[5] 예를 들어 여러 탄약 유형에서 발사된 탄 또는 한 표적을 향해 여러 위치에서 발사된 탄이 있다. 발사체 유형의 조합은 가우스 혼합 모델로 특징지을 수 있다.[5]
발사체 그룹의 정확성에 대한 잘 알려진 척도는 원형 공산 오차 (CEP)이며, 이는 평균적으로 발사체 그룹의 절반이 표적 지점을 중심으로 반지름 ''R''의 원 안에 속하는 수 ''R''이다.[5] 혼합 모델은 값 ''R''을 결정(또는 추정)하는 데 사용될 수 있다. 혼합 모델은 다양한 유형의 발사체를 적절하게 포착한다.[5]
==== 예측 정비 (Predictive Maintenance) ====
혼합 모델 기반 클러스터링은 예측 정비에서 기계의 상태를 식별하는 데 주로 사용된다. 밀도 플롯은 고차원 특징의 밀도를 분석하는 데 사용된다. 다중 모델 밀도가 관찰되면 유한한 일련의 밀도가 유한한 일련의 정규 혼합에 의해 형성된다고 가정한다. 다변량 가우시안 혼합 모델은 특징 데이터를 k개의 그룹으로 클러스터링하는 데 사용되며, 여기서 k는 기계의 각 상태(정상, 전원 끄기, 고장 등)를 나타낸다.[6] 각 형성된 클러스터는 스펙트럼 분석과 같은 기술을 사용하여 진단할 수 있다. 최근 몇 년 동안 이는 조기 고장 감지와 같은 다른 분야에서도 널리 사용되고 있다.[7]
6. 1. 금융 모델
금융은 경제가 정상적일 때와 위기 상황일 때의 흐름이 매우 다르다.[3] 따라서 이러한 상황을 모델링하기 위해서 혼합 모델을 사용하는 것이 적합하다. 그 모델로는 점프-확산 모델([https://en.wikipedia.org/wiki/Jump_diffusion jump-diffusion model])이나, 두 개의 정규 분포의 혼합 모델 등이 사용된다.[3]금융 수익률은 정상적인 상황과 위기 상황에서 다르게 나타나는 경우가 많기 때문에, 수익률 데이터에 대한 혼합 모델은 합리적인 것으로 보인다.[3]
더 자세한 내용은 [https://en.wikipedia.org/wiki/Financial_economics#Challenges_and_criticism Financial economics#Challenges and criticism]에서 찾아볼 수 있다.
6. 2. 주택 가격
서로 다른 ''N''채의 주택 가격을 관찰한다고 가정할 때, 지역 및 유형에 따라 가격이 크게 다를 수 있다. 그러나 특정 지역의 특정 유형의 주택(예: 중간 정도의 고급 지역의 침실 3개짜리 주택) 가격은 평균을 중심으로 비교적 가깝게 형성되는 경향이 있다. 이러한 가격의 가능한 모델 중 하나는 가격이 ''K''개의 서로 다른 구성 요소가 있는 혼합 모델로 정확하게 설명된다고 가정하는 것이다. 각 구성 요소는 알 수 없는 평균과 분산을 가진 정규 분포를 따르며, 주택 유형/지역의 특정 조합을 나타낸다. 예를 들어, 기대값-최대화 알고리즘을 사용하여 관찰된 가격에 이 모델을 적용하면 주택 유형/지역에 따라 가격이 분류되고 각 유형/지역의 가격 분포가 나타난다. 가격이나 소득과 같이 반드시 양수이고 지수 성장으로 성장하는 경향이 있는 값의 경우, 로그 정규 분포가 정규 분포보다 더 나은 모델일 수 있다.6. 3. 퍼지 영상 분할 (Fuzzy Image Segmentation)
영상 처리나 컴퓨터 비전에서 전통적인 이미지 분할 모델은 하나의 픽셀을 오직 하나의 패턴에만 할당시킨다.[8] 그런데 퍼지 영상 분할에서는 어느 패턴도 단일 픽셀에 대한 소유권을 가질 수 있다.[8] 만약 패턴들이 가우시안 분포를 따른다면, 퍼지 영상 분할은 가우스 혼합 모델 분포를 따르게 된다.[8] 이 모델이 다른 분석적이고 기하학적인 기법(가령, 산만한 경계에서의 상전이)과 결합한다면, 공간적으로 정규화 된 혼합 모델로서 더 현실적이고 계산적으로 효율적인 분할 방법이 될 수 있다.[8]6. 4. 문서의 주제 (토픽 모델)
문서가 N개의 서로 다른 단어와 전체 크기가 V인 어휘로 구성되어 있고, 각 단어는 K개의 주제 중 하나에 해당한다고 가정한다. 이러한 단어들의 분포는 K개의 서로 다른 V차원 범주형 분포의 혼합 모델로 표현될 수 있다. 이런 종류의 모델은 주로 토픽 모델이라고 한다.많은 수의 매개변수 때문에, EM 알고리즘을 이 모델에 적용하면 원하는 결과를 얻는 데에 실패하는 경우가 많다. 그래서 좋은 결과를 얻기 위해 몇 가지 추가 가정이 필요하다. 전형적으로 두 종류의 추가 가정이 모델에 추가된다.
- 사전 분포는 아주 작은 수의 단어만 0이 아닌 확률을 가지고 있는 스파스 분포를 만들기 위해 토픽 분포를 묘사하는 매개변수를 사용한다. 이를 위해 디리클레 분포를 Concentration parameter를 1보다 상당히 작게 설정하여 적용한다.
- 자연적 집단화를 이용하기 위해, 몇몇 종류의 추가 조건은 단어들의 토픽 유사성을 사용한다.
마르코프 연쇄는 인접한 단어가 유사한 주제에 속한다는 사실에 해당하는 주제 정체성(즉, 각 관측치의 혼합 구성 요소를 지정하는 잠재 변수)에 배치될 수 있다. (이로 인해 은닉 마르코프 모델이 생성되며, 특히 동일한 상태를 유지하는 전환을 선호하는 사전 분포가 상태 전환에 배치되는 모델이다.)
또 다른 가능성은 잠재 디리클레 할당 모델로, 단어를 ''D''개의 서로 다른 문서로 나누고 각 문서에서 소수의 주제만 빈번하게 발생한다고 가정한다.
6. 5. 필기 인식
다음 예시는 크리스토퍼 M. 비숍의 저서 ''패턴 인식과 머신 러닝''의 예시를 기반으로 한다.[4]손으로 쓴 0과 9 사이의 숫자를 스캔한 N*N 크기의 흑백 이미지가 있는데, 어느 숫자가 쓰였는지는 모른다고 가정한다. 여기서 K=10인 서로 다른 성분으로 되어 있는 혼합 모델을 만들 수 있다. 각 성분은 크기가 인 베르누이 분포(픽셀 당 하나)의 벡터로 되어 있다. 이 모델은 기대값-최대화 알고리즘을 분류되지 않은 세트의 손으로 쓴 숫자에 적용시켜 훈련될 수 있고, 쓰인 숫자에 따라 이미지를 효과적으로 분류할 수 있다.[31] 이와 같은 모델을 분류뿐만 아니라 다른 이미지의 숫자를 인식하는 데에 사용할 수 있다. 이는 모델에서 새로운 이미지에 대한 각 숫자의 확률을 계산하여 가장 높은 확률을 나타내는 숫자를 결과 값으로 나타내면 된다.
베르누이 혼합 모델은 손으로 쓴 숫자에 대한 전체적인 모델링에 사용된다. 하나의 데이터 가 D개의 2진 변수 를 가지고 있고, 가 매개변수 에 대해서 베르누이 분포를 가진다고 하면 그 식은 다음과 같다.
, and
이 분포에 대한 혼합 모델은 다음과 같다.
: 혼합계수
이 혼합모델을 풀기 위해서 EM 알고리즘의 각 단계(E단계, M단계)를 위한 식을 구해야 하고, 이 혼합모델에 대한 최대 우도 추정을 구해야한다.
완전한 데이터 로그 우도(Complete data log likelihood) 를 구하는 과정은 다음과 같다.
위 값을 최대화하는 값을 업데이트하는 과정이 기댓값(Expectation) 과정이다.
E 단계에서 구한 을 이용하여 모델 매개변수를 업데이트하는 과정이 최대화(Maximization) 과정이다.
따라서 위 EM 과정을 반복할수록 로그 우도를 최대화하는 매개변수에 수렴하게 되고, 이를 통해 손으로 쓴 숫자를 0~9까지 분류하여 판별할 수 있다.
6. 6. 발사체 정확도 평가 (CEP)
혼합 모델은 여러 발사체를 표적에 유도하는 문제(공중, 육상 또는 해상 방어 응용 분야 등)에 적용되며, 여기서 여러 발사체 내에서 발사체의 물리적 및/또는 통계적 특성이 다르다.[5] 예를 들어 여러 탄약 유형에서 발사된 탄 또는 한 표적을 향해 여러 위치에서 발사된 탄이 있다. 발사체 유형의 조합은 가우스 혼합 모델로 특징지을 수 있다.[5]발사체 그룹의 정확성에 대한 잘 알려진 척도는 원형 공산 오차 (CEP)이며, 이는 평균적으로 발사체 그룹의 절반이 표적 지점을 중심으로 반지름 ''R''의 원 안에 속하는 수 ''R''이다.[5] 혼합 모델은 값 ''R''을 결정(또는 추정)하는 데 사용될 수 있다. 혼합 모델은 다양한 유형의 발사체를 적절하게 포착한다.[5]
6. 7. 예측 정비 (Predictive Maintenance)
혼합 모델 기반 클러스터링은 예측 정비에서 기계의 상태를 식별하는 데 주로 사용된다. 밀도 플롯은 고차원 특징의 밀도를 분석하는 데 사용된다. 다중 모델 밀도가 관찰되면 유한한 일련의 밀도가 유한한 일련의 정규 혼합에 의해 형성된다고 가정한다. 다변량 가우시안 혼합 모델은 특징 데이터를 k개의 그룹으로 클러스터링하는 데 사용되며, 여기서 k는 기계의 각 상태(정상, 전원 끄기, 고장 등)를 나타낸다.[6] 각 형성된 클러스터는 스펙트럼 분석과 같은 기술을 사용하여 진단할 수 있다. 최근 몇 년 동안 이는 조기 고장 감지와 같은 다른 분야에서도 널리 사용되고 있다.[7]7. 추가적인 확장
베이즈 추론 환경에서 혼합 모델을 정의하는 그래프 모델에 추가적인 수준을 더할 수 있다. 예를 들어, 흔히 사용되는 잠재 디리클레 할당 토픽 모델에서 관측값은 ''D''개의 서로 다른 문서에서 추출된 단어 집합이며, ''K''개의 혼합 요소는 문서 전체에서 공유되는 토픽을 나타낸다. 각 문서는 해당 문서에서 흔하게 나타나는 토픽을 지정하는 서로 다른 혼합 가중치 집합을 가지며, 모든 혼합 가중치 집합은 공통 하이퍼파라미터를 공유한다.
매우 흔한 확장으로는 혼합 요소 식별자를 정의하는 잠재 변수들을 마르코프 체인으로 연결하는 것이다. 즉, 이들이 독립 동일 분포 확률 변수라고 가정하는 대신에 은닉 마르코프 모델이라고 불리는 모델을 결과로 얻게 되며, 이는 가장 일반적인 순차적 계층 모델 중 하나이다. 은닉 마르코프 모델의 수많은 확장들이 개발되었으며, 자세한 내용은 해당 문서를 참조해야한다.
8. 혼합 모델의 역사
혼합 분포와 혼합 분해 문제, 즉 구성 요소 및 해당 매개변수의 식별은 1846년에 문헌에서 언급되었지만,[20] 비정상적인 특징을 특징짓는 문제에 대해 명시적으로 다룬 최초의 연구는 칼 피어슨 (1894)의 연구가 일반적으로 인용된다.[21] 이는 여성 해안 게 집단의 머리 대 신체 길이 비율과 관련된다. 이 연구의 동기는 동물학자 월터 프랭크 라파엘 웰던이 제공했는데, 그는 1893년에 이 비율의 히스토그램에서 비대칭성이 진화적 분기를 나타낼 수 있다고 추측했다.[12] 피어슨의 접근 방식은 경험적 모멘트가 모델의 모멘트와 일치하도록 혼합의 5개 매개변수를 선택하여 데이터에 두 개의 정규 분포의 단변량 혼합을 적합하는 것이었다.
그의 연구는 잠재적으로 구별되는 두 개의 하위 모집단을 식별하고 혼합물의 모멘트 매칭 도구로서의 유연성을 입증하는 데 성공했지만, 당시 상당한 계산상의 어려움을 야기하는 9차 (nonic) 다항식의 해를 구해야 했다.
이러한 문제를 해결하는 데 초점을 맞춘 후속 연구가 있었지만, 현대 컴퓨터의 출현과 최대 가능도 (MLE) 매개변수화 기술의 대중화가 이루어지면서 연구가 본격적으로 시작되었다.[22] 그 이후로, 수산업, 농업, 식물학, 경제학, 의학, 유전학, 심리학, 고생물학, 전기영동, 금융, 지질학 및 동물학과 같은 분야에 걸쳐 이 주제에 대한 방대한 연구가 이루어졌다.[23]
참조
[1]
논문
Signal Modeling and Classification Using a Robust Latent Space Model Based on t Distributions
[2]
논문
Solving Inverse Problems with Piecewise Linear Estimators: From Gaussian Mixture Models to Structured Sparsity
2012
[3]
간행물
Expectation Maximization and Mixture Modeling Tutorial
http://repositories.[...]
California Digital Library
2008-12-09
[4]
서적
Pattern recognition and machine learning
Springer
[5]
논문
A feasible Bayesian estimator of quantiles for projectile accuracy from non-i.i.d. data.
[6]
웹사이트
Fault Class Prediction in Unsupervised Learning using Model-Based Clustering Approach
https://www.research[...]
Unpublished
2018-02-02
[7]
웹사이트
A Research Study on Unsupervised Machine Learning Algorithms for Fault Detection in Predictive Maintenance
https://www.research[...]
Unpublished
2018-02-01
[8]
논문
A stochastic-variational model for soft Mumford-Shah segmentation
2006
[9]
논문
Point set registration: Coherent point drift
[10]
논문
Group-wise similarity registration of point sets using Student's t-mixture model for statistical shape models
[11]
conference
Intraoperative brain shift compensation using a hybrid mixture model
https://www.miccai20[...]
Springer, Cham
2018
[12]
기타
Model Free Curve Estimation
Chapman and Hall
1993
[13]
논문
Unsupervised Learning of Finite Mixture Models
2002-03
[14]
기타
Incorporating Multidimensional Tail-Dependencies in the Valuation of Credit Derivatives (Working Paper)
http://www.misys.com[...]
2008
[15]
논문
Maximum Likelihood from Incomplete Data via the EM Algorithm
1977
[16]
논문
On Convergence Properties of the EM Algorithm for Gaussian Mixtures
1996-01
[17]
논문
Proceedings of the 2004 Winter Simulation Conference, 2004
[18]
논문
Estimating the Components of a Mixture of Normal Distributions
[19]
기타
Generating daily changes in market variables using a multivariate mixture of normal distributions
2001
[20]
기타
Finite Mixture Models
Wiley
2000
[21]
논문
Moment varieties of Gaussian mixtures
[22]
기타
Mixture Models: inference and applications to clustering
1988
[23]
기타
1985
[24]
서적
Pattern Recognition and Machine Learning
https://archive.org/[...]
[25]
문서
패턴인식 개론 Matlab 실습을 통한 입체적 학습 개정판
한빛미디어
[26]
저널
Solving Inverse Problems with Piecewise Linear Estimators: From Gaussian Mixture Models to Structured Sparsity
[27]
문서
Machine Learning:A Probabilistic Perspective
2012
[28]
기타
2009;2004
[29]
문서
패턴인식
교보문고
2008
[30]
문서
대용량 데이터를 처리하기 위한 EM Survey
[31]
서적
Pattern recognition and machine learning
Springer
2006
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com