최대가능도 방법
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
최대가능도 방법(MLE)은 관측된 데이터가 특정 확률 분포에서 생성되었을 가능성이 가장 높은지를 판단하는 통계적 추정 방법이다. 주어진 데이터에 대한 우도 함수를 정의하고, 이를 최대화하는 매개변수 값을 찾아 추정량을 구한다. 독립적인 표본의 경우, 우도 함수는 확률 밀도 함수의 곱으로 표현되며, 로그 우도를 활용하여 계산을 간소화할 수 있다. MLE는 일치성, 불변성, 효율성 등의 좋은 성질을 가지며, 제한된 모수 공간에서도 적용 가능하다. 다양한 응용 분야에서 활용되며, 최소제곱법, 베이즈 추론 등 다른 추정 방법과 관계를 맺는다. 로널드 피셔에 의해 현대적인 형태로 발전되었으며, 윌크스 정리를 통해 추정량의 성질이 밝혀졌다.
최대가능도(Maximum Likelihood) 방법은 주어진 데이터가 어떤 확률분포에서 나왔을 가능성이 가장 높은지를 판단하는 방법이다. 이를 위해, 먼저 데이터가 특정 확률분포를 따른다고 가정하고, 그 분포의 모수(parameter)를 변수로 하는 우도함수(likelihood function)를 정의한다. 우도함수는 주어진 모수 하에서 관측된 데이터가 나타날 확률을 나타내며, 이 함수를 최대화하는 모수 값이 바로 최대가능도 추정량이 된다.[6]
2. 기본 원리
최대우도추정은 "관측된 데이터가 어떤 확률분포에서 생성되었을 가능성이 가장 높은가?"라는 질문에 답하는 것을 목표로 한다.
어떤 모집단이 확률 분포 함수 와 모수 로 표현되는 이산 확률 분포 를 따른다고 가정하고, 거기에서 개의 표본 을 추출한다고 생각할 때, 분포 함수로부터 관찰된 데이터(표본)가 얻어질 확률은 다음과 같이 계산할 수 있다(이산 분포는 P=f).
:
최대 가능도 방법에서는 '''를 가정했을 때 이번에 샘플링된 표본이 얻어질 확률'''에 주목한다. 즉, 위에 있는, 모수 로 조건화된 확률 P에 주목한다. 다른 ''''''(''''''와 '''''')를 가정하고 '''조건 설명 식별 콤팩트성 모델의 매개변수 공간 Θ는 콤팩트해야 한다. 연속성 함수 ln f(x θ)는 거의 모든 값의 x에 대해 θ에서 연속이다. 지배성 분포 f(x θ0)에 대해 적분 가능한 D(x)가 존재하여
ML 추정량
:
또한, 데이터가
:
여기서 I는 피셔 정보 행렬이다.
3. 2. 불변성 (Invariance)
Invariance|불변성영어는 어떤 모수의 최대우도추정량에 함수를 적용하면, 그 함수로 변환된 모수의 최대우도추정량을 얻을 수 있다는 성질이다.[19] 예를 들어, 분산의 최대우도추정량의 제곱근은 표준편차의 최대우도추정량이 된다.
최대가능도 추정량은 관측된 데이터에 가능한 가장 큰 확률(또는 연속적인 경우 확률 밀도)을 부여하는 매개변수 값을 선택한다. 매개변수가 여러 구성 요소로 구성된 경우, 완전한 매개변수의 최대가능도추정량(MLE)의 해당 구성 요소로 별도의 최대 가능도 추정량을 정의한다. 이에 따라
:
이는 소위 프로파일 가능도를 최대화한다.
:
최대가능도추정량(MLE)는 데이터의 특정 변환에 대해서도 등변성(equivariant)을 갖는다.
:
따라서
예를 들어, 로그 정규 분포의 MLE 매개변수는 데이터의 로그에 맞춰진 정규 분포의 MLE 매개변수와 같다.
3. 3. 효율성 (Efficiency)
최대우도추정량은 점근적으로 가장 작은 분산을 갖는, 즉 가장 효율적인 추정량이다. 이는 표본 크기가 커질수록 최대우도추정량이 다른 어떤 불편추정량보다 실제 모수 값에 더 가깝게 분포함을 의미한다.[16]
최대가능도 추정은 다음과 같은 여러 가지 매력적인 점근적 속성을 갖는다. 표본 크기가 무한대로 증가함에 따라, 최대가능도 추정량은 다음과 같은 속성을 갖는다.
특정 조건 하에서 최대 가능도 추정량이 분포 수렴하여 정규 분포에 수렴한다는 것을 보일 수도 있다.[18]
:
\sqrt{n}\left(\widehat{\theta\,}_\mathrm{mle} - \theta_0\right)\ \xrightarrow{d}\ \mathcal{N}\left(0,\, I^{-1}\right)
여기서
3. 4. 점근적 정규성 (Asymptotic Normality)
Asymptotic Normality영어는 표본 크기가 커짐에 따라 최대우도추정량(MLE)의 분포가 정규 분포에 가까워지는 성질을 의미한다.[18]
데이터가
:
\sqrt{n\,} \, \left( \widehat{\theta\,}_\text{mle} - \theta_0 \right)\ \ \xrightarrow{d}\ \ \mathcal{N} \left( 0,\ \mathcal{I}^{-1} \right) ~,
여기서
:
\mathcal{I}_{jk} = \operatorname{\mathbb E} \, \biggl[ \; -{ \frac{\partial^2\ln f_{\theta_0}(X_t)}{\partial\theta_j\,\partial\theta_k } }
\; \biggr] ~.
이는 최대우도추정량이
이러한 점근적 정규성 덕분에, 최대우도추정량을 사용하여 추정량의 신뢰 구간을 구하거나 가설 검정을 수행할 수 있다.
4. 제한된 모수 공간
모수(파라미터) 공간에 제약 조건이 있는 경우, 최대가능도 추정(MLE)은 좀 더 복잡해진다. 예를 들어, 확률 값은 항상 0과 1 사이여야 한다는 제약이 있을 수 있다. 이러한 제약 조건을 고려하여 우도 함수를 최대화해야 한다.
일반적으로, 제약 조건이 있는 최적화 문제를 해결하기 위해 라그랑주 승수법을 사용한다. 모수 공간이 다음과 같이 표현될 때:
:
여기서
이 경우, 제약 조건
이론적으로는 대입법을 사용하여 문제를 해결할 수 있다. 즉,
실제로는, 라그랑주 승수를 사용하여 제약 조건을 적용한다. 제약 조건이 주어지면, 다음과 같은 *제한된 우도 방정식*을 얻는다.
:
여기서
5. 예제
불공정한 동전이 얼마나 편향되었는지 알아보고 싶다고 가정해 보자. '앞면'이 나올 확률을 ''p''라고 하면, 우리의 목표는 ''p''를 결정하는 것이다.
동전을 80번 던져서, ''x''1= H, ''x''2= T, ..., ''x''80= T 와 같이 결과를 얻었다고 하자. (H는 앞면, T는 뒷면) 그리고 앞면 "H"가 나온 횟수를 세어 본다.
뒷면이 나올 확률은 1 − ''p''이다. 만약 49번의 앞면과 31번의 뒷면이 나왔고, 동전이 확률 ''p'' = 1/3, ''p'' = 1/2, ''p'' = 2/3으로 앞면이 나오는 세 개의 동전이 들어 있는 상자에서 꺼낸 것이라고 가정해 보자. 동전에는 어떤 동전인지 표시가 없기 때문에 우리는 어떤 동전인지 알 수 없다. 이럴 때, 최대 가능도 추정을 사용하면 관찰된 데이터를 기반으로 가장 가능성이 큰 동전을 찾을 수 있다. 표본 크기가 80이고 앞면이 49번 나온 이항 분포의 확률 질량 함수를 사용하여, 서로 다른 ''p'' 값("성공 확률")에 대해 가능도 함수(아래 정의)는 다음 세 가지 값을 갖게 된다.
:
\begin{align}
\operatorname{\mathbb P}\bigl[\;\mathrm{H} = 49 \mid p=\tfrac{1}{3}\;\bigr] & = \binom{80}{49}(\tfrac{1}{3})^{49}(1-\tfrac{1}{3})^{31} \approx 0.000, \\[6pt]
\operatorname{\mathbb P}\bigl[\;\mathrm{H} = 49 \mid p=\tfrac{1}{2}\;\bigr] & = \binom{80}{49}(\tfrac{1}{2})^{49}(1-\tfrac{1}{2})^{31} \approx 0.012, \\[6pt]
\operatorname{\mathbb P}\bigl[\;\mathrm{H} = 49 \mid p=\tfrac{2}{3}\;\bigr] & = \binom{80}{49}(\tfrac{2}{3})^{49}(1-\tfrac{2}{3})^{31} \approx 0.054~.
\end{align}
가능도는 ''p'' = 2/3일 때 가장 크다. 따라서 이것이 ''p''에 대한 ''최대 가능도 추정''이다.
이제 동전이 하나만 있고, ''p''가 0 ≤ ''p'' ≤ 1의 어떤 값이든 가질 수 있다고 가정해 보자. 이 때, 최대화할 가능도 함수는 다음과 같다.
:
L(p) = f_D(\mathrm{H} = 49 \mid p) = \binom{80}{49} p^{49}(1 - p)^{31}~,
그리고 최대화는 0 ≤ ''p'' ≤ 1의 모든 가능한 값에 대해 수행된다.
이 함수를 최대화하는 한 가지 방법은 ''p''에 대해 미분하고 그 값을 0으로 설정하는 것이다.
:
\begin{align}
0 & = \frac{\partial}{\partial p} \left( \binom{80}{49} p^{49}(1-p)^{31} \right)~, \\[8pt]
0 & = 49 p^{48}(1-p)^{31} - 31 p^{49}(1-p)^{30} \\[8pt]
& = p^{48}(1-p)^{30}\left[ 49 (1-p) - 31 p \right] \\[8pt]
& = p^{48}(1-p)^{30}\left[ 49 - 80 p \right]~.
\end{align}
이 식은 세 개의 항이 곱해진 형태이다. 첫 번째 항은 ''p'' = 0일 때 0이 된다. 두 번째 항은 ''p'' = 1일 때 0이 된다. 세 번째 항은 ''p'' = 49/80일 때 0이 된다. 가능도를 최대로 만드는 해는 ''p'' = 49/80이다. (''p'' = 0과 ''p'' = 1은 가능도가 0이 되므로 제외한다.) 따라서 ''p''에 대한 ''최대 가능도 추정량''은 49/80이다.
이 결과는 49 대신에 ''s''와 같은 문자를 사용하여 베르누이 시행의 '성공' 횟수를 나타내고, 80 대신에 ''n''과 같은 문자를 사용하여 베르누이 시행 횟수를 나타내면 쉽게 일반화할 수 있다. 정확히 동일한 계산을 통해 ''s''/''n''을 얻을 수 있는데, 이는 ''n''번의 '성공'을 얻는 ''n''번의 베르누이 시행에 대한 최대 가능도 추정량이다.
5. 1. 이산 균등 분포 (Discrete Uniform Distribution)
상자 안에 1부터 ''n''까지 번호가 매겨진 ''n''개의 표가 들어 있고 그중 하나가 무작위로 선택되는 경우를 생각해 보자 (균등 분포 참조). 따라서 표본 크기는 1이다. ''n''이 알려지지 않은 경우, ''n''의 최대가능도추정량5. 2. 베르누이 시행 (Bernoulli Trial)
불공정한 동전이 얼마나 편향되었는지 알아보고 싶다고 가정해 보자. '앞면'이 나올 확률을 ''p''라고 하면, 우리의 목표는 ''p''를 결정하는 것이다.
동전을 80번 던져서, ''x''1= H, ''x''2= T, ..., ''x''80= T 와 같이 결과를 얻었다고 하자. (H는 앞면, T는 뒷면) 그리고 앞면 "H"가 나온 횟수를 세어 본다.
뒷면이 나올 확률은 1 − ''p''이다. 만약 49번의 앞면과 31번의 뒷면이 나왔고, 동전이 확률 ''p'' = 1/3으로 앞면이 나오는 동전, 확률 ''p'' = 1/2으로 앞면이 나오는 동전, 확률 ''p'' = 2/3으로 앞면이 나오는 동전, 이렇게 세 개의 동전이 들어 있는 상자에서 꺼낸 것이라고 가정해 보자. 동전에는 어떤 동전인지 표시가 없기 때문에 우리는 어떤 동전인지 알 수 없다. 이럴 때, 최대 가능도 추정을 사용하면 관찰된 데이터를 기반으로 가장 가능성이 큰 동전을 찾을 수 있다. 표본 크기가 80이고 앞면이 49번 나온 이항 분포의 확률 질량 함수를 사용하여, 서로 다른 ''p'' 값("성공 확률")에 대해 가능도 함수(아래 정의)는 다음 세 가지 값 중 하나를 갖게 된다.
:
\begin{align}
\operatorname{\mathbb P}\bigl[\;\mathrm{H} = 49 \mid p=\tfrac{1}{3}\;\bigr] & = \binom{80}{49}(\tfrac{1}{3})^{49}(1-\tfrac{1}{3})^{31} \approx 0.000, \\[6pt]
\operatorname{\mathbb P}\bigl[\;\mathrm{H} = 49 \mid p=\tfrac{1}{2}\;\bigr] & = \binom{80}{49}(\tfrac{1}{2})^{49}(1-\tfrac{1}{2})^{31} \approx 0.012, \\[6pt]
\operatorname{\mathbb P}\bigl[\;\mathrm{H} = 49 \mid p=\tfrac{2}{3}\;\bigr] & = \binom{80}{49}(\tfrac{2}{3})^{49}(1-\tfrac{2}{3})^{31} \approx 0.054~.
\end{align}
가능도는 p = 2/3일 때 가장 크다. 따라서 이것이 p에 대한 ''최대 가능도 추정''이다.
이제 동전이 하나만 있고, p가 0 ≤ p ≤ 1의 어떤 값이든 가질 수 있다고 가정해 보자. 이 때, 최대화할 가능도 함수는 다음과 같다.
:
L(p) = f_D(\mathrm{H} = 49 \mid p) = \binom{80}{49} p^{49}(1 - p)^{31}~,
그리고 최대화는 0 ≤ p ≤ 1의 모든 가능한 값에 대해 수행된다.
이 함수를 최대화하는 한 가지 방법은 p에 대해 미분하고 그 값을 0으로 설정하는 것이다.
:
\begin{align}
0 & = \frac{\partial}{\partial p} \left( \binom{80}{49} p^{49}(1-p)^{31} \right)~, \\[8pt]
0 & = 49 p^{48}(1-p)^{31} - 31 p^{49}(1-p)^{30} \\[8pt]
& = p^{48}(1-p)^{30}\left[ 49 (1-p) - 31 p \right] \\[8pt]
& = p^{48}(1-p)^{30}\left[ 49 - 80 p \right]~.
\end{align}
이 식은 세 개의 항이 곱해진 형태이다. 첫 번째 항은 p = 0일 때 0이 된다. 두 번째 항은 p = 1일 때 0이 된다. 세 번째 항은 p = 49/80일 때 0이 된다. 가능도를 최대로 만드는 해는 p = 49/80이다. (p = 0과 p = 1은 가능도가 0이 되므로 제외한다.) 따라서 p에 대한 ''최대 가능도 추정량''은 49/80이다.
이 결과는 49 대신에 s와 같은 문자를 사용하여 베르누이 시행의 '성공' 횟수를 나타내고, 80 대신에 n과 같은 문자를 사용하여 베르누이 시행 횟수를 나타내면 쉽게 일반화할 수 있다. 정확히 동일한 계산을 통해 s/n을 얻을 수 있는데, 이는 n번의 '성공'을 얻는 n번의 베르누이 시행에 대한 최대 가능도 추정량이다.
6. 반복적 최적화 방법
많은 경우, 우도 방정식을 직접 풀기 어렵기 때문에 반복적인 수치 최적화 방법을 사용해야 한다. 대표적인 방법으로는 경사 하강법(Gradient Descent), 뉴턴-랩슨 방법(Newton-Raphson Method), 준뉴턴 방법(Quasi-Newton Method), 피셔 스코어링(Fisher Scoring) 등이 있다.[26][27]
이러한 방법들은 일반적으로 다음과 같은 형태의 업데이트 공식을 기반으로 하는 알고리즘을 사용한다.[28][29]
:
여기서
- 뉴턴-랩슨 방법:
:
- 여기서
\mathbf{s}_{r}(\widehat{\theta}) 는 스코어이고,\mathbf{H}^{-1}_r \left(\widehat{\theta}\right) 는 r번째 반복에서 계산된 로그 우도 함수의 역행렬이다.[31][32] 헤세 행렬 계산은 계산 비용이 많이 든다.
- 준뉴턴 방법: 헤세 행렬의 근삿값을 사용하며, 널리 사용되는 BHHH 알고리즘은 헤세 행렬을 기대 기울기의 외적으로 근사한다.
- DFP 공식: 대칭적이고 양의 정부호이며, 2차 도함수의 현재 근사값에 가장 가까운 해를 찾는다.
- BFGS 공식: 대칭적이고 양의 정부호인 해를 제공하며, 함수가 최적점 근처에서 테일러 급수를 가질 때 수렴이 보장된다. 비매끄러운 최적화 문제에서도 좋은 성능을 보일 수 있다.
- 피셔 스코어링: 헤시안을 피셔 정보 행렬
\mathcal{I}(\theta) = \operatorname{\mathbb E}\left[\mathbf{H}_r \left(\widehat{\theta}\right)\right] 로 대체하며, 일반화 선형 모형과 같은 많은 방법의 추정에 표준적으로 사용된다.
하지만, 이러한 방법들은 국소 또는 전역 최댓값이 아닌 정류점으로 수렴할 수 있으며, 국소 최솟값 또는 안장점일 수도 있다.[33] 따라서 해에서 평가된 헤시안이 음정부호이고 잘 조건화되었는지 확인하여, 얻어진 해의 유효성을 평가하는 것이 중요하다.[34]
7. 응용
경험 우도를 사용하여 비모수 최대 우도 추정을 할 수 있다.
정규 분포
:
\exp\left(-\frac {(x-\mu)^2}{2\sigma^2} \right),
''n''개의 독립 동일 분포 정규 확률 변수 표본에 대한 확률 밀도 함수 (우도)는 다음과 같다.
:
이 분포군은 두 개의 매개변수
자연 로그는 우도의 범위에서 연속 함수인 단조 증가 함수이므로, 우도를 최대화하는 값은 그 로그도 최대화한다. 로그 우도는 다음과 같다.
:
\log\Bigl( \mathcal{L} (\mu,\sigma^2)\Bigr) = -\frac{\,n\,}{2} \log(2\pi\sigma^2)
로그 우도의 도함수를 계산하면 다음과 같다.
:
\begin{align}
0 & = \frac{\partial}{\partial \mu} \log\Bigl( \mathcal{L} (\mu,\sigma^2)\Bigr) =
0 - \frac{\;-2 n(\bar{x}-\mu)\;}{2\sigma^2}.
\end{align}
여기서
마찬가지로, 로그 우도를
:
\begin{align}
0 & = \frac{\partial}{\partial \sigma} \log\Bigl( \mathcal{L} (\mu,\sigma^2)\Bigr) = -\frac{\,n\,}{\sigma}
+ \frac{1}{\sigma^3} \sum_{i=1}^{n} (\,x_i-\mu\,)^2.
\end{align}
이를 풀면
통계적 오차인 평균 0의 확률 변수
최대값에서 정규 로그 우도는
\log\Bigl( \mathcal{L}(\widehat\mu,\widehat\sigma)\Bigr) = \frac{\,-n\;\;}{2} \bigl(\,\log(2\pi\widehat\sigma^2) +1\,\bigr)
이 최대 로그 우도는 최소 제곱, 비선형 최소 제곱의 경우에도 동일하며, 우도 기반 근사 신뢰 구간 및 신뢰 영역을 결정하는 데 사용된다.
변수들이 독립적이지 않고 상관 관계를 가질 수 있다. 두 확률 변수
각 변수가
:
이변량의 경우, 결합 확률 밀도 함수는 다음과 같다.
:
이 경우와 결합 밀도 함수가 존재하는 다른 경우에서, 가능도 함수는 위에서 정의된다.
최대우도추정은 생물학에서 분자 서열 데이터를 기반으로 계통수를 추정하거나, 기계 학습의 여러 실제 응용 분야에서 매개변수 추정을 위한 모델로 사용되는 등 다양한 분야에 응용된다.
7. 1. 생물학적 계통 추정
최대우도추정은 생물학에서 분자 서열 데이터를 기반으로 계통수를 추정하는 데 사용될 수 있다. 이 방법은 염기나 아미노산 서열의 치환 확률 모델을 가정하고, 주어진 데이터에 대해 가장 높은 우도를 갖는 계통수를 찾는다.[50] 최대 절약법, 거리 행렬법 같은 다른 계통 추정 방법에 비해 계산 시간이 오래 걸리지만, 더 정확한 결과를 얻을 수 있는 것으로 알려져 있다.[50]하지만 사용하는 진화 모델을 변경하면 계통 분석의 결과가 크게 변화하는 경우가 있다.[50] 특히 진화 속도가 계통에 따라 다른 경우, 가지 길이(형질 상태의 천이 횟수) 추정을 잘못하여 부정확한 계통수를 얻을 수도 있다.[51] 또한, 최대 절약법이나 베이즈 추론에 비해 계산 속도도 느리다.[52] 이러한 단점은 소프트웨어와 알고리즘 개선으로 점차 해결되고 있다.[51]
2021년 기준으로 분자 계통 분석에 가장 널리 사용되는 계통 추정법이다.[51] 최대 우도 방법을 사용하는 대표적인 계통 추정 소프트웨어에는 PAUP*|PAUP*영어, Treefinder, RAxML 등이 있다.[52]
7. 2. 베이즈 결정 이론 (Bayes Decision Theory)에서의 활용
최대 우도 추정은 기계 학습의 여러 실제 응용 분야에서 매개변수 추정을 위한 모델로 사용된다.[22] 베이즈 결정 이론은 전체 기대 위험을 최소화하는 분류기를 설계하는 것이며, 특히 서로 다른 결정과 관련된 비용(손실 함수)이 동일할 때, 분류기는 전체 분포에 걸쳐 오류를 최소화한다.[22]베이즈 결정 규칙은 다음과 같이 표현된다:[22]
:"
여기서
:
여기서
:
:
베이즈 정리를 적용하면,[22]
:
이고, 만약 우리가 0 또는 1 손실 함수(모든 오류에 대해 동일한 손실)를 가정한다면, 베이즈 결정 규칙은 다음과 같이 재구성될 수 있다.[22]
:
여기서
8. 다른 추정 방법과의 관계
최소제곱법은 잔차 제곱합을 최소화하여 모수를 추정하는 방법이다. 선형 모델에서 오차가 정규분포를 따른다고 가정하면, 최소제곱추정량은 최대우도추정량과 일치한다.[16]
베이즈 추론은 사전 확률분포와 우도함수를 결합하여 사후 확률분포를 구하고, 이를 기반으로 모수를 추정한다. 최대 사후 확률 추정(MAP 추정)은 사후 확률분포를 최대화하는 모수 값을 찾는 방법이다. 균등 사전 분포를 가정하면, MAP 추정은 최대우도추정과 동일한 결과를 준다.[16]
최대가능도(Maximum Likelihood Estimation, MLE) 추정은 쿨백-라이블러 발산을 최소화하는 것과 점근적으로 동일하다.[23] 쿨백-라이블러 발산은 두 확률분포 간의 차이를 측정하는 척도이다. 즉, 최대가능도 추정은 주어진 데이터에 대해 실제 분포와의 "거리"를 최소화하는 분포를 찾는 것으로 해석할 수 있다.[24]
8. 1. 최소제곱법 (Least Squares Method)
최소제곱법은 잔차 제곱합을 최소화하는 방식으로 모수를 추정하는 방법이다. 선형 모델에서 오차가 정규분포를 따른다는 가정이 있을 때, 최소제곱추정량은 최대우도추정량과 일치한다.[16] 최대값에서 정규 로그 우도는 특히 간단한 형태를 취하는데, 이는 더 일반적인 최소 제곱의 경우, 심지어 비선형 최소 제곱의 경우에도 동일하다. 이것은 일반적으로 우도 기반 근사 신뢰 구간 및 신뢰 영역을 결정하는 데 사용된다.[31][32]8. 2. 베이즈 추론 (Bayesian Inference)
베이즈 추론에서는 사전 확률분포와 우도함수를 결합하여 사후 확률분포를 구하고, 이를 기반으로 모수를 추정한다. 최대 사후 확률 추정(MAP 추정)은 사후 확률분포를 최대화하는 모수 값을 찾는 방법이다. 균등 사전 분포를 가정한 경우, MAP 추정은 최대우도추정과 동일한 결과를 준다.[16]베이즈 정리에 따르면, 데이터가 주어졌을 때 모수 ''θ''의 확률은 다음과 같이 표현된다.
:
\operatorname{\mathbb P}(\theta\mid x_1,x_2,\ldots,x_n) = \frac{f(x_1,x_2,\ldots,x_n\mid\theta)\operatorname{\mathbb P}(\theta)}{\operatorname{\mathbb P}(x_1,x_2,\ldots,x_n)}
여기서
8. 3. 최소 쿨백-라이블러 발산 (Minimizing Kullback-Leibler Divergence)
최대가능도(Maximum Likelihood Estimation, MLE) 추정은 쿨백-라이블러 발산을 최소화하는 것과 점근적으로 동일하다.[23] 쿨백-라이블러 발산은 두 확률분포 간의 차이를 측정하는 척도이다. 즉, 최대가능도 추정은 주어진 데이터에 대해 실제 분포와의 "거리"를 최소화하는 분포를 찾는 것으로 해석할 수 있다.[24]
9. 역사
최대 가능도 방법의 초기 사용자로는 카를 프리드리히 가우스, 피에르시몽 라플라스, 토르발트 틸레, 프랜시스 이시드로 에지워스 등이 있다.[35][36] 1912년에서 1922년 사이에 로널드 피셔에 의해 최대우도추정이 널리 알려지고 발전되었다.[37][38]
1938년 새뮤얼 S. 윌크스는 최대우도추정량의 성질에 관한 중요한 정리(윌크스 정리)를 증명하였다.[39] 이 정리는 여러 독립적인 관측으로부터의 추정에 대한 가능도 값의 로그 오류가 점근적으로 ''χ'' 2-분포를 따른다는 것을 보여주며, 이를 통해 매개변수의 추정에 대한 신뢰 영역을 편리하게 결정할 수 있다. 윌크스의 증명에서 유일하게 어려운 부분은 피셔 정보 행렬의 기대값에 의존하며, 이는 피셔가 증명한 정리에 의해 제공된다.[40] 윌크스는 평생 동안 이 정리의 일반성을 개선해 나갔으며, 1962년에 가장 일반적인 증명을 발표했다.[41]
최대 가능도 추정의 발전에 대한 검토는 여러 저자에 의해 제공되었다.[42][43][44][45][46][47][48][49]
참조
[1]
서적
Mathematical Statistics: An Introduction to Likelihood Based Inference
John Wiley & Sons
[2]
서적
Econometric Modeling: A Likelihood Approach
Princeton University Press
[3]
서적
Maximum Likelihood Estimation for Sample Surveys
CRC Press
[4]
서적
Maximum Likelihood for Social Science: Strategies for Analysis
Cambridge University Press
[5]
서적
Numerical Recipes in FORTRAN: The Art of Scientific Computing
Cambridge University Press
[6]
논문
Tutorial on maximum likelihood Estimation
[7]
서적
Statistics and Econometrics Models
https://archive.org/[...]
Cambridge University Press
[8]
서적
Economic Statistics and Econometrics
https://archive.org/[...]
Harper & Row
[9]
서적
Numerical Methods for Nonlinear Estimating Equations
Oxford University Press
[10]
서적
Geometrical Foundations of Asymptotic Inference
https://books.google[...]
John Wiley & Sons
[11]
웹사이트
Why we always put log() before the joint pdf when we use MLE (Maximum likelihood Estimation)?
https://stats.stacke[...]
2013-09-25
[12]
서적
Statistical Inference
https://books.google[...]
Chapman and Hall
[13]
웹사이트
Does the MLE maximize the likelihood?
http://lagrange.math[...]
[14]
논문
Positive definite maximum likelihood covariance estimators
[15]
서적
Introduction to the Theory of Econometrics
VU University Press
[16]
문서
Pfanzagl
1994
[17]
서적
Handbook of Econometrics, Vol.4
Elsevier Science
[18]
서적
Handbook of Econometrics, Vol.4
Elsevier Science
[19]
서적
The Theory of Statistical Inference
John Wiley & Sons
[20]
논문
A general definition of residuals
[21]
논문
Third-order efficiency implies fourth-order efficiency
[22]
웹사이트
Pattern Recognition
https://www.cc.gatec[...]
Georgia Tech
[23]
문서
Kullback–Leibler divergence
https://stats.stacke[...]
2017-11-18
[24]
웹사이트
Introduction to Statistical Inference | Stanford (Lecture 16 — MLE under model misspecification)
https://web.stanford[...]
[25]
문서
the relationship between maximizing the likelihood and minimizing the cross-entropy
https://stats.stacke[...]
2019-11-06
[26]
서적
Practical Methods of Optimization
https://archive.org/[...]
John Wiley & Sons
[27]
서적
Numerical Optimization
Springer
[28]
서적
Multinomial Probit: The Theory and its Application to Demand Forecasting
Academic Press
[29]
서적
Maximum Likelihood Estimation with Stata
Stata Press
[30]
서적
Machine Learning: A Probabilistic Perspective
https://books.google[...]
MIT Press
[31]
서적
Advanced Econometrics
https://archive.org/[...]
Harvard University Press
[32]
서적
Lecture Notes on Advanced Econometric Theory
Basil Blackwell
[33]
서적
Nonlinear Programming: Analysis and Methods
https://books.google[...]
Prentice-Hall
[34]
서적
Practical Optimization
https://archive.org/[...]
Academic Press
[35]
논문
On the probable errors of frequency-constants
https://zenodo.org/r[...]
1908-09
[36]
논문
On the probable errors of frequency-constants
https://zenodo.org/r[...]
1908-12
[37]
서적
Parametric Statistical Theory
Walter de Gruyter
[38]
논문
On the History of Maximum Likelihood in Relation to Inverse Probability and Least Squares
https://www.jstor.or[...]
1999
[39]
논문
The large-sample distribution of the likelihood ratio for testing composite hypotheses
[40]
서적
Empirical Likelihood
Chapman & Hall; CRC Press
[41]
서적
Mathematical Statistics
John Wiley & Sons
[42]
논문
On rereading R.A. Fisher
[43]
논문
F. Y. Edgeworth and R. A. Fisher on the efficiency of maximum likelihood estimation
[44]
논문
Francis Ysidro Edgeworth, statistician
[45]
서적
The history of statistics: the measurement of uncertainty before 1900
https://archive.org/[...]
Harvard University Press
[46]
서적
Statistics on the table: the history of statistical concepts and methods
Harvard University Press
[47]
서적
A history of mathematical statistics from 1750 to 1930
Wiley
[48]
논문
On the history of maximum likelihood in relation to inverse probability and least squares
http://projecteuclid[...]
[49]
논문
R.A. Fisher and the making of maximum likelihood 1912–1922
[50]
논문
実践的系統樹推定方法
https://doi.org/10.1[...]
[51]
논문
分子系統解析の最前線
https://doi.org/10.1[...]
[52]
논문
分子系統学:最近の進歩と今後の展望
http://jppa.or.jp/ar[...]
[53]
웹사이트
ベイズ推論:いつも何度でも尋ねられること
http://watanabe-www.[...]
東京工業大学
2019-08-01
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com