최대가능도 방법

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

최대가능도 방법(MLE)은 관측된 데이터가 특정 확률 분포에서 생성되었을 가능성이 가장 높은지를 판단하는 통계적 추정 방법이다. 주어진 데이터에 대한 우도 함수를 정의하고, 이를 최대화하는 매개변수 값을 찾아 추정량을 구한다. 독립적인 표본의 경우, 우도 함수는 확률 밀도 함수의 곱으로 표현되며, 로그 우도를 활용하여 계산을 간소화할 수 있다. MLE는 일치성, 불변성, 효율성 등의 좋은 성질을 가지며, 제한된 모수 공간에서도 적용 가능하다. 다양한 응용 분야에서 활용되며, 최소제곱법, 베이즈 추론 등 다른 추정 방법과 관계를 맺는다. 로널드 피셔에 의해 현대적인 형태로 발전되었으며, 윌크스 정리를 통해 추정량의 성질이 밝혀졌다.

2. 기본 원리

최대가능도(Maximum Likelihood) 방법은 주어진 데이터가 어떤 확률분포에서 나왔을 가능성이 가장 높은지를 판단하는 방법이다. 이를 위해, 먼저 데이터가 특정 확률분포를 따른다고 가정하고, 그 분포의 모수(parameter)를 변수로 하는 우도함수(likelihood function)를 정의한다. 우도함수는 주어진 모수 하에서 관측된 데이터가 나타날 확률을 나타내며, 이 함수를 최대화하는 모수 값이 바로 최대가능도 추정량이 된다.^[6]

최대우도추정은 "관측된 데이터가 어떤 확률분포에서 생성되었을 가능성이 가장 높은가?"라는 질문에 답하는 것을 목표로 한다.

어떤 모집단이 확률 분포 함수 $f_D$ 와 모수 $\theta$ 로 표현되는 이산 확률 분포 $D$ 를 따른다고 가정하고, 거기에서 $n$ 개의 표본 $X_1, X_2, ... X_n$ 을 추출한다고 생각할 때, 분포 함수로부터 관찰된 데이터(표본)가 얻어질 확률은 다음과 같이 계산할 수 있다(이산 분포는 P=f).

: $\mathbb{P}(x_1,x_2,\dots,x_n \mid \theta) = f_D(x_1,\dots,x_n \mid \theta)$

최대 가능도 방법에서는 ''' $\theta$ 를 가정했을 때 이번에 샘플링된 표본이 얻어질 확률'''에 주목한다. 즉, 위에 있는, 모수 $\theta$ 로 조건화된 확률 P에 주목한다. 다른 ''' $\theta$ '''(''' $\theta _{a}$ '''와 ''' $\theta _{b}$ ''')를 가정하고 ''' $P_{\theta_{a}}'''였던 경우, "''' \theta _{b}''' 쪽이 더 그럴듯하다"고 직관적으로 생각할 수 있다.$

이러한 논리에 기초하여, 모수 $\theta$ 의 가장 그럴듯한 값을 찾는 방법이 최대 가능도 추정이다. 가능도 함수는 다음과 같이 정의된다.

: $L(\theta) = f_D(x_1,\dots,x_n \mid \theta)$

이 함수를 모수 $\theta$ 의 모든 가능한 값에서 보고 최대로 되도록 하는 값 $\hat{\theta}$ 를 모수 $\theta$ 에 대한 '''최대 가능도 추정량'''(maximum likelihood estimator, '''MLE'''로 약칭)이라고 한다.

2. 1. 가능도(우도) 함수

어떤 모수

\theta

로 결정되는 확률변수들의 모임

D_\theta = (X_1, X_2, \cdots, X_n)

이 있고,

D_\theta

의 확률 밀도 함수나 확률 질량 함수가

f

이고, 그 확률변수들에서 각각 값

x_1, x_2, \cdots, x_n

을 얻었을 경우, 가능도

\mathcal{L}(\theta)

는 다음과 같다.^[6]

:

\mathcal{L}(\theta) = f_{\theta}(x_1, x_2, \cdots, x_n)

여기에서 가능도를 최대로 만드는

\theta

는 다음과 같다.

:

\widehat{\theta} = \underset{\theta}{\operatorname{argmax}}\ \mathcal{L}(\theta)

이때

X_1, X_2, \cdots, X_n

이 모두 독립적이고 같은 확률분포를 가지고 있다면,

\mathcal{L}

은 다음과 같이 표현이 가능하다.^[6]

:

\mathcal{L}(\theta) = \prod_i f_{\theta}(x_i)

또한, 로그함수는 단조 증가하므로,

\mathcal{L}

에 로그를 씌운 값의 최댓값은 원래 값

\widehat{\theta}

과 같고, 이 경우 계산이 비교적 간단해진다.^[8]

:

\mathcal{L}^*(\theta) = \log \mathcal{L}(\theta) = \sum_i \log f_{\theta}(x_i)

2. 2. 로그 우도

실제 계산에서는 우도함수 대신 로그를 취한 로그우도함수를 사용하는 경우가 많다. 로그함수는 단조 증가함수이므로, 우도함수를 최대화하는 모수 값과 로그우도함수를 최대화하는 모수 값은 같다.^[8] 로그를 취하면 곱셈이 덧셈으로 바뀌어 계산이 간편해지고, 수치적 안정성도 확보할 수 있다.

로그 우도는 다음과 같이 정의된다.

:

\ell(\theta\,;\mathbf{y}) =  \ln \mathcal{L}_{n}(\theta\,;\mathbf{y}) ~.

\ell(\theta\,;\mathbf{y})

가

\, \Theta \,

에서 미분 가능한 함수라면, 최댓값 (또는 최솟값)이 발생하기 위한 충분 조건은 다음과 같다.

:

\frac{\partial \ell}{\partial \theta_{1}} = 0, \quad \frac{\partial \ell}{\partial \theta_{2}} = 0, \quad \ldots, \quad \frac{\partial \ell}{\partial \theta_{k}} = 0 ~,

이것을 우도 방정식이라고 한다. 일부 모델의 경우, 이러한 방정식을

\, \widehat{\theta\,} \,

에 대해 명시적으로 풀 수 있지만, 일반적으로 최대화 문제에 대한 폐쇄형 해는 알려져 있거나 사용할 수 없으며, 최대가능도 추정(MLE)은 수치적 최적화를 통해서만 찾을 수 있다. 또 다른 문제는 유한 표본에서 우도 방정식에 대한 여러 개의 근이 존재할 수 있다는 것이다.^[9]

2. 3. 최대우도추정량

어떤 모수(parameter)

\theta

로 결정되는 확률변수들의 모임

D_\theta = (X_1, X_2, \cdots, X_n)

이 있고,

D_\theta

의 확률 밀도 함수나 확률 질량 함수가

f

이며, 그 확률변수들에서 각각 값

x_1, x_2, \cdots, x_n

을 얻었을 경우, 가능도

\mathcal{L}(\theta)

는 다음과 같이 정의된다.^[6]

:

\mathcal{L}(\theta) = f_{\theta}(x_1, x_2, \cdots, x_n)

이때, 가능도를 최대로 만드는

\theta

는 다음과 같다.

:

\widehat{\theta} = \underset{\theta}{\operatorname{argmax}}\ \mathcal{L}(\theta)

관측 집합은 미지의 결합 확률 분포에서 나온 표본으로 모델링되며, 이 분포는 일련의 매개변수로 표현된다. 최대 우도 추정의 목표는 관측된 데이터가 가장 높은 결합 확률을 갖는 매개변수를 결정하는 것이다.^[6]

이는 관측된 데이터를 가장 확률적으로 만드는 매개변수 값을 선택하는 것이다. 우도 함수

\, \mathcal{L}_{n} \,

을 최대화하는 특정 값

~ \hat{\theta} = \hat{\theta}_{n}(\mathbf{y}) \in \Theta ~

를 최대 우도 추정량이라고 한다.^[6]

실제로, 자연 로그를 우도 함수에 적용하는 것이 편리하며, 이를 로그 우도라고 한다.^[8]

:

\ell(\theta\,;\mathbf{y}) =  \ln \mathcal{L}_{n}(\theta\,;\mathbf{y}) ~.

로그는 단조 함수이므로,

\; \ell(\theta\,;\mathbf{y}) \;

의 최댓값은

\, \mathcal{L}_{n} ~

의 최댓값과 동일한

\theta

값에서 발생한다.^[8] 만약

\ell(\theta\,;\mathbf{y})

가

\, \Theta \,

에서 미분 가능한 함수라면, 최댓값 (또는 최솟값)이 발생하기 위한 충분 조건은 다음과 같다.^[9]

:

\frac{\partial \ell}{\partial \theta_{1}} = 0, \quad \frac{\partial \ell}{\partial \theta_{2}} = 0, \quad \ldots, \quad \frac{\partial \ell}{\partial \theta_{k}} = 0 ~,

이를 우도 방정식이라고 한다.

3. 성질

최대우도추정량(MLE)은 일반적으로 다음과 같은 바람직한 성질들을 갖는다.

일치성: 표본 크기가 무한대로 커질 때, 추정량이 실제 모수 값으로 확률 수렴한다.
불변성: $\hat{\theta}$ 가 $\theta$ 의 MLE이고, $g(\theta)$ 가 $\theta$ 의 전단사 변환이면, $\alpha = g(\theta)$ 에 대한 MLE는 $\hat{\alpha} = g(\hat{\theta})$ 이다.
효율성: 표본 크기가 무한대로 갈 때 크라메르-라오 하한에 도달한다. 즉, MLE는 점근 정규성을 갖는다.
편향 보정 후 2차 효율성.

최대우도추정량은 관측된 데이터에 가능한 가장 큰 확률(또는 연속적인 경우 확률 밀도)을 부여하는 매개변수 값을 선택한다.

데이터가

f(\cdot\,;\theta_0)

에 의해 생성되었고 특정 조건 하에서 최대우도추정량이 분포 수렴하여 정규 분포에 수렴함을 보일 수 있다.^[18]

:

\sqrt{n}\left(\widehat{\theta\,}_\mathrm{mle} - \theta_0\right)\ \xrightarrow{d}\ \mathcal{N}\left(0,\, I^{-1}\right)

여기서

I

는 피셔 정보 행렬이다.

3. 1. 일치성 (Consistency)

Consistency^영어 (일치성)은 표본 크기가 무한대로 커짐에 따라, 최대우도추정량(MLE)이 실제 모수 값으로 확률적으로 수렴하는 성질을 의미한다. 즉, 데이터가 많아질수록 추정의 정확도가 높아진다는 것이다.

일치성을 확립하기 위한 조건은 다음과 같다.^[17]

조건	설명
식별	$\theta \neq \theta_0 \quad \Leftrightarrow \quad f(\cdot\mid\theta)\neq f(\cdot\mid\theta_0)$
콤팩트성	모델의 매개변수 공간 Θ는 콤팩트해야 한다.
연속성	함수 ln f(x θ)는 거의 모든 값의 x에 대해 θ에서 연속이다.
지배성	분포 f(x θ₀)에 대해 적분 가능한 D(x)가 존재하여

ML 추정량 $\widehat{\theta\,}$ 가 ''θ''₀으로 거의 확실하게 수렴함을 증명하려면 균등 수렴 (거의 확실하게) 더 강력한 조건을 부과해야 한다.

: $\sup_{\theta\in\Theta} \left\|\;\widehat{\ell\,}(\theta\mid x) - \ell(\theta)\;\right\| \ \xrightarrow{\text{a.s.}}\ 0.$

또한, 데이터가 $f(\cdot\,;\theta_0)$ 에 의해 생성된 경우 특정 조건 하에서 최대 가능도 추정량이 분포 수렴하여 정규 분포에 수렴한다는 것을 보일 수도 있다.^[18]

: $\sqrt{n}\left(\widehat{\theta\,}_\mathrm{mle} - \theta_0\right)\ \xrightarrow{d}\ \mathcal{N}\left(0,\, I^{-1}\right)$

여기서 I는 피셔 정보 행렬이다.

3. 2. 불변성 (Invariance)

Invariance|불변성^영어는 어떤 모수의 최대우도추정량에 함수를 적용하면, 그 함수로 변환된 모수의 최대우도추정량을 얻을 수 있다는 성질이다.^[19] 예를 들어, 분산의 최대우도추정량의 제곱근은 표준편차의 최대우도추정량이 된다.

최대가능도 추정량은 관측된 데이터에 가능한 가장 큰 확률(또는 연속적인 경우 확률 밀도)을 부여하는 매개변수 값을 선택한다. 매개변수가 여러 구성 요소로 구성된 경우, 완전한 매개변수의 최대가능도추정량(MLE)의 해당 구성 요소로 별도의 최대 가능도 추정량을 정의한다. 이에 따라

\widehat{\theta\,}

가

\theta

의 MLE이고

g(\theta)

가

\theta

의 임의의 변환인 경우,

\alpha=g(\theta)

에 대한 MLE는 다음과 같이 정의된다.^[19]

:

\widehat{\alpha} = g(\,\widehat{\theta\,}\,). \,

이는 소위 프로파일 가능도를 최대화한다.

:

\bar{L}(\alpha) = \sup_{\theta: \alpha = g(\theta)} L(\theta). \,

최대가능도추정량(MLE)는 데이터의 특정 변환에 대해서도 등변성(equivariant)을 갖는다.

y=g(x)

이고

g

가 일대일이며 추정할 매개변수에 의존하지 않는 경우, 밀도 함수는 다음을 만족한다.

:

f_Y(y) = f_X(g^{-1}(y)) \, |(g^{-1}(y))^{\prime}|

따라서

X

와

Y

에 대한 가능도 함수는 모델 매개변수에 의존하지 않는 인자만 다릅니다.

예를 들어, 로그 정규 분포의 MLE 매개변수는 데이터의 로그에 맞춰진 정규 분포의 MLE 매개변수와 같다.

3. 3. 효율성 (Efficiency)

최대우도추정량은 점근적으로 가장 작은 분산을 갖는, 즉 가장 효율적인 추정량이다. 이는 표본 크기가 커질수록 최대우도추정량이 다른 어떤 불편추정량보다 실제 모수 값에 더 가깝게 분포함을 의미한다.^[16]

최대가능도 추정은 다음과 같은 여러 가지 매력적인 점근적 속성을 갖는다. 표본 크기가 무한대로 증가함에 따라, 최대가능도 추정량은 다음과 같은 속성을 갖는다.

효율성: 표본 크기가 무한대로 갈 때 크라메르-라오 하한에 도달한다. 이는 일치 추정량이 MLE(또는 이 경계에 도달하는 다른 추정량)보다 낮은 점근적 평균 제곱 오차를 갖지 않는다는 것을 의미하며, 이는 MLE가 점근 정규성을 갖는다는 것을 의미한다.
편향 보정 후 2차 효율성.

특정 조건 하에서 최대 가능도 추정량이 분포 수렴하여 정규 분포에 수렴한다는 것을 보일 수도 있다.^[18]

:

\sqrt{n}\left(\widehat{\theta\,}_\mathrm{mle} - \theta_0\right)\ \xrightarrow{d}\ \mathcal{N}\left(0,\, I^{-1}\right)

여기서

I

는 피셔 정보 행렬이다.

3. 4. 점근적 정규성 (Asymptotic Normality)

Asymptotic Normality^영어는 표본 크기가 커짐에 따라 최대우도추정량(MLE)의 분포가 정규 분포에 가까워지는 성질을 의미한다.^[18]

데이터가

~f(\cdot\,;\theta_0)~

에 의해 생성되었고 특정 조건이 만족되면, 최대우도추정량

\widehat{\theta\,}_\text{mle}

는 다음처럼 정규 분포에 분포 수렴한다.^[18]

:

\sqrt{n\,} \, \left( \widehat{\theta\,}_\text{mle} - \theta_0 \right)\ \ \xrightarrow{d}\ \ \mathcal{N} \left( 0,\ \mathcal{I}^{-1} \right) ~,

여기서

~\mathcal{I}~

는 피셔 정보 행렬로 다음과 같이 정의된다.

:

\mathcal{I}_{jk} = \operatorname{\mathbb E} \, \biggl[ \; -{ \frac{\partial^2\ln f_{\theta_0}(X_t)}{\partial\theta_j\,\partial\theta_k } }\; \biggr] ~.

이는 최대우도추정량이

\sqrt{n}

-일치하며 점근적으로 효율적이라는 것을 의미하며, 크라메르-라오 하한에 도달한다. 즉, 최대우도추정량의 편향은

\sqrt{n}

차수까지 0이다.

이러한 점근적 정규성 덕분에, 최대우도추정량을 사용하여 추정량의 신뢰 구간을 구하거나 가설 검정을 수행할 수 있다.

4. 제한된 모수 공간

모수(파라미터) 공간에 제약 조건이 있는 경우, 최대가능도 추정(MLE)은 좀 더 복잡해진다. 예를 들어, 확률 값은 항상 0과 1 사이여야 한다는 제약이 있을 수 있다. 이러한 제약 조건을 고려하여 우도 함수를 최대화해야 한다.

일반적으로, 제약 조건이 있는 최적화 문제를 해결하기 위해 라그랑주 승수법을 사용한다. 모수 공간이 다음과 같이 표현될 때:

: $\Theta = \left\{ \theta : \theta \in \mathbb{R}^{k},\; h(\theta) = 0 \right\} ~,$

여기서 $\; h(\theta) = \left[ h_{1}(\theta), h_{2}(\theta), \ldots, h_{r}(\theta) \right] \;$ 는 $\mathbb{R}^{k}$ 에서 $\mathbb{R}^{r}$ 로의 벡터 값 함수이다.

이 경우, 제약 조건 $~h(\theta) = 0 ~$ 을 만족하는 우도 함수의 최댓값을 찾는 것이 목표가 된다.

이론적으로는 대입법을 사용하여 문제를 해결할 수 있다. 즉, $\; h_{1}, h_{2}, \ldots, h_{r} \;$ 함수들을 $\; h_{1}, h_{2}, \ldots, h_{r}, h_{r+1}, \ldots, h_{k} \;$ 로 확장하여, $\; h^{\ast} = \left[ h_{1}, h_{2}, \ldots, h_{k} \right] \;$ 가 $\mathbb{R}^{k}$ 에서 $\mathbb{R}^{k}$ 로의 일대일 함수가 되도록 만든다. 그런 다음 $\; \phi_{i} = h_{i}(\theta_{1}, \theta_{2}, \ldots, \theta_{k}) ~.$ 로 설정하여 우도 함수를 재매개변수화한다.^[12] 최대가능도 추정량의 등변성 덕분에, 이러한 속성은 제한된 추정량에도 적용된다.^[13] 예를 들어, 다변량 정규 분포에서 공분산 행렬 $\,\Sigma\,$ 는 양의 정부호 행렬이어야 하는데, 이는 $\; \Sigma = \Gamma^{\mathsf{T}} \Gamma \;$ 로 대체하여 제약을 가할 수 있다. 여기서 $\Gamma$ 는 실수 상 삼각 행렬이고 $\Gamma^{\mathsf{T}}$ 는 그 전치 행렬이다.^[14]

실제로는, 라그랑주 승수를 사용하여 제약 조건을 적용한다. 제약 조건이 주어지면, 다음과 같은 *제한된 우도 방정식*을 얻는다.

: $\frac{\partial \ell}{\partial \theta} - \frac{\partial h(\theta)^\mathsf{T}}{\partial \theta} \lambda = 0$ 그리고 $h(\theta) = 0 \;,$

여기서 $~ \lambda = \left[ \lambda_{1}, \lambda_{2}, \ldots, \lambda_{r}\right]^\mathsf{T} ~$ 는 라그랑주 승수의 열 벡터이고, $\; \frac{\partial h(\theta)^\mathsf{T}}{\partial \theta} \;$ 는 야코비 행렬의 편도함수이다.^[12] 제약 조건이 최댓값에서 구속력이 없다면, 라그랑주 승수는 0이 된다.^[15] 이는 라그랑주 승수 검정을 통해 제약 조건의 유효성을 검정할 수 있게 해준다.

5. 예제

불공정한 동전이 얼마나 편향되었는지 알아보고 싶다고 가정해 보자. '앞면'이 나올 확률을 ''p''라고 하면, 우리의 목표는 ''p''를 결정하는 것이다.

동전을 80번 던져서, ''x''₁= H, ''x''₂= T, ..., ''x''₈₀= T 와 같이 결과를 얻었다고 하자. (H는 앞면, T는 뒷면) 그리고 앞면 "H"가 나온 횟수를 세어 본다.

뒷면이 나올 확률은 1 − ''p''이다. 만약 49번의 앞면과 31번의 뒷면이 나왔고, 동전이 확률 ''p'' = 1/3, ''p'' = 1/2, ''p'' = 2/3으로 앞면이 나오는 세 개의 동전이 들어 있는 상자에서 꺼낸 것이라고 가정해 보자. 동전에는 어떤 동전인지 표시가 없기 때문에 우리는 어떤 동전인지 알 수 없다. 이럴 때, 최대 가능도 추정을 사용하면 관찰된 데이터를 기반으로 가장 가능성이 큰 동전을 찾을 수 있다. 표본 크기가 80이고 앞면이 49번 나온 이항 분포의 확률 질량 함수를 사용하여, 서로 다른 ''p'' 값("성공 확률")에 대해 가능도 함수(아래 정의)는 다음 세 가지 값을 갖게 된다.

:

\begin{align}\operatorname{\mathbb P}\bigl[\;\mathrm{H} = 49 \mid p=\tfrac{1}{3}\;\bigr] & = \binom{80}{49}(\tfrac{1}{3})^{49}(1-\tfrac{1}{3})^{31} \approx 0.000, \\[6pt]\operatorname{\mathbb P}\bigl[\;\mathrm{H} = 49 \mid p=\tfrac{1}{2}\;\bigr] & = \binom{80}{49}(\tfrac{1}{2})^{49}(1-\tfrac{1}{2})^{31} \approx 0.012, \\[6pt]\operatorname{\mathbb P}\bigl[\;\mathrm{H} = 49 \mid p=\tfrac{2}{3}\;\bigr] & = \binom{80}{49}(\tfrac{2}{3})^{49}(1-\tfrac{2}{3})^{31} \approx 0.054~.\end{align}

가능도는 ''p'' = 2/3일 때 가장 크다. 따라서 이것이 ''p''에 대한 ''최대 가능도 추정''이다.

이제 동전이 하나만 있고, ''p''가 0 ≤ ''p'' ≤ 1의 어떤 값이든 가질 수 있다고 가정해 보자. 이 때, 최대화할 가능도 함수는 다음과 같다.

:

L(p) = f_D(\mathrm{H} = 49 \mid p) = \binom{80}{49} p^{49}(1 - p)^{31}~,

그리고 최대화는 0 ≤ ''p'' ≤ 1의 모든 가능한 값에 대해 수행된다.

이 함수를 최대화하는 한 가지 방법은 ''p''에 대해 미분하고 그 값을 0으로 설정하는 것이다.

:

\begin{align}0 & = \frac{\partial}{\partial p} \left( \binom{80}{49} p^{49}(1-p)^{31} \right)~, \\[8pt]0 & = 49 p^{48}(1-p)^{31} - 31 p^{49}(1-p)^{30} \\[8pt]& = p^{48}(1-p)^{30}\left[ 49 (1-p) - 31 p \right]  \\[8pt]& = p^{48}(1-p)^{30}\left[ 49 - 80 p \right]~.\end{align}

이 식은 세 개의 항이 곱해진 형태이다. 첫 번째 항은 ''p'' = 0일 때 0이 된다. 두 번째 항은 ''p'' = 1일 때 0이 된다. 세 번째 항은 ''p'' = 49/80일 때 0이 된다. 가능도를 최대로 만드는 해는 ''p'' = 49/80이다. (''p'' = 0과 ''p'' = 1은 가능도가 0이 되므로 제외한다.) 따라서 ''p''에 대한 ''최대 가능도 추정량''은 49/80이다.

이 결과는 49 대신에 ''s''와 같은 문자를 사용하여 베르누이 시행의 '성공' 횟수를 나타내고, 80 대신에 ''n''과 같은 문자를 사용하여 베르누이 시행 횟수를 나타내면 쉽게 일반화할 수 있다. 정확히 동일한 계산을 통해 ''s''/''n''을 얻을 수 있는데, 이는 ''n''번의 '성공'을 얻는 ''n''번의 베르누이 시행에 대한 최대 가능도 추정량이다.

5. 1. 이산 균등 분포 (Discrete Uniform Distribution)

상자 안에 1부터 ''n''까지 번호가 매겨진 ''n''개의 표가 들어 있고 그중 하나가 무작위로 선택되는 경우를 생각해 보자 (균등 분포 참조). 따라서 표본 크기는 1이다. ''n''이 알려지지 않은 경우, ''n''의 최대가능도추정량

\widehat{n}

는 뽑힌 표의 번호 ''m''이다. (가능도는 ''n'' < ''m''의 경우 0, ''n'' ≥ ''m''의 경우

\frac{1}{n}

이며, 이는 ''n'' = ''m''일 때 가장 크다. ''n''의 최대가능도추정치는 가능한 값 {''m'', ''m'' + 1, ...} 범위의 "중간" 어딘가가 아니라 하한에서 발생하며, 이는 편향을 덜 발생시킨다.) 뽑힌 표의 번호 ''m''의 기댓값, 따라서

\widehat{n}

의 기댓값은 (''n'' + 1)/2이다. 결과적으로 표본 크기가 1일 때 ''n''의 최대가능도추정량은 (''n'' − 1)/2만큼 ''n''을 체계적으로 과소 추정하게 된다.

5. 2. 베르누이 시행 (Bernoulli Trial)

불공정한 동전이 얼마나 편향되었는지 알아보고 싶다고 가정해 보자. '앞면'이 나올 확률을 ''p''라고 하면, 우리의 목표는 ''p''를 결정하는 것이다.

동전을 80번 던져서, ''x''₁= H, ''x''₂= T, ..., ''x''₈₀= T 와 같이 결과를 얻었다고 하자. (H는 앞면, T는 뒷면) 그리고 앞면 "H"가 나온 횟수를 세어 본다.

뒷면이 나올 확률은 1 − ''p''이다. 만약 49번의 앞면과 31번의 뒷면이 나왔고, 동전이 확률 ''p'' = 1/3으로 앞면이 나오는 동전, 확률 ''p'' = 1/2으로 앞면이 나오는 동전, 확률 ''p'' = 2/3으로 앞면이 나오는 동전, 이렇게 세 개의 동전이 들어 있는 상자에서 꺼낸 것이라고 가정해 보자. 동전에는 어떤 동전인지 표시가 없기 때문에 우리는 어떤 동전인지 알 수 없다. 이럴 때, 최대 가능도 추정을 사용하면 관찰된 데이터를 기반으로 가장 가능성이 큰 동전을 찾을 수 있다. 표본 크기가 80이고 앞면이 49번 나온 이항 분포의 확률 질량 함수를 사용하여, 서로 다른 ''p'' 값("성공 확률")에 대해 가능도 함수(아래 정의)는 다음 세 가지 값 중 하나를 갖게 된다.

:

\begin{align}\operatorname{\mathbb P}\bigl[\;\mathrm{H} = 49 \mid p=\tfrac{1}{3}\;\bigr] & = \binom{80}{49}(\tfrac{1}{3})^{49}(1-\tfrac{1}{3})^{31} \approx 0.000, \\[6pt]\operatorname{\mathbb P}\bigl[\;\mathrm{H} = 49 \mid p=\tfrac{1}{2}\;\bigr] & = \binom{80}{49}(\tfrac{1}{2})^{49}(1-\tfrac{1}{2})^{31} \approx 0.012, \\[6pt]\operatorname{\mathbb P}\bigl[\;\mathrm{H} = 49 \mid p=\tfrac{2}{3}\;\bigr] & = \binom{80}{49}(\tfrac{2}{3})^{49}(1-\tfrac{2}{3})^{31} \approx 0.054~.\end{align}

가능도는 p = 2/3일 때 가장 크다. 따라서 이것이 p에 대한 ''최대 가능도 추정''이다.

이제 동전이 하나만 있고, p가 0 ≤ p ≤ 1의 어떤 값이든 가질 수 있다고 가정해 보자. 이 때, 최대화할 가능도 함수는 다음과 같다.

:

L(p) = f_D(\mathrm{H} = 49 \mid p) = \binom{80}{49} p^{49}(1 - p)^{31}~,

그리고 최대화는 0 ≤ p ≤ 1의 모든 가능한 값에 대해 수행된다.

이 함수를 최대화하는 한 가지 방법은 p에 대해 미분하고 그 값을 0으로 설정하는 것이다.

:

\begin{align}0 & = \frac{\partial}{\partial p} \left( \binom{80}{49} p^{49}(1-p)^{31} \right)~, \\[8pt]0 & = 49 p^{48}(1-p)^{31} - 31 p^{49}(1-p)^{30} \\[8pt]& = p^{48}(1-p)^{30}\left[ 49 (1-p) - 31 p \right]  \\[8pt]& = p^{48}(1-p)^{30}\left[ 49 - 80 p \right]~.\end{align}

이 식은 세 개의 항이 곱해진 형태이다. 첫 번째 항은 p = 0일 때 0이 된다. 두 번째 항은 p = 1일 때 0이 된다. 세 번째 항은 p = 49/80일 때 0이 된다. 가능도를 최대로 만드는 해는 p = 49/80이다. (p = 0과 p = 1은 가능도가 0이 되므로 제외한다.) 따라서 p에 대한 ''최대 가능도 추정량''은 49/80이다.

이 결과는 49 대신에 s와 같은 문자를 사용하여 베르누이 시행의 '성공' 횟수를 나타내고, 80 대신에 n과 같은 문자를 사용하여 베르누이 시행 횟수를 나타내면 쉽게 일반화할 수 있다. 정확히 동일한 계산을 통해 s/n을 얻을 수 있는데, 이는 n번의 '성공'을 얻는 n번의 베르누이 시행에 대한 최대 가능도 추정량이다.

6. 반복적 최적화 방법

많은 경우, 우도 방정식을 직접 풀기 어렵기 때문에 반복적인 수치 최적화 방법을 사용해야 한다. 대표적인 방법으로는 경사 하강법(Gradient Descent), 뉴턴-랩슨 방법(Newton-Raphson Method), 준뉴턴 방법(Quasi-Newton Method), 피셔 스코어링(Fisher Scoring) 등이 있다.^[26]^[27]

이러한 방법들은 일반적으로 다음과 같은 형태의 업데이트 공식을 기반으로 하는 알고리즘을 사용한다.^[28]^[29]

: $\widehat{\theta}_{r+1} = \widehat{\theta}_{r} + \eta_{r} \mathbf{d}_r\left(\widehat{\theta}\right)$

여기서 $\mathbf{d}_{r}\left(\widehat{\theta}\right)$ 는 r번째 단계의 하강 방향을 나타내는 벡터이고, $\eta_{r}$ 는 "단계 길이"^[30]를 나타내는 스칼라로, 학습률이라고도 한다.

경사 하강법: 각 반복에서 기울기를 계산하지만, 2차 도함수인 헤세 행렬의 역행렬을 계산할 필요가 없어 뉴턴-랩슨 방법보다 계산 속도가 빠르다.

뉴턴-랩슨 방법:

:

\eta_r = 1

및

\mathbf{d}_r\left(\widehat{\theta}\right) = -\mathbf{H}^{-1}_r\left(\widehat{\theta}\right) \mathbf{s}_r\left(\widehat{\theta}\right)

여기서 $\mathbf{s}_{r}(\widehat{\theta})$ 는 스코어이고, $\mathbf{H}^{-1}_r \left(\widehat{\theta}\right)$ 는 r번째 반복에서 계산된 로그 우도 함수의 역행렬이다.^[31]^[32] 헤세 행렬 계산은 계산 비용이 많이 든다.

준뉴턴 방법: 헤세 행렬의 근삿값을 사용하며, 널리 사용되는 BHHH 알고리즘은 헤세 행렬을 기대 기울기의 외적으로 근사한다.
DFP 공식: 대칭적이고 양의 정부호이며, 2차 도함수의 현재 근사값에 가장 가까운 해를 찾는다.
BFGS 공식: 대칭적이고 양의 정부호인 해를 제공하며, 함수가 최적점 근처에서 테일러 급수를 가질 때 수렴이 보장된다. 비매끄러운 최적화 문제에서도 좋은 성능을 보일 수 있다.

피셔 스코어링: 헤시안을 피셔 정보 행렬 $\mathcal{I}(\theta) = \operatorname{\mathbb E}\left[\mathbf{H}_r \left(\widehat{\theta}\right)\right]$ 로 대체하며, 일반화 선형 모형과 같은 많은 방법의 추정에 표준적으로 사용된다.

하지만, 이러한 방법들은 국소 또는 전역 최댓값이 아닌 정류점으로 수렴할 수 있으며, 국소 최솟값 또는 안장점일 수도 있다.^[33] 따라서 해에서 평가된 헤시안이 음정부호이고 잘 조건화되었는지 확인하여, 얻어진 해의 유효성을 평가하는 것이 중요하다.^[34]

7. 응용

경험 우도를 사용하여 비모수 최대 우도 추정을 할 수 있다.

정규 분포 $\mathcal{N}(\mu, \sigma^2)$ 의 확률 밀도 함수는 다음과 같다.

: $f(x\mid \mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}\ }\exp\left(-\frac {(x-\mu)^2}{2\sigma^2} \right),$

''n''개의 독립 동일 분포 정규 확률 변수 표본에 대한 확률 밀도 함수 (우도)는 다음과 같다.

: $f(x_1,\ldots,x_n \mid \mu,\sigma^2) = \prod_{i=1}^n f( x_i\mid \mu, \sigma^2) = \left( \frac{1}{2\pi\sigma^2} \right)^{n/2} \exp\left( -\frac{ \sum_{i=1}^n (x_i-\mu)^2}{2\sigma^2}\right).$

이 분포군은 두 개의 매개변수 $\theta = (\mu, \sigma)$ 를 가지므로, 우도 $\mathcal{L} (\mu,\sigma^2) = f(x_1,\ldots,x_n \mid \mu, \sigma^2)$ 를 최대화한다.

자연 로그는 우도의 범위에서 연속 함수인 단조 증가 함수이므로, 우도를 최대화하는 값은 그 로그도 최대화한다. 로그 우도는 다음과 같다.

: $\log\Bigl( \mathcal{L} (\mu,\sigma^2)\Bigr) = -\frac{\,n\,}{2} \log(2\pi\sigma^2)$

\frac{1}{2\sigma^2} \sum_{i=1}^n (\,x_i-\mu\,)^2

로그 우도의 도함수를 계산하면 다음과 같다.

:

\begin{align}0 & = \frac{\partial}{\partial \mu} \log\Bigl( \mathcal{L} (\mu,\sigma^2)\Bigr) =0 - \frac{\;-2 n(\bar{x}-\mu)\;}{2\sigma^2}.\end{align}

여기서

\bar{x}

는 표본 평균이다. 이를 풀면

\widehat\mu = \bar{x} = \sum^n_{i=1} \frac{\,x_i\,}{n}

이다. 이는 최대 우도 추정량

\widehat\mu

가 편향되지 않음을 의미한다.

마찬가지로, 로그 우도를

\sigma

에 대해 미분하고 0으로 두면 다음과 같다.

:

\begin{align}0 & = \frac{\partial}{\partial \sigma} \log\Bigl( \mathcal{L} (\mu,\sigma^2)\Bigr) = -\frac{\,n\,}{\sigma}+ \frac{1}{\sigma^3} \sum_{i=1}^{n} (\,x_i-\mu\,)^2.\end{align}

이를 풀면

\widehat\sigma^2 = \frac{1}{n} \sum_{i=1}^n(x_i-\mu)^2

이다.

\mu = \widehat\mu

를 대입하면

\widehat\sigma^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2 = \frac{1}{n}\sum_{i=1}^n x_i^2 -\frac{1}{n^2}\sum_{i=1}^n\sum_{j=1}^n x_i x_j

이다.

통계적 오차인 평균 0의 확률 변수

\delta_i \equiv \mu - x_i

를 사용하여 식을 다시 쓰면, 기댓값을 계산하여 추정량

\widehat\sigma^2

이

\sigma^2

에 대해 편향됨을 알 수 있다.

\theta=(\mu,\sigma^2)

에 대한 ''최대 우도 추정량''은

\widehat{\theta\,} = \left(\widehat{\mu},\widehat{\sigma}^2\right)

이다.

최대값에서 정규 로그 우도는

\log\Bigl( \mathcal{L}(\widehat\mu,\widehat\sigma)\Bigr) = \frac{\,-n\;\;}{2} \bigl(\,\log(2\pi\widehat\sigma^2) +1\,\bigr)

이다.

이 최대 로그 우도는 최소 제곱, 비선형 최소 제곱의 경우에도 동일하며, 우도 기반 근사 신뢰 구간 및 신뢰 영역을 결정하는 데 사용된다.

변수들이 독립적이지 않고 상관 관계를 가질 수 있다. 두 확률 변수

y_1

과

y_2

의 결합 확률 밀도 함수가 개별 확률 밀도 함수의 곱, 즉

f(y_1,y_2)=f(y_1)f(y_2)\,

이면 독립적이다.

각 변수가

(\mu_1, \ldots, \mu_n)

평균을 갖는 확률 변수

(y_1,\ldots,y_n)

으로부터 차수 ''n''의 가우스 벡터를 구성하고, 공분산 행렬을

\mathit\Sigma

로 표기하면, 이들 ''n''개 확률 변수의 결합 확률 밀도 함수는 다변량 정규 분포를 따르며 다음과 같다.

:

f(y_1,\ldots,y_n)=\frac{1}{(2\pi)^{n/2}\sqrt{\det(\mathit\Sigma)}} \exp\left( -\frac{1}{2} \left[y_1-\mu_1,\ldots,y_n-\mu_n\right]\mathit\Sigma^{-1}     \left[y_1-\mu_1,\ldots,y_n-\mu_n\right]^\mathrm{T} \right)

이변량의 경우, 결합 확률 밀도 함수는 다음과 같다.

:

f(y_1,y_2) = \frac{1}{2\pi \sigma_{1} \sigma_2 \sqrt{1-\rho^2}} \exp\left[ -\frac{1}{2(1-\rho^2)} \left(\frac{(y_1-\mu_1)^2}{\sigma_1^2} - \frac{2\rho(y_1-\mu_1)(y_2-\mu_2)}{\sigma_1\sigma_2} + \frac{(y_2-\mu_2)^2}{\sigma_2^2}\right) \right]

이 경우와 결합 밀도 함수가 존재하는 다른 경우에서, 가능도 함수는 위에서 정의된다.

최대우도추정은 생물학에서 분자 서열 데이터를 기반으로 계통수를 추정하거나, 기계 학습의 여러 실제 응용 분야에서 매개변수 추정을 위한 모델로 사용되는 등 다양한 분야에 응용된다.

7. 1. 생물학적 계통 추정

최대우도추정은 생물학에서 분자 서열 데이터를 기반으로 계통수를 추정하는 데 사용될 수 있다. 이 방법은 염기나 아미노산 서열의 치환 확률 모델을 가정하고, 주어진 데이터에 대해 가장 높은 우도를 갖는 계통수를 찾는다.^[50] 최대 절약법, 거리 행렬법 같은 다른 계통 추정 방법에 비해 계산 시간이 오래 걸리지만, 더 정확한 결과를 얻을 수 있는 것으로 알려져 있다.^[50]

하지만 사용하는 진화 모델을 변경하면 계통 분석의 결과가 크게 변화하는 경우가 있다.^[50] 특히 진화 속도가 계통에 따라 다른 경우, 가지 길이(형질 상태의 천이 횟수) 추정을 잘못하여 부정확한 계통수를 얻을 수도 있다.^[51] 또한, 최대 절약법이나 베이즈 추론에 비해 계산 속도도 느리다.^[52] 이러한 단점은 소프트웨어와 알고리즘 개선으로 점차 해결되고 있다.^[51]

2021년 기준으로 분자 계통 분석에 가장 널리 사용되는 계통 추정법이다.^[51] 최대 우도 방법을 사용하는 대표적인 계통 추정 소프트웨어에는 PAUP*|PAUP*^영어, Treefinder, RAxML 등이 있다.^[52]

7. 2. 베이즈 결정 이론 (Bayes Decision Theory)에서의 활용

최대 우도 추정은 기계 학습의 여러 실제 응용 분야에서 매개변수 추정을 위한 모델로 사용된다.^[22] 베이즈 결정 이론은 전체 기대 위험을 최소화하는 분류기를 설계하는 것이며, 특히 서로 다른 결정과 관련된 비용(손실 함수)이 동일할 때, 분류기는 전체 분포에 걸쳐 오류를 최소화한다.^[22]

베이즈 결정 규칙은 다음과 같이 표현된다:^[22]

:"

\;w_1\;

이면

~\operatorname{\mathbb P}(w_1|x) \; > \; \operatorname{\mathbb P}(w_2|x)~;~

그렇지 않으면

\;w_2\;

로 결정"

여기서

\;w_1\,, w_2\;

는 서로 다른 클래스의 예측이다. 오류를 최소화하는 관점에서, 다음과 같이 표현할 수도 있다.^[22]

:

w = \underset{ w }{\operatorname{arg\;max}} \; \int_{-\infty}^\infty \operatorname{\mathbb P}(\text{ error}\mid x)\operatorname{\mathbb P}(x)\,\operatorname{d}x~

여기서

:

\operatorname{\mathbb P}(\text{ error}\mid x) = \operatorname{\mathbb P}(w_1\mid x)~

(만약 우리가

\;w_2\;

로 결정하는 경우)

:

\operatorname{\mathbb P}(\text{ error}\mid x) = \operatorname{\mathbb P}(w_2\mid x)\;

(만약 우리가

\;w_1\;

로 결정하는 경우)

베이즈 정리를 적용하면,^[22]

:

\operatorname{\mathbb P}(w_i \mid x) = \frac{\operatorname{\mathbb P}(x \mid w_i) \operatorname{\mathbb P}(w_i)}{\operatorname{\mathbb P}(x)}

이고, 만약 우리가 0 또는 1 손실 함수(모든 오류에 대해 동일한 손실)를 가정한다면, 베이즈 결정 규칙은 다음과 같이 재구성될 수 있다.^[22]

:

h_\text{Bayes} = \underset{ w }{\operatorname{arg\;max}} \, \bigl[\, \operatorname{\mathbb P}(x\mid w)\,\operatorname{\mathbb P}(w) \,\bigr]\;,

여기서

h_\text{Bayes}

는 예측이고

\;\operatorname{\mathbb P}(w)\;

는 사전 확률이다.

8. 다른 추정 방법과의 관계

최소제곱법은 잔차 제곱합을 최소화하여 모수를 추정하는 방법이다. 선형 모델에서 오차가 정규분포를 따른다고 가정하면, 최소제곱추정량은 최대우도추정량과 일치한다.^[16]

베이즈 추론은 사전 확률분포와 우도함수를 결합하여 사후 확률분포를 구하고, 이를 기반으로 모수를 추정한다. 최대 사후 확률 추정(MAP 추정)은 사후 확률분포를 최대화하는 모수 값을 찾는 방법이다. 균등 사전 분포를 가정하면, MAP 추정은 최대우도추정과 동일한 결과를 준다.^[16]

최대가능도(Maximum Likelihood Estimation, MLE) 추정은 쿨백-라이블러 발산을 최소화하는 것과 점근적으로 동일하다.^[23] 쿨백-라이블러 발산은 두 확률분포 간의 차이를 측정하는 척도이다. 즉, 최대가능도 추정은 주어진 데이터에 대해 실제 분포와의 "거리"를 최소화하는 분포를 찾는 것으로 해석할 수 있다.^[24]

8. 1. 최소제곱법 (Least Squares Method)

최소제곱법은 잔차 제곱합을 최소화하는 방식으로 모수를 추정하는 방법이다. 선형 모델에서 오차가 정규분포를 따른다는 가정이 있을 때, 최소제곱추정량은 최대우도추정량과 일치한다.^[16] 최대값에서 정규 로그 우도는 특히 간단한 형태를 취하는데, 이는 더 일반적인 최소 제곱의 경우, 심지어 비선형 최소 제곱의 경우에도 동일하다. 이것은 일반적으로 우도 기반 근사 신뢰 구간 및 신뢰 영역을 결정하는 데 사용된다.^[31]^[32]

8. 2. 베이즈 추론 (Bayesian Inference)

베이즈 추론에서는 사전 확률분포와 우도함수를 결합하여 사후 확률분포를 구하고, 이를 기반으로 모수를 추정한다. 최대 사후 확률 추정(MAP 추정)은 사후 확률분포를 최대화하는 모수 값을 찾는 방법이다. 균등 사전 분포를 가정한 경우, MAP 추정은 최대우도추정과 동일한 결과를 준다.^[16]

베이즈 정리에 따르면, 데이터가 주어졌을 때 모수 ''θ''의 확률은 다음과 같이 표현된다.

:

\operatorname{\mathbb P}(\theta\mid x_1,x_2,\ldots,x_n) = \frac{f(x_1,x_2,\ldots,x_n\mid\theta)\operatorname{\mathbb P}(\theta)}{\operatorname{\mathbb P}(x_1,x_2,\ldots,x_n)}

여기서

\operatorname{\mathbb P}(\theta)

는 모수 ''θ''에 대한 사전 분포이고,

\operatorname{\mathbb P}(x_1,x_2,\ldots,x_n)

는 모든 모수에 대해 평균된 데이터의 확률이다. 분모는 ''θ''와 독립적이므로, 베이즈 추정량은

f(x_1,x_2,\ldots,x_n\mid\theta)\operatorname{\mathbb P}(\theta)

를 ''θ''에 대해 최대화함으로써 얻어진다. 만약 사전 분포

\operatorname{\mathbb P}(\theta)

가 균등 분포라고 가정하면, 베이즈 추정량은 우도 함수

f(x_1,x_2,\ldots,x_n\mid\theta)

를 최대화하여 얻어진다. 따라서 베이즈 추정량은 균등 사전 분포

\operatorname{\mathbb P}(\theta)

에 대한 최대 우도 추정량과 일치한다.

8. 3. 최소 쿨백-라이블러 발산 (Minimizing Kullback-Leibler Divergence)

최대가능도(Maximum Likelihood Estimation, MLE) 추정은 쿨백-라이블러 발산을 최소화하는 것과 점근적으로 동일하다.^[23] 쿨백-라이블러 발산은 두 확률분포 간의 차이를 측정하는 척도이다. 즉, 최대가능도 추정은 주어진 데이터에 대해 실제 분포와의 "거리"를 최소화하는 분포를 찾는 것으로 해석할 수 있다.^[24]

'''증명'''

9. 역사

최대 가능도 방법의 초기 사용자로는 카를 프리드리히 가우스, 피에르시몽 라플라스, 토르발트 틸레, 프랜시스 이시드로 에지워스 등이 있다.^[35]^[36] 1912년에서 1922년 사이에 로널드 피셔에 의해 최대우도추정이 널리 알려지고 발전되었다.^[37]^[38]

1938년 새뮤얼 S. 윌크스는 최대우도추정량의 성질에 관한 중요한 정리(윌크스 정리)를 증명하였다.^[39] 이 정리는 여러 독립적인 관측으로부터의 추정에 대한 가능도 값의 로그 오류가 점근적으로 ''χ''²-분포를 따른다는 것을 보여주며, 이를 통해 매개변수의 추정에 대한 신뢰 영역을 편리하게 결정할 수 있다. 윌크스의 증명에서 유일하게 어려운 부분은 피셔 정보 행렬의 기대값에 의존하며, 이는 피셔가 증명한 정리에 의해 제공된다.^[40] 윌크스는 평생 동안 이 정리의 일반성을 개선해 나갔으며, 1962년에 가장 일반적인 증명을 발표했다.^[41]

최대 가능도 추정의 발전에 대한 검토는 여러 저자에 의해 제공되었다.^[42]^[43]^[44]^[45]^[46]^[47]^[48]^[49]

참조

_[1] 서적 Mathematical Statistics: An Introduction to Likelihood Based Inference John Wiley & Sons
_[2] 서적 Econometric Modeling: A Likelihood Approach Princeton University Press
_[3] 서적 Maximum Likelihood Estimation for Sample Surveys CRC Press
_[4] 서적 Maximum Likelihood for Social Science: Strategies for Analysis Cambridge University Press
_[5] 서적 Numerical Recipes in FORTRAN: The Art of Scientific Computing Cambridge University Press
_[6] 논문 Tutorial on maximum likelihood Estimation
_[7] 서적 Statistics and Econometrics Models https://archive.org/[...] Cambridge University Press
_[8] 서적 Economic Statistics and Econometrics https://archive.org/[...] Harper & Row
_[9] 서적 Numerical Methods for Nonlinear Estimating Equations Oxford University Press
_[10] 서적 Geometrical Foundations of Asymptotic Inference https://books.google[...] John Wiley & Sons
_[11] 웹사이트 Why we always put log() before the joint pdf when we use MLE (Maximum likelihood Estimation)? https://stats.stacke[...] 2013-09-25
_[12] 서적 Statistical Inference https://books.google[...] Chapman and Hall
_[13] 웹사이트 Does the MLE maximize the likelihood? http://lagrange.math[...]
_[14] 논문 Positive definite maximum likelihood covariance estimators
_[15] 서적 Introduction to the Theory of Econometrics VU University Press
_[16] 문서 Pfanzagl 1994
_[17] 서적 Handbook of Econometrics, Vol.4 Elsevier Science
_[18] 서적 Handbook of Econometrics, Vol.4 Elsevier Science
_[19] 서적 The Theory of Statistical Inference John Wiley & Sons
_[20] 논문 A general definition of residuals
_[21] 논문 Third-order efficiency implies fourth-order efficiency
_[22] 웹사이트 Pattern Recognition https://www.cc.gatec[...] Georgia Tech
_[23] 문서 Kullback–Leibler divergence https://stats.stacke[...] 2017-11-18
_[24] 웹사이트 Introduction to Statistical Inference | Stanford (Lecture 16 — MLE under model misspecification) https://web.stanford[...]
_[25] 문서 the relationship between maximizing the likelihood and minimizing the cross-entropy https://stats.stacke[...] 2019-11-06
_[26] 서적 Practical Methods of Optimization https://archive.org/[...] John Wiley & Sons
_[27] 서적 Numerical Optimization Springer
_[28] 서적 Multinomial Probit: The Theory and its Application to Demand Forecasting Academic Press
_[29] 서적 Maximum Likelihood Estimation with Stata Stata Press
_[30] 서적 Machine Learning: A Probabilistic Perspective https://books.google[...] MIT Press
_[31] 서적 Advanced Econometrics https://archive.org/[...] Harvard University Press
_[32] 서적 Lecture Notes on Advanced Econometric Theory Basil Blackwell
_[33] 서적 Nonlinear Programming: Analysis and Methods https://books.google[...] Prentice-Hall
_[34] 서적 Practical Optimization https://archive.org/[...] Academic Press
_[35] 논문 On the probable errors of frequency-constants https://zenodo.org/r[...] 1908-09
_[36] 논문 On the probable errors of frequency-constants https://zenodo.org/r[...] 1908-12
_[37] 서적 Parametric Statistical Theory Walter de Gruyter
_[38] 논문 On the History of Maximum Likelihood in Relation to Inverse Probability and Least Squares https://www.jstor.or[...] 1999
_[39] 논문 The large-sample distribution of the likelihood ratio for testing composite hypotheses
_[40] 서적 Empirical Likelihood Chapman & Hall; CRC Press
_[41] 서적 Mathematical Statistics John Wiley & Sons
_[42] 논문 On rereading R.A. Fisher
_[43] 논문 F. Y. Edgeworth and R. A. Fisher on the efficiency of maximum likelihood estimation
_[44] 논문 Francis Ysidro Edgeworth, statistician
_[45] 서적 The history of statistics: the measurement of uncertainty before 1900 https://archive.org/[...] Harvard University Press
_[46] 서적 Statistics on the table: the history of statistical concepts and methods Harvard University Press
_[47] 서적 A history of mathematical statistics from 1750 to 1930 Wiley
_[48] 논문 On the history of maximum likelihood in relation to inverse probability and least squares http://projecteuclid[...]
_[49] 논문 R.A. Fisher and the making of maximum likelihood 1912–1922
_[50] 논문 実践的系統樹推定方法 https://doi.org/10.1[...]
_[51] 논문 分子系統解析の最前線 https://doi.org/10.1[...]
_[52] 논문 分子系統学：最近の進歩と今後の展望 http://jppa.or.jp/ar[...]
_[53] 웹사이트 ベイズ推論：いつも何度でも尋ねられること http://watanabe-www.[...] 東京工業大学 2019-08-01

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com