맨위로가기

가능도

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

가능도는 확률변수가 특정 값을 가질 때, 모수(parameter)에 대한 확률분포의 함수로 정의된다. 가능도 함수는 최대 가능도 추정, 가능도비 검정 등에 활용되며, 베이즈 추론, 정보 이론 등 다양한 통계학적 추론 방법에서 핵심적인 역할을 한다. 가능도는 확률과는 구분되는 개념이며, 로널드 피셔에 의해 수학 통계학에 도입되었다.

더 읽어볼만한 페이지

  • 추정 이론 - 기댓값 최대화 알고리즘
  • 추정 이론 - 델파이 기법
    델파이 기법은 전문가들의 의견을 반복적인 피드백을 통해 수렴하여 문제를 해결하는 하향식 의견 도출 방법으로, 익명성, 정보 흐름의 구조화, 정기적인 피드백을 특징으로 하며 다양한 분야에서 활용된다.
  • 베이즈 통계학 - 주관주의
    주관주의는 현실이 인식에 의존한다는 철학적 입장으로, 형이상학에서는 궁극적 실재가 인식에 달려있다고 보며, 윤리학에서는 윤리적 판단이 개인의 태도에 따라 달라진다고 보고, 확률론에서는 확률을 개인의 신념으로 해석한다.
  • 베이즈 통계학 - 사후 확률
    사후 확률은 베이즈 통계학에서 증거가 주어졌을 때 모수의 확률을 나타내며, 베이즈 정리를 통해 계산하고, 사전 확률을 갱신하여 사후 확률 분포를 얻는 데 활용된다.
가능도
개요
유형확률 함수
분야통계학, 확률론
상세 정보
모수모수
확률변수확률변수
관련 개념최대가능도 추정법, 우도비 검정, 정보량
정의
정의모수 θ에 대한 확률변수 x의 확률밀도함수 L(θ|x)는, x가 주어졌을 때 θ의 함수로 해석될 수 있으며, 이를 우도함수라고 한다.
표기L(θ|x)

2. 정의

확률변수 X가 모수 \theta에 대한 확률분포 P_\theta(X)를 가지며, X가 특정한 값 x으로 관측되었을 경우, \theta가능도 함수 \mathcal L(\theta|x)는 주어진 관측값 x에 대한 모수 \theta가능성(likelihood영어)을 나타내는 함수로, 다음과 같이 정의된다.

:\mathcal{L}(\theta|x) =\Pr(X=x|\theta)

즉, 가능도 함수는 어떤 모수 \theta 값을 가정했을 때, 우리가 실제로 관측한 데이터 x가 나올 확률을 의미한다. 중요한 점은 가능도 함수는 관측값 x를 고정된 상수로 보고, 모수 \theta를 변수로 취급하는 함수라는 것이다. 이는 \theta를 고정하고 x를 변수로 보는 확률 밀도 함수확률 질량 함수 f(x|\theta)와는 해석의 관점이 다르다.

가능도 함수는 그 자체로 확률을 의미하지 않으며, 특히 관측된 데이터 x가 주어졌을 때 모수 \theta가 특정 값일 확률, 즉 사후 확률 P(\theta \mid x)과는 다른 개념이다. 가능도는 \theta에 대한 확률 분포가 아니므로, 모든 가능한 \theta 값에 대해 가능도를 합하거나 적분해도 일반적으로 1이 되지 않는다. 가능도를 확률로 해석하는 것은 흔하게 발생하는 오류이며, 잘못된 결론으로 이어질 수 있다(검사의 오류 참조). 가능도는 단지 다른 모수 값들과 비교하여 어떤 모수 값이 주어진 데이터를 더 잘 설명하는지를 나타내는 상대적인 척도로 사용된다.
로그 가능도(log likelihood영어)는 가능도 함수의 로그를 취한 값으로, 계산상의 편의를 위해 자주 사용된다.

:\log \mathcal{L}(\theta|x)

특히 확률 변수가 여러 개의 독립적인 확률 변수 X = (X_1, X_2, \cdots, X_n)로 구성될 때, 전체 가능도 함수는 각 확률 변수의 확률(밀도/질량) 함수의 곱으로 표현된다.

:\mathcal{L}(\theta|x) = P_\theta(X=x) = P_{1,\theta}(X_1=x_1) P_{2,\theta}(X_2=x_2) \cdots P_{n,\theta}(X_n=x_n)

이 경우 로그 가능도는 각 확률 변수의 로그 확률(밀도/질량)의 합으로 변환되어 계산이 훨씬 간편해진다.

:\log \mathcal{L}(\theta|x) = \log P_{1,\theta}(X_1=x_1) + \log P_{2,\theta}(X_2=x_2) + \cdots + \log P_{n,\theta}(X_n=x_n) = \sum_i \log P_{i, \theta}(X_i = x_i)

로그 함수는 단조 증가 함수이기 때문에, 가능도 함수를 최대로 만드는 \theta 값과 로그 가능도 함수를 최대로 만드는 \theta 값은 동일하다. 따라서 최대 우도 추정법과 같은 통계적 추정 방법에서는 계산이 용이한 로그 가능도를 미분하여 최댓값을 찾는 경우가 많다.

측도론에서는 가능도 함수를 보다 일반적으로 정의할 수 있으며, 이를 통해 이산형, 연속형, 혼합형 분포 등 다양한 종류의 확률 분포에 대해 일관되게 가능도 함수를 구성할 수 있다.[5][6]

2. 1. 이산 확률 분포

X를 모수 \theta에 의존하는 확률 질량 함수 p를 갖는 이산 확률 변수라고 하자. 그러면

\mathcal{L}(\theta \mid x) = p_\theta (x) = P_\theta (X=x),

\theta의 함수로 간주했을 때, 이는 확률 변수 X의 결과 x가 주어졌을 때의 가능도 함수이다. 때때로 "모수 값 \theta에 대한 X의 값 x"에 대한 확률은 P(X = x \mid \theta) 또는 P(X = x; \theta)로 표기된다. 가능도는 모수의 참값이 \theta일 때 특정 결과 x가 관찰될 확률로, x에 대한 확률 질량과 동일하며, \theta에 대한 확률 밀도가 아니다. 가능도 \mathcal{L}(\theta \mid x) 는 데이터 x가 주어졌을 때 \theta의 사후 확률인 P(\theta \mid x)와 혼동해서는 안 된다.

2. 2. 연속 확률 분포

X매개변수 \theta에 의존하는 확률 변수이고, x의 함수인 확률 밀도 함수 f를 가지며 절대적으로 연속적인 확률 분포를 따른다고 가정하자. 이때 함수

\mathcal{L}(\theta \mid x) = f_\theta (x)

\theta의 함수로 간주되며, 이를 가능도 함수라고 부른다. 이것은 특정 관찰 결과 X=x가 주어졌을 때의 \theta에 대한 가능도를 나타낸다. 다시 말해, \mathcal{L}은 관찰 X = x가 주어졌을 때 \theta의 함수이지만, \theta에 대한 확률 밀도 함수확률 질량 함수는 아니다.

통계학에서는 표본의 관찰 결과를 바탕으로 모집단의 분포를 나타내는 매개변수(모수)를 추정하는 것이 중요하다. 가능도 개념은 "모집단의 모수가 특정 값 \theta라는 가정 하에, 현재와 같은 관찰 결과 x가 나올 가능성"을 평가하는 방식으로 통계학 문제에 적용될 수 있다. 가능도 함수는 특히 최대 우도 추정법, 우도비 검정에서 중요하게 사용되며, 가능도를 최대화하는 원리는 많은 통계적 추정 방법을 유도하는 기반이 된다.

다음과 같이 모수 \theta를 포함하는 확률 밀도 함수족을 생각해보자.

:f(x\mid\theta)

여기서 x는 확률 변수이고, \theta는 모수이다. 가능도 함수는 다음과 같이 정의된다.

:L(\theta \mid x)=f(x\mid\theta)

여기서 x는 실험을 통해 얻은 실제 관찰값이다. f(x\mid\theta)\theta를 상수로 고정하고 x의 함수로 보면 이는 확률 밀도 함수가 된다. 반대로 x를 상수로 고정하고 \theta의 함수로 보면 이것이 바로 가능도 함수가 된다.
주의할 점은 가능도를 "관찰된 표본이 주어졌을 때, 이 모수(\theta)가 옳을 확률"과 혼동해서는 안 된다는 것이다. 관찰 결과는 어디까지나 제한된 수의 표본에 불과하므로, 특정 가설(모수 값)의 가능도를 그 가설 자체가 사실일 확률로 해석하는 것은 위험하다.

2. 3. 혼합 연속-이산 분포

이산적 성분과 연속적 성분을 모두 포함하는 혼합 분포에서도 가능도 함수를 정의할 수 있다. 분포가 여러 개의 이산적인 확률 질량 p_k(\theta)과 연속적인 확률 밀도 f(x|\theta)로 구성되어 있고, 모든 이산 확률 질량의 합과 확률 밀도의 적분 값을 더하면 항상 1이 된다고 가정한다.

만약 관측된 데이터 x가 분포의 연속적인 부분에서 나왔는지, 아니면 이산적인 부분 중 하나에서 나왔는지 구별할 수 있다면, 각 경우에 맞춰 가능도 함수를 정의할 수 있다.

  • 연속 성분 관측치: 관측치가 연속적인 부분에서 나왔다면, 그 가능도 함수는 일반적인 연속 분포에서 정의하는 방식과 같이 확률 밀도 함수 f(x|\theta)를 사용한다.
  • 이산 성분 관측치: 관측치 x가 이산적인 부분 중 k번째 확률 질량에 해당한다면, 가능도 함수는 해당 확률 질량 값 자체가 된다.

\mathcal{L}(\theta \mid x )= p_k(\theta)

이는 특정 이산 관측치 x가 나타날 확률 p_k(\theta)를 최대로 만드는 매개변수 \theta를 찾는 것이 곧 해당 관측치의 가능도를 최대로 만드는 것과 같기 때문이다.

이처럼 가능도 함수가 확률 밀도(연속)와 확률 질량(이산)처럼 서로 다른 종류의 값을 포함할 수 있다는 사실은, 가능도 함수가 비례 상수까지 고려하여 정의되는 방식에서 비롯된다. 이 상수는 관측치 x에 따라 달라질 수 있지만, 추정하려는 매개변수 \theta에 따라 변하지는 않는다.

3. 주요 특징

가능도는 특정 모수 값 \theta가 주어졌을 때, 특정 관찰 결과 x가 나타날 확률을 의미한다. 이는 확률 변수 x의 함수가 아니라, 모수 \theta의 함수로 간주된다. 수식으로는 \mathcal{L}(\theta \mid x) = P(x \mid \theta) (이산형) 또는 \mathcal{L}(\theta \mid x) = f(x \mid \theta) (연속형)로 표현된다. 여기서 P(x \mid \theta)확률 질량 함수이고 f(x \mid \theta)확률 밀도 함수이다. 즉, f(x\mid\theta)\theta가 고정된 상태에서 x의 함수로 보면 확률 밀도 함수이고, x가 고정된 상태에서 \theta의 함수로 보면 가능도 함수이다.
가능도는 확률과 혼동하기 쉽지만 중요한 차이가 있다. 가능도는 모수의 참값이 \theta일 때 특정 결과 x가 관찰될 확률이지, 관찰 결과 x가 주어졌을 때 모수 \theta가 특정 값일 확률, 즉 사후 확률 P(\theta \mid x)를 의미하지 않는다. 예를 들어, 앞면이 나올 확률 p_\text{H}가 0.5인 공정한 동전을 두 번 던져 모두 앞면('HH')이 나올 확률은 P(\text{HH} \mid p_\text{H}=0.5) = 0.5^2 = 0.25이다. 이를 가능도로 표현하면, 관찰 결과 'HH'가 주어졌을 때 p_\text{H}=0.5의 가능도는 \mathcal{L}(p_\text{H}=0.5 \mid \text{HH}) = 0.25이다. 하지만 이것이 "관찰 결과가 'HH'일 때 p_\text{H}=0.5일 확률이 0.25"라는 의미는 아니다. 관찰 결과 'HH'가 주어졌을 때 p_\text{H}의 확률(사후 확률)을 알기 위해서는 베이즈 정리를 사용해야 하며, 이는 가능도와 사전 확률에 비례한다: P(\theta \mid x) \propto \mathcal{L}(\theta \mid x) P(\theta).

400px


400px

가능도 함수는 확률 분포가 아니다. 따라서 가능도 함수를 모든 가능한 모수 값에 대해 적분하거나 합해도 그 값이 반드시 1이 되지는 않는다. 예를 들어, 동전 던지기에서 'HH'가 관찰되었을 때 가능도 함수는 \mathcal{L}(p_\text{H} \mid \text{HH}) = p_\text{H}^2이다 (그림 1 참고). 이 함수를 p_\text{H}의 가능한 범위인 [0, 1]에서 적분하면 \int_0^1 p_\text{H}^2 \, dp_\text{H} = [p_\text{H}^3/3]_0^1 = 1/3이 되어 1이 아니다. 이 사실은 가능도 함수를 모수 p_\text{H}에 대한 확률 밀도 함수로 해석할 수 없음을 보여준다.

가능도 함수의 절대적인 값 자체보다는 다른 모수 값과의 상대적인 비율이 더 중요하게 사용되는 경우가 많다. 예를 들어, \mathcal{L}(\theta_1 \mid x)\mathcal{L}(\theta_2 \mid x)를 비교하여 어떤 모수 값이 주어진 데이터를 더 잘 설명하는지 판단할 수 있다. 만약 \mathcal{L}(\theta_2 \mid x) / \mathcal{L}(\theta_1 \mid x) > 1이라면, \theta_1보다 \theta_2가 데이터를 더 잘 설명한다고(더 그럴듯하다고) 해석할 수 있다. 이러한 가능도의 비교는 최대 가능도 추정이나 가능도비 검정과 같은 통계적 추론 방법의 기초가 된다.

3. 1. 가능도비 (Likelihood Ratio)

''가능도비''는 임의의 두 특정 가능도의 비율이며, 다음과 같이 표기하는 경우가 많다.

\Lambda(\theta_1:\theta_2 \mid x) = \frac{\mathcal{L}(\theta_1 \mid x)}{\mathcal{L}(\theta_2 \mid x)}.

가능도비는 가능도 통계학의 핵심 개념이다. ''가능도 법칙''은 데이터(증거로 간주)가 한 매개변수 값을 다른 매개변수 값보다 더 지지하는 정도를 가능도비로 측정한다고 설명한다.

빈도주의 추론에서 가능도비는 가능도비 검정이라는 검정 통계량의 기초가 된다. 네이만-피어슨 보조정리에 따르면, 이는 주어진 유의 수준에서 두 개의 단순 가설을 비교하기 위한 가장 강력한 검정 방법이다. 수많은 다른 검정 방법들도 가능도비 검정 또는 그 근사치로 간주될 수 있다.[15] 검정 통계량으로 사용되는 로그 가능도비의 점근적 분포는 윌크스 정리를 통해 알 수 있다.

가능도비는 베이즈 추론에서도 매우 중요한데, 여기서는 베이즈 인자로 알려져 있으며 베이즈 규칙에 사용된다. 승산의 관점에서 베이즈 규칙은, 사건 B가 주어졌을 때 두 대안 A1과 A2의 ''사후'' 승산은 ''사전'' 승산에 가능도비를 곱한 값과 같다고 설명한다. 이를 방정식으로 나타내면 다음과 같다.

O(A_1:A_2 \mid B) = O(A_1:A_2) \cdot \Lambda(A_1:A_2 \mid B).

가능도비는 AIC 기반 통계에서는 직접 사용되지 않는다. 대신 모델의 상대적 가능도가 사용된다.

근거 중심 의학에서는 진단 검사의 유용성을 평가하기 위해 진단 검사에 가능도비가 사용된다.

3. 2. 상대적 가능도 (Relative Likelihood)

가능도 함수의 실제 값은 관측된 데이터(표본)에 따라 달라지므로, 그 값을 표준화된 척도로 나타내는 것이 유용할 때가 많다. 파라미터 ''θ''에 대한 최대 가능도 추정값을 \hat{\theta}라고 할 때, 다른 파라미터 값 ''θ''의 상대적인 타당성은 각 값의 가능도를 최대 가능도 \mathcal{L}(\hat{\theta} \mid x)와 비교하여 평가할 수 있다. ''θ''의 상대적 가능도는 다음과 같이 정의된다.[16][17][18][19][20]

R(\theta) = \frac{\mathcal{L}(\theta \mid x)}{\mathcal{L}(\hat{\theta} \mid x)}.

상대적 가능도는 가능도비의 한 종류로, 분모가 최대 가능도 \mathcal{L}(\hat{\theta} \mid x)로 고정되어 있다. 이는 가능도 함수의 최댓값을 1로 만드는 표준화 과정에 해당한다.
가능도 영역은 상대적 가능도가 특정 기준값(임계값)보다 크거나 같은 모든 파라미터 ''θ'' 값들의 집합이다. 백분율로 표현할 경우, ''θ''에 대한 ''p''% 가능도 영역은 다음과 같이 정의된다.[16][16][21]



\left\{\theta : R(\theta) \ge \frac p {100} \right\}.



만약 파라미터 ''θ''가 하나의 실수 값이라면, ''p''% 가능도 영역은 보통 실수 값의 구간으로 나타난다. 이처럼 가능도 영역이 구간으로 구성될 때, 이를 가능도 구간이라고 부른다.[16][16][22]

가능도 구간과 가능도 영역은 가능도 통계학에서 구간 추정을 위해 사용된다. 이는 빈도주의 통계학의 신뢰 구간이나 베이즈 통계학의 신용 구간과 비슷한 역할을 하지만, 해석 방식은 다르다. 가능도 구간은 포함 확률(빈도주의)이나 사후 확률(베이즈주의)이 아닌, 상대적인 가능도의 관점에서 직접 해석된다.

주어진 통계 모형에 대해 가능도 구간을 신뢰 구간과 비교해 볼 수 있다. 만약 ''θ''가 단일 실수 파라미터이고 특정 조건들이 만족된다면, ''θ''에 대한 14.65% 가능도 구간(가능도 비율 약 1:7)은 95% 신뢰 구간(포함 확률 19/20)과 동일하다.[16][21] 로그-가능도를 사용하는 약간 다른 접근법(윌크스의 정리 참고)에서는, 검정 통계량으로 로그-가능도 차이의 두 배를 사용한다. 이 검정 통계량의 확률 분포는 자유도(df)가 두 모형 간 자유도 차이와 같은 카이제곱 분포에 근사한다. 이 경우 ''e''−2 (약 13.5%) 가능도 구간은 95.4% 신뢰 구간과 동일하다 (자유도 차이가 1이라고 가정).[21][22]

3. 3. 불필요한 모수 (Nuisance Parameter) 제거

많은 경우, 가능도는 여러 모수의 함수이지만 실제 분석에서는 특정 모수 몇 개에만 관심을 두는 경우가 많다. 나머지 모수들은 불필요한 변수(nuisance parameter)로 취급된다. 이런 불필요한 변수를 제거하고 관심 있는 변수만의 함수로 가능도를 표현하기 위해 여러 방법이 개발되었다. 주요 방법으로는 프로파일 가능도(profile likelihood), 조건부 가능도(conditional likelihood), 주변 가능도(marginal likelihood)가 있다.[23][24] 이 방법들은 고차원의 가능도 표면을 관심 있는 한두 개 변수로 줄여 그래프로 나타내고자 할 때 유용하다.

=== 프로파일 가능도 ===

모수 벡터 \mathbf{\theta}를 관심 모수 \mathbf{\theta}_{1}와 불필요한 모수 \mathbf{\theta}_{2}로 나누어(\mathbf{\theta} = \left( \mathbf{\theta}_{1} : \mathbf{\theta}_{2} \right)), 각 \mathbf{\theta}_{1} 값에 대해 가능도를 최대로 만드는 \mathbf{\theta}_{2} 값(\mathbf{\hat{\theta}}_{2} = \mathbf{\hat{\theta}}_{2} \left( \mathbf{\theta}_{1} \right))을 찾아 원래 가능도 함수에 대입하면 \mathbf{\theta}_{1}만의 함수인 프로파일 가능도를 얻을 수 있다.[25][26] 이 과정은 원래 최대화 문제의 계산 복잡성을 줄이는 데 도움이 된다.[27]

예를 들어, 정규 분포 오차를 가정하는 선형 회귀 모형 \mathbf{y} = \mathbf{X} \beta + u에서 계수 벡터 \beta\beta = \left[ \beta_{1} : \beta_{2} \right]로 나누고, 이에 따라 설계 행렬도 \mathbf{X} = \left[ \mathbf{X}_{1} : \mathbf{X}_{2} \right]로 나눌 수 있다. \beta_{2}에 대해 가능도를 최대화하면 최적값 함수 \beta_{2} (\beta_{1}) = \left( \mathbf{X}_{2}^{\mathsf{T}} \mathbf{X}_{2} \right)^{-1} \mathbf{X}_{2}^{\mathsf{T}} \left( \mathbf{y} - \mathbf{X}_{1} \beta_{1} \right)를 얻는다. 이 결과를 이용하면 \beta_{1}의 최대 가능도 추정량은 다음과 같이 구해진다.

\hat{\beta}_{1} = \left( \mathbf{X}_{1}^{\mathsf{T}} \left( \mathbf{I} - \mathbf{P}_{2} \right) \mathbf{X}_{1} \right)^{-1} \mathbf{X}_{1}^{\mathsf{T}} \left( \mathbf{I} - \mathbf{P}_{2} \right) \mathbf{y}

여기서 \mathbf{P}_{2} = \mathbf{X}_{2} \left( \mathbf{X}_{2}^{\mathsf{T}} \mathbf{X}_{2} \right)^{-1} \mathbf{X}_{2}^{\mathsf{T}}\mathbf{X}_{2} 열공간으로의 투영 행렬이다. 이 결과는 프리쉬-워-러블 정리로 알려져 있다.

그래프 측면에서 보면, 프로파일 가능도는 주어진 \beta_{1} 값에 대해 가능도를 최대로 만드는 \beta_{2} 값들의 궤적을 따라 가능도 표면을 잘라낸 단면과 같다. 즉, 특정 \beta_{1}에서의 가능도 등고선 프로필을 보여준다.[28][29] 프로파일 가능도는 시각화뿐만 아니라, 전체 가능도로 계산한 점근적 표준 오차에 기반한 신뢰 구간보다 작은 표본에서 더 나은 통계적 특성을 갖는 신뢰 구간을 계산하는 데 사용될 수 있다.[30][31]

=== 조건부 가능도 ===

충분 통계량을 찾을 수 있는 경우, 이 통계량에 대한 조건을 부여함으로써 불필요한 모수에 의존하지 않는 조건부 가능도를 얻을 수 있다.[32] 예를 들어, 2×2 분할표 분석에서 네 개의 주변 합계(marginal totals) 모두에 조건을 부여하면, 비중심 초기하 분포에 기반한 조건부 가능도가 생성된다. 이는 피셔의 정확 검정의 기초가 된다.

=== 주변 가능도 ===

때로는 데이터의 특정 정보만을 사용하여 가능도를 구성함으로써 불필요한 모수를 제거할 수 있다. 이를 주변 가능도라고 한다. 예를 들어, 실제 측정값 대신 값들의 순위 정보만을 사용할 수 있다. 또 다른 예는 선형 혼합 모형에서 찾아볼 수 있는데, 고정 효과(fixed effects)를 적합시킨 후 남은 잔차(residuals)에 대한 가능도를 고려하여 분산 성분(variance components)의 잔차 최대 가능도(REML) 추정치를 얻는 방식이다.

=== 부분 가능도 ===

부분 가능도(partial likelihood)는 전체 가능도 함수에서 관심 있는 모수 부분만을 포함하도록 변형한 것이다.[33] 이 방법은 특히 비례 위험 모형(proportional hazards model)에서 핵심적인 역할을 한다. 위험 함수(hazard function)에 특정 제한을 가함으로써 시간에 따른 위험의 구체적인 형태를 명시하지 않고도 가능도를 구성할 수 있다.

4. 로그 가능도 (Log-Likelihood)

'''로그 가능도'''(log likelihood영어)는 가능도 함수에 로그를 취한 값이다. 가능도 함수가 여러 확률의 곱으로 표현되는 경우(예: 확률 변수가 서로 독립일 때), 로그를 취하면 곱셈이 덧셈으로 변환되어 미분 계산 등이 편리해진다. 로그 함수는 단조 증가 함수이므로, 원래 가능도 함수를 최대로 만드는 모수 값은 로그 가능도 함수를 최대로 만드는 모수 값과 동일하다. 따라서 최대 가능도 추정에서는 계산의 편의성을 위해 가능도 함수 대신 로그 가능도 함수를 사용하는 경우가 많다.

확률 변수 XX = (X_1, X_2, \cdots, X_n)와 같이 여러 독립적인 확률 변수의 조합으로 주어지고, 각 X_i가 모수 \theta에 의존하는 확률 분포 P_{i, \theta}(X_i)를 가질 때, 전체 가능도 함수와 로그 가능도 함수는 다음과 같이 표현된다.

:\mathcal{L}(\theta|x) = P_\theta(X=x) = P_{1,\theta}(X_1=x_1) P_{2,\theta}(X_2=x_2) \cdots P_{n,\theta}(X_n=x_n)

:\log \mathcal{L}(\theta|x) = \log P_{1,\theta}(X_1=x_1) + \log P_{2,\theta}(X_2=x_2) + \cdots + \log P_{n,\theta}(X_n=x_n) = \sum_i \log P_{i, \theta}(X_i = x_i)

이처럼 독립적인 사건들의 전체 로그 가능도는 각 사건의 로그 가능도의 합과 같다. 이는 각 데이터가 제공하는 증거(지지)가 합쳐지는 것으로 해석할 수 있다.

로그 가능도는 소문자 l 또는 \ell로 표기하는 경우가 많다. 많은 일반적인 확률 분포, 특히 지수족에 속하는 분포들은 로그 오목 함수 형태를 가지는데[34][35], 이는 로그 가능도를 사용하여 수학적 최적화 문제를 풀 때 유리한 성질이다.

가능도 비율의 로그는 각 가능도의 로그 값의 차이와 같다.

\log \frac{\mathcal{L}(A)}{\mathcal{L}(B)} = \log \mathcal{L}(A) - \log \mathcal{L}(B) = \ell(A) - \ell(B).

데이터가 없는 경우 가능도는 1이고, 로그 가능도는 0이다. 이는 데이터가 없으면 어떤 모델에 대한 지지도 없다는 의미이다.

로그 가능도 함수의 그래프는 '''지지 곡선'''(support curve)이라고 불리며(단변량의 경우)[36], 다변량의 경우에는 모수 공간 상의 '''지지 표면'''(support surface)으로 일반화된다. 이 용어는 A. W. F. Edwards가 통계적 가설 검정의 맥락에서 데이터가 특정 가설(모수 값)을 다른 가설보다 얼마나 더 "지지"하는지를 나타내기 위해 만들었다.[36]

로그 가능도 함수가 매끄러운 경우, 모수에 대한 1계 도함수(기울기)를 점수(score)라고 하며, s_{n}(\theta) \equiv \nabla_{\theta} \ell_{n}(\theta)로 표기한다. 로그 가능도를 최대화하는 모수 \hat{\theta}를 찾기 위해 점수를 0으로 두는 방정식 s_{n}(\theta) = \mathbf{0}을 사용하는데, 이를 추정 방정식이라고 한다. 곱셈 형태인 가능도 함수를 직접 미분하는 것보다 덧셈 형태인 로그 가능도 함수를 미분하여 점수를 계산하는 것이 더 쉽다. 특정 조건 하에서 이 방정식을 만족하는 해 \hat{\theta}_n는 참값 \theta_0의 일치 추정량이 된다.[37][38][39]

로그 가능도 함수의 2계 도함수는 피셔 정보(Fisher information)와 관련이 있으며, 이는 가능도 표면의 곡률을 나타내어 추정의 정밀도에 대한 정보를 제공한다.[40][41]

4. 1. 음의 로그 가능도 (Negative Log-Likelihood, NLL)

음의 로그 가능도(negative log-likelihoodeng, '''NLL''')는 가능도 함수의 로그값에 -1을 곱한 값이다. 즉, 다음 식으로 표현되는 함수이다.

: \mathrm{NLL}(\theta) = -\log{L(\theta \mid x)} = -\log{p(x \mid \theta)}

확률 밀도 함수치역0 \leqq p(x) \leqq 1이므로, NLL의 치역은 +\infty \geqq \mathrm{NLL}(\theta) \geqq 0이 된다. 가능도 함수가 주어진 데이터 x에 대해 특정 매개변수 \theta가 얼마나 "그럴듯한지"를 나타낸다면, NLL은 반대로 \theta가 얼마나 "있을 법하지 않은지"를 나타낸다고 할 수 있다.

로그 함수는 단조증가함수이고, 여기에 -1을 곱하면 값의 대소가 역전되기 때문에, 가능도 함수 L(\theta)가 최댓값을 갖는 \theta는 NLL 함수가 최솟값을 갖는 \theta와 일치한다. 이러한 성질 때문에 최대 우도 추정(MLE) 문제를 NLL을 최소화하는 문제로 바꾸어 푸는 경우가 많으며, 특히 기계 학습 분야에서는 NLL을 손실 함수로 자주 사용한다(\operatorname{argmax}_{\theta} L(\theta)\operatorname{argmin}_{\theta} \mathrm{NLL}(\theta)로 대체).

NLL의 실제 계산값 \mathrm{NLL}(\theta = \theta_i)는 표본 x의 자기 정보량(self-information)과 수치적으로 동일하다. 이는 NLL 값이 클수록, 즉 \theta_i라는 조건 하에서 x가 관측될 가능성이 낮을수록, 그 사건이 더 놀라운 정보(서프라이절)를 담고 있다는 직관과 연결된다.

만약 n개의 관측값 \boldsymbol{d} = \{d_i \mid i \in \{1, .., n\} \}가 독립 동일 분포(i.i.d.)를 따른다고 가정하면, 전체 데이터셋에 대한 NLL은 각 데이터 포인트의 NLL의 합으로 표현할 수 있다.

: \mathrm{NLL}(\theta \mid \boldsymbol{d}) = -\log(\prod_{i=1}^n p(d_i \mid \theta)) = -\sum_{i=1}^n \log{p(d_i \mid \theta)}

즉, 무작위 추출된 데이터 집합에 대한 NLL은 "각 데이터 NLL의 합"으로 표현할 수 있다. 이 합계를 데이터 개수 n으로 나누면, 개별 데이터 포인트 d_i에 대한 NLL의 표본 평균에 해당하는 값을 자연스럽게 도출할 수 있으며, 이는 표본 크기에 의존하지 않는 지표가 된다.

4. 2. 지수족 (Exponential Family)

로그 가능도는 많은 일반적인 모수 모형을 포함하는 지수족 분포에서 특히 유용하다. 지수족 분포의 확률 밀도 함수(및 가능도 함수)는 지수 함수와 관련된 인수의 곱을 포함하는데, 이 함수의 로그를 취하면 곱이 합으로 변환되어 미분이 더 쉬워진다.

지수족은 확률 밀도 함수가 다음과 같은 형태를 갖는 분포를 의미한다 (일부 함수의 경우 내적을 \langle -, - \rangle로 표기):

p(x \mid \boldsymbol{\theta}) = h(x) \exp\Big(\langle \boldsymbol{\eta}({\boldsymbol{\theta}}), \mathbf{T}(x)\rangle -A({\boldsymbol{\theta}}) \Big).

각 항은 특정 의미를 가지는데, 확률에서 가능도로 전환하고 로그를 취하면 다음과 같은 합이 된다.

\ell(\boldsymbol{\theta} \mid x) = \langle \boldsymbol{\eta}({\boldsymbol{\theta}}), \mathbf{T}(x)\rangle - A({\boldsymbol{\theta}}) + \log h(x).

여기서 \boldsymbol{\eta}(\boldsymbol{\theta})h(x)는 각각 좌표 변환에 해당하므로, 이러한 좌표에서 지수족의 로그 가능도는 다음의 간단한 공식으로 표현된다.

\ell(\boldsymbol{\eta} \mid x) = \langle \boldsymbol{\eta}, \mathbf{T}(x)\rangle - A({\boldsymbol{\eta}}).

즉, 지수족의 로그 가능도는 자연 매개변수 \boldsymbol{\eta}와 충분 통계량 \mathbf{T}(x)의 내적에서 정규화 요인(로그 분할 함수) A({\boldsymbol{\eta}})를 뺀 값이다. 이를 통해 최대 가능도 추정은 충분 통계량 T와 로그 분할 함수 A의 도함수를 구하는 방식으로 계산될 수 있다.

5. 예시

(내용 없음)

5. 1. 동전 던지기

어떤 동전을 던져 앞면('H' 또는 \uparrow)이 나올 확률을 ''pH'' (또는 \theta)라고 하자. 이 값은 0과 1 사이의 값을 가지며, 공정한 동전의 경우 ''pH'' = 0.5 이다.

동전을 두 번 던져서 두 번 모두 앞면이 나오는 경우('HH')를 관찰했다고 가정해 보자. 각 동전 던지기가 독립 동일 분포 확률 변수라고 가정하면, 'HH'를 관찰할 확률은 ''pH''의 값에 따라 결정된다.

:P(\text{HH} \mid p_\text{H}) = p_\text{H}^2

만약 동전이 공정하여 ''pH'' = 0.5 라면, 두 번 모두 앞면이 나올 확률은 다음과 같다.

:P(\text{HH} \mid p_\text{H}=0.5) = 0.5^2 = 0.25

이 결과를 가능도의 관점에서 표현하면, 관측 결과가 'HH'일 때 ''pH'' = 0.5 라는 가설(또는 모수 값)의 가능도는 0.25이다.

:\mathcal{L}(p_\text{H}=0.5 \mid \text{HH}) = P(\text{HH} \mid p_\text{H}=0.5) = 0.25
주의할 점은, 이것이 "관측 결과가 'HH'일 때, ''pH'' = 0.5 일 확률이 0.25이다" (P(p_\text{H} = 0.5 \mid \text{HH}) = 0.25)라고 말하는 것과는 다르다는 것이다. 후자는 베이즈 정리를 통해 사전 확률과 주변 확률을 알아야 계산할 수 있는 사후 확률이다. 가능도는 특정 관측 결과가 주어졌을 때, 모수(여기서는 ''pH'')의 각 가능한 값들이 얼마나 그럴듯한지를 나타내는 척도이다.

만약 동전이 공정하지 않고 ''pH'' = 0.3 이라고 가정하면, 두 번 모두 앞면이 나올 확률은 다음과 같다.

:P(\text{HH} \mid p_\text{H}=0.3) = 0.3^2 = 0.09

따라서, 관측 결과가 'HH'일 때 ''pH'' = 0.3 이라는 가설의 가능도는 0.09이다.

:\mathcal{L}(p_\text{H}=0.3 \mid \text{HH}) = 0.09

일반적으로, 관측 결과가 'HH'일 때, 앞면이 나올 확률 ''pH''의 값에 따른 가능도 함수는 다음과 같이 주어진다.

:\mathcal{L}(p_\text{H} \mid \text{HH}) = p_\text{H}^2

이 함수는 ''pH'' = 1 일 때 최댓값 1을 가진다. 이는 단 두 번의 'HH' 관찰만으로는 ''pH'' = 1 이라는 극단적인 가설이 가장 그럴듯해 보인다는 의미이다. 물론, 더 많은 데이터를 관찰하면 결과는 달라질 수 있다.

다른 예로, 동전을 세 번 던져 앞, 뒤, 앞 (\uparrow\downarrow\uparrow) 순서로 나왔다고 하자. 이때 앞면이 나올 확률 \theta의 가능도 함수는 다음과 같다.

:\mathcal L(\theta|\uparrow\downarrow\uparrow) = P(\uparrow\downarrow\uparrow \mid \theta) = \theta \cdot (1-\theta) \cdot \theta = \theta^2 (1-\theta)
가능도 함수는 확률 밀도 함수가 아니다. 가능도 함수를 모수(여기서는 ''pH'' 또는 \theta)의 전체 가능한 범위에 대해 적분해도 그 합이 반드시 1이 되는 것은 아니다.

  • \mathcal{L}(p_\text{H} \mid \text{HH}) = p_\text{H}^2p_\text{H}에 대해 0부터 1까지 적분하면 \int_0^1 p_\text{H}^2 \, dp_\text{H} = \frac{1}{3} 이다.
  • \mathcal L(\theta|\uparrow\downarrow\uparrow) = \theta^2 (1-\theta)\theta에 대해 0부터 1까지 적분하면 \int_0^1 \theta^2(1-\theta) \, d\theta = \frac{1}{12} 이다.


현실적으로, 물리적인 동전은 가장자리의 모양이나 질량 분포의 미세한 불균형 때문에 ''pH''가 정확히 0.5일 확률은 거의 0에 가깝다. 즉, 완벽하게 공정한 동전은 이론적인 개념에 가깝다.

5. 2. 감마 분포

감마 분포는 두 개의 매개변수 \alpha\beta를 갖는 지수족 분포이다. 감마 분포의 가능도 함수는 다음과 같이 주어진다.

\mathcal{L} (\alpha, \beta \mid x) = \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x}.

여기서 \Gamma(\alpha)감마 함수이다.

단일 관측값 x가 주어졌을 때, 이 가능도 함수를 직접 최대화하여 매개변수 \beta의 최대 가능도 추정량(MLE)을 찾는 것은 복잡할 수 있다. 대신 로그를 취한 로그 가능도 함수를 사용하면 계산이 더 간단해진다.

\log \mathcal{L}(\alpha,\beta \mid x) = \alpha \log \beta - \log \Gamma(\alpha) + (\alpha-1) \log x - \beta x. \,

로그 가능도 함수를 최대화하는 \beta 값을 찾기 위해, 먼저 로그 가능도 함수를 \beta에 대해 편미분한다.

\frac{\partial \log \mathcal{L}(\alpha,\beta \mid x)}{\partial \beta} = \frac{\alpha}{\beta} - x.

만약 n개의 독립적인 관측값 x_1, \ldots, x_n이 있다면, 전체 데이터에 대한 결합 로그 가능도 함수는 각 관측값에 대한 로그 가능도 함수의 합이다. 따라서 결합 로그 가능도 함수의 \beta에 대한 편미분은 각 로그 가능도 함수의 편미분의 합과 같다.



\begin{align}

\frac{\partial \log \mathcal{L}(\alpha,\beta \mid x_1, \ldots, x_n)}{\partial \beta}

&= \sum_{i=1}^n \frac{\partial \log \mathcal{L}(\alpha,\beta \mid x_i)}{\partial \beta} \\

&= \sum_{i=1}^n \left( \frac{\alpha}{\beta} - x_i \right) \\

&= \frac{n \alpha} \beta - \sum_{i=1}^n x_i.

\end{align}



로그 가능도를 최대화하는 \beta를 찾기 위해 위 편미분 값을 0으로 놓고 \beta에 대해 푼다.

\frac{n \alpha} \beta - \sum_{i=1}^n x_i = 0

\frac{n \alpha} \beta = \sum_{i=1}^n x_i

\widehat\beta = \frac{n \alpha}{\sum_{i=1}^n x_i} = \frac{\alpha}{\frac{1}{n}\sum_{i=1}^n x_i} = \frac{\alpha}{\bar{x}}.

여기서 \widehat\beta\beta의 최대 가능도 추정량을 나타내고, \textstyle \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i는 관측값들의 표본 평균이다. 따라서 감마 분포의 매개변수 \beta에 대한 최대 가능도 추정량은 \alpha를 표본 평균 \bar{x}로 나눈 값이다.

6. 통계학적 추론 방법

통계학자들 사이에서는 통계학의 기초가 무엇이어야 하는지에 대한 합의가 아직 이루어지지 않았다. 통계학의 기초로 제안된 주요 패러다임으로는 빈도주의, 베이즈주의, 가능도주의, 그리고 AIC 기반 접근법이 있다.[50] 이들 각각의 패러다임에서 가능도 함수를 해석하고 활용하는 방식은 서로 다르며, 이는 통계적 추론 과정에 영향을 미친다. 각 패러다임에 따른 구체적인 해석과 활용법은 이어지는 하위 섹션에서 자세히 다룬다.

6. 1. 빈도주의 (Frequentist) 통계학

빈도주의 패러다임에서는 가능도 함수를 다룰 때, 모수 \theta확률 변수가 아닌 고정된 미지의 값으로 간주됨을 명확히 하기 위해 f(x\mid\theta) 대신 f(x;\theta) 또는 f(x,\theta)와 같은 표기법을 사용하기도 한다.

가능도 함수는 주어진 관측값 x에 대해 모수 \theta가 특정 값일 가능성을 나타내는 함수이다. 이는 확률 밀도 함수나 확률 질량 함수를 모수의 함수로 해석한 것이다. 즉, f(x\mid\theta)\theta가 고정된 상태에서 x의 함수로 보면 확률 밀도 함수 또는 확률 질량 함수이지만, x가 고정된 상태에서 \theta의 함수로 보면 가능도 함수가 된다. 가능도 함수는 종종 \mathcal{L}(\theta \mid x)로 표기한다.

중요한 점은 가능도 함수 \mathcal{L}(\theta \mid x)가 관측된 표본 X = x가 주어졌을 때 \theta가 참일 확률을 나타내는 것이 아니라는 점이다. 즉, \mathcal{L}(\theta \mid x)\theta에 대한 확률 분포가 아니다. 가능도를 모수의 사후 확률 P(\theta \mid x)와 혼동하는 것은 흔한 오류이며, 잘못된 결론으로 이어질 수 있다(검사의 오류 참조).

  • 이산 확률 변수: 확률 변수 X가 모수 \theta에 의존하는 이산 확률 분포를 따르고 확률 질량 함수p_\theta(x)일 때, 관측값 x에 대한 가능도 함수는 다음과 같다.

\mathcal{L}(\theta \mid x) = p_\theta (x) = P_\theta (X=x)

이는 모수의 참값이 \theta일 때 특정 결과 x가 관찰될 확률과 같다.

  • 연속 확률 변수: 확률 변수 X가 모수 \theta에 의존하는 절대적으로 연속적인 확률 분포를 따르고 확률 밀도 함수f_\theta(x)일 때, 관측값 x에 대한 가능도 함수는 다음과 같다.

\mathcal{L}(\theta \mid x) = f_\theta (x)

미적분학의 기본 정리를 이용하면, 특정 관측값 x_j에서의 확률 밀도 f(x_j \mid \theta)를 최대화하는 것이 해당 관측값의 가능도 \mathcal{L}(\theta \mid x_j)를 최대화하는 것과 동일함을 보일 수 있다.

측도론적 관점에서 보면, 가능도 함수는 공통 지배 측도에 대한 확률 분포의 라돈-니코딤 도함수를 모수의 함수로 해석한 것이다.[5][6] 이를 통해 이산, 연속, 또는 혼합 분포 등 다양한 유형의 분포에 대해 일관되게 가능도 함수를 정의할 수 있다.

통계학에서 가능도 함수는 표본의 관찰 결과로부터 모집단의 모수를 추정하는 데 중요한 역할을 한다. 특히 최대 가능도 추정법은 가능도 함수를 최대로 만드는 모수 값을 찾는 방법이며, 가능도비 검정은 두 경쟁 가설 하에서의 최대 가능도 값의 비율을 비교하여 가설을 검정하는 방법이다.
가능도비''가능도비''(Likelihood ratio)는 두 특정 모수 값에 대한 가능도의 비율로, 다음과 같이 정의된다.

\Lambda(\theta_1:\theta_2 \mid x) = \frac{\mathcal{L}(\theta_1 \mid x)}{\mathcal{L}(\theta_2 \mid x)}.

가능도비는 빈도주의 추론에서 매우 중요한 개념이다.

  • 우도비 검정: 가능도비는 가능도비 검정 통계량의 기초가 된다. 네이만-피어슨 보조정리에 따르면, 이는 주어진 유의 수준에서 두 단순 가설을 비교하는 가장 강력한 검정 방법이다.[15] 많은 통계적 검정들이 가능도비 검정이나 그 근사치로 간주될 수 있다.
  • 윌크스 정리: 로그 가능도비 통계량의 점근적 분포는 윌크스 정리에 의해 주어진다.


가능도비는 베이즈 추론에서도 베이즈 인자라는 이름으로 중요하게 사용되며, 베이즈 규칙을 통해 사전 승산을 사후 승산으로 업데이트하는 데 사용된다. 또한 근거 중심 의학에서는 진단 검사의 유용성을 평가하기 위해 가능도비를 활용한다.

6. 2. 베이즈주의 (Bayesian) 통계학

베이즈주의 통계학에서는 가능도 함수를 베이즈 정리의 맥락에서 이해하고 활용한다. 베이즈 정리사후 확률이 가능도와 사전 확률의 곱에 비례한다는 것을 보여준다.

어떤 사건 A가 관찰되었을 때, 특정 조건 B=b가 원인일 조건부 확률 P(A | B=b)를 b의 함수로 보면 이것이 바로 가능도 함수가 된다. 즉, 가능도 함수 L(b | A)는 조건부 확률 P(A | B=b)에 비례하며, 이는 다음과 같이 표현할 수 있다.

:L(b \mid A) \propto P(A \mid B=b)

여기서 \propto 기호는 비례 관계를 의미한다. 더 정확히는 임의의 양의 비례 상수 \alpha를 사용하여 L(b \mid A) = \alpha P(A \mid B=b)로 나타낼 수 있다.

베이즈 정리에 따르면, 관찰 결과 A가 주어졌을 때 가설 B의 사후 확률 P(B | A)는 다음과 같이 계산된다.

:P(B \mid A) = \frac{P(A \mid B) ~ P(B)}{P(A)}

이 식에서 P(A | B)는 B가 주어졌을 때 A가 관찰될 확률로, 가능도 함수 L(B | A)에 해당한다. P(B)는 관찰 전 B에 대한 사전 확률이며, P(A)는 관찰 결과 A가 나타날 전체 확률이다. 즉, 사후 확률은 가능도와 사전 확률의 곱을 정규화(P(A)로 나눔)하여 얻어진다.[16][16][16][16]

중요한 점은 가능도 함수 L(b | A)의 절대적인 값이 아니라, 서로 다른 가설(예: b_1b_2) 간의 가능도 비율 L(b_2 \mid A) / L(b_1 \mid A)이다. 이 비율이 1보다 크면, 관찰 결과 A를 고려했을 때 가설 b_2b_1보다 더 그럴듯하다(likely)고 해석할 수 있다.

가능도 함수는 확률 분포 함수(예: 확률 밀도 함수 또는 확률 질량 함수)와 형태는 같지만, 해석의 관점이 다르다. 확률 분포 함수는 모수(\theta)가 고정된 상태에서 관찰값(x)의 함수이지만, 가능도 함수는 관찰값(x)이 고정된 상태에서 모수(\theta)의 함수이다.

:\text{확률 분포 함수: } x \mapsto f(x \mid \theta)

:\text{가능도 함수: } \theta \mapsto \mathcal{L}(\theta \mid x) = f(x \mid \theta)

가능도 함수 \mathcal{L}(\theta \mid x)를 관찰된 표본 x가 주어졌을 때 모수 \theta가 옳을 확률 P(\theta | x)로 해석하는 것은 흔한 오류이며, 검사의 오류와 관련될 수 있다. 베이즈 추론에서는 가능도를 사전 확률과 결합하여 사후 확률을 계산하며, 이 사후 확률이 주어진 데이터 하에서 모수에 대한 확률적 믿음을 나타낸다.

또한 베이즈 추론에서는 가능도를 데이터가 매개변수 값이나 통계 모델에 대해 제공하는 정보의 척도로 해석하기도 한다.[16][51][52][53][54][55] 사전 확률 분포를 어떻게 설정하느냐에 따라, 특정 모수 값이 높은 가능도를 가지더라도 낮은 사후 확률을 가질 수 있으며, 그 반대도 가능하다.[16][16] 이러한 현상은 특히 의학 진단과 같은 분야에서 중요하게 고려된다.[56]

6. 3. 가능도주의 (Likelihoodist) 통계학

확률 밀도 함수 또는 확률 질량 함수 x \mapsto f(x \mid \theta)가 주어졌을 때, 가능도 함수는 특정 관측값 x에 대해 모수 \theta를 변수로 보는 함수 \theta \mapsto f(x \mid \theta)이다. 이는 종종 \mathcal{L}(\theta \mid x)로 표기된다. 즉, f(x \mid \theta)\theta가 고정되었을 때 x의 함수로 보면 확률 밀도 함수 또는 확률 질량 함수이고, x가 고정되었을 때 \theta의 함수로 보면 가능도 함수가 된다.

가능도 함수는 관측된 표본 X = x가 주어졌을 때, 특정 모수 \theta가 옳을 확률을 나타내지 않는다. 이러한 해석은 흔한 오류이며, 잘못된 결론으로 이어질 수 있다(검사의 오류 참조).

빈도주의적 관점에서, 가능도 함수는 모집단에서 얻은 단일 표본을 요약하는 통계량 자체이다. 계산된 값은 여러 모수 \theta_1, \dots, \theta_p(여기서 p는 이미 선택된 통계 모형의 모수 개수)의 선택에 따라 달라지며, 가능도 값은 모수 선택의 성능 지표 역할을 한다. 최대 가능도를 갖는 모수 집합은 주어진 데이터를 가장 잘 설명하는 최적의 선택으로 간주된다.

특정 모형과 모수 값 \boldsymbol{\theta}가 관찰된 표본이 추출된 모집단의 빈도 분포를 정확하게 근사한다고 가정할 때, 관찰된 표본이 나타날 확률이 바로 가능도이다. 경험적으로 좋은 모수 선택은 실제로 관찰된 표본이 발생했을 가능성을 가장 높게 하는 것들이다. 윌크스 정리는 추정된 모수 값에서의 로그 가능도와 모집단의 실제(그러나 알 수 없는) 모수 값에서의 로그 가능도 간의 차이가 점근적으로 χ² 분포를 따른다는 것을 보여줌으로써 이 경험적 규칙을 정량화한다.

각 독립 표본의 최대 가능도 추정치는 해당 표본이 추출된 모집단을 설명하는 "진정한" 모수 집합에 대한 개별적인 추정치이다. 많은 독립 표본에서 얻은 연속적인 추정치들은 모집단의 "진정한" 모수 값 집합 근처에 모이게 된다. 최대 가능도와 인접한 모수 집합의 로그 가능도 차이를 이용하여, 모수 \theta_1, \dots, \theta_p를 좌표로 하는 공간에 신뢰 영역을 그릴 수 있다. 이 영역은 최대 가능도 추정치를 둘러싸며, 영역 내의 모든 점(모수 집합)은 최대 로그 가능도와의 차이가 특정 값 이하이다. 윌크스 정리에 의해 주어진 χ² 분포는 이 로그 가능도 차이를 해당 영역 내에 모집단의 "진정한" 모수 집합이 포함될 "신뢰도"로 변환한다. 로그 가능도 차이를 적절히 선택하여 신뢰도를 높게 유지하면서도 영역(추정의 범위)을 좁게 만드는 것이 중요하다.

더 많은 데이터가 관찰되면, 이전 표본들과 결합하여 더 큰 단일 표본을 만들고, 이를 이용해 새로운 최대 가능도 추정치를 얻을 수 있다. 결합된 표본의 크기가 커짐에 따라 동일한 신뢰도를 가진 가능도 영역의 크기는 줄어든다. 결국, 신뢰 영역의 크기가 거의 단일 점에 가까워지거나 전체 모집단이 표본으로 사용되면, 추정된 모수 집합은 실제 모집단 모수 집합과 거의 동일해진다.

6. 4. AIC 기반 통계학

AIC 패러다임에서는 가능도를 정보 이론의 맥락에서 해석한다.[57][58][59] 이는 여러 통계 모델 중 주어진 데이터에 가장 적합한 모델을 선택하는 데 사용될 수 있다.

7. 역사

"가능도"(likelihood)라는 용어는 적어도 중세 영어 후기부터 영어에서 사용되어 왔다.[42] 가능도에 대한 초기 고찰은 덴마크수학자 토르발드 티엘레(Thorvald N. Thiele)가 1889년에 저술한 책에서 찾아볼 수 있다.

수학 통계학에서 특정 함수를 지칭하는 공식적인 사용은 로널드 피셔(Ronald Fisher)가 1921년[44]과 1922년[45]에 발표한 두 편의 연구 논문에서 제안했다.[43] 1921년 논문에서는 오늘날 "가능도 구간"이라고 불리는 것을 소개했고, 1922년 논문 ''On the mathematical foundations of theoretical statistics''에서는 "최대 가능도 방법"(method of maximum likelihood)이라는 용어를 처음 사용했다. 이 논문에서 피셔는 통계적 추정의 기초로서 사후 확률을 사용하는 것에 반대하고, 대신 가능도 함수에 기반한 추정을 제안했다.

피셔는 가능도 개념이 확률과 혼동되어서는 안 된다는 점을 강조했다. 그는 "심리적 판단과 관련하여 가능도는 확률과 약간의 유사성이 있지만, 두 개념은 완전히 다르다"고 설명했으며,[46] 또한 "모집단을 알면 확률의 관점에서 표본에 대한 불완전한 지식 또는 기대를 표현할 수 있다. 표본을 알면 가능도의 관점에서 모집단에 대한 불완전한 지식을 표현할 수 있다"고 덧붙였다.[47] 피셔가 통계적 가능도 개념을 발전시킨 것은 이전에 역확률이라고 불렸던 추론 방식에 대한 반작용이었다.[48] 그가 "가능도"라는 용어를 사용하면서 수학 통계학 내에서 이 용어의 의미가 확립되었다.

이후 A. W. F. 에드워즈(A. W. F. Edwards)는 1972년에 로그 가능도 비를 한 가설과 다른 가설에 대한 상대적 지지도의 척도로 사용하는 데 대한 공리적 기초를 확립했다. 이때 가능도 함수의 자연 로그를 "지지 함수"(support function)라고 부른다. 두 용어는 모두 계통 발생학에서 사용되지만, 통계적 증거라는 주제에 대한 일반적인 처리 방식에서는 널리 채택되지 않았다.[49]

참조

[1] 서적 Statistical Inference Duxbury
[2] 서적 Frequentist and Bayesian Regression Methods Springer
[3] 서적 Theory of Point Estimation Springer
[4] 서적 An Introduction to Bayesian Inference in Econometrics Wiley
[5] 서적 Probability and Measure John Wiley & Sons
[6] 서적 Mathematical Statistics Springer
[7] 서적 Statistics and Econometric Models https://books.google[...] Cambridge University Press
[8] 간행물 On the existence and uniqueness of the maximum likelihood estimate of a vector-valued parameter in fixed-size samples
[9] 간행물 A mountain pass lemma and its implications regarding the uniqueness of constrained minimizers
[10] 간행물 A note on the consistency and maxima of the roots of likelihood equations
[11] 서적 Advanced Econometrics: A Bridge to the Literature John Wiley & Sons
[12] 간행물 On Asymptotic Posterior Normality for Stochastic Processes
[13] 간행물 On Asymptotic Normality of Limiting Density Functions with Bayesian Implications
[14] 서적 Bayesian and Likelihood Methods in Statistics and Econometrics Elsevier
[15] 간행물 The Likelihood Ratio, Wald, and Lagrange Multiplier Tests: An Expository Note
[16] 서적 Probability and Statistical Inference Springer
[17] 서적 Statistical Inference—Based on the likelihood https://books.google[...] Chapman & Hall
[18] 문서 Statistical Inference in Science Springer 2000
[19] 서적 Statistical Models Cambridge University Press 2008
[20] 서적 Applied Statistical Inference—Likelihood and Bayes Springer
[21] 서적 Mathematical Statistics Wiley
[22] 간행물 Interval estimation from the likelihood function
[23] 서적 In All Likelihood: Statistical Modelling and Inference Using Likelihood Oxford University Press
[24] 웹사이트 Generalized Linear Model - course notes http://web.thu.edu.t[...] Tunghai University 2017-10-01
[25] 서적 Advanced Econometrics https://archive.org/[...] Harvard University Press
[26] 서적 Estimation and Inference in Econometrics Oxford University Press
[27] 서적 Statistics and Econometric Models Cambridge University Press
[28] 서적 An Introduction to Likelihood Analysis https://archive.org/[...] W. H. Hutchins & Sons
[29] 서적 Ecological Models and Data in R https://books.google[...] Princeton University Press
[30] 서적 GLIM 82: Proceedings of the International Conference on Generalised Linear Models Springer
[31] 간행물 A Method for Computing Profile-Likelihood-Based Confidence Intervals
[32] 간행물 Marginal and Conditional Likelihoods
[33] 간행물 Partial likelihood
[34] 서적 Geometrical Foundations of Asymptotic Inference https://books.google[...] John Wiley & Sons
[35] 웹사이트 Why we always put log() before the joint pdf when we use MLE (Maximum likelihood Estimation)? https://stats.stacke[...] 2013-09-25
[36] 서적 Likelihood Johns Hopkins University Press
[37] 논문 On the Unique Consistent Solution to the Likelihood Equations
[38] 논문 A Note on the Uniqueness of Roots of the Likelihood Equations for Vector-Valued Parameters
[39] 논문 A Note on a Multivariate Version of Rolle's Theorem and Uniqueness of Maximum Likelihood Roots
[40] 논문 A formula for the curvature of the likelihood surface of a sample drawn from a distribution admitting sufficient statistics
[41] 서적 Maximum Likelihood for Social Science : Strategies for Analysis Cambridge University Press
[42] 문서 "likelihood" Shorter Oxford English Dictionary 2007
[43] 논문 On the history of maximum likelihood in relation to inverse probability and least squares http://projecteuclid[...]
[44] 논문 On the "probable error" of a coefficient of correlation deduced from a small sample
[45] 논문 On the mathematical foundations of theoretical statistics http://digital.libra[...]
[46] 서적 Modeling with Data: Tools and Techniques for Scientific Computing Princeton University Press
[47] 논문 Inverse Probability
[48] 논문 Introduction to R.A. Fisher on inverse probability and likelihood
[49] 서적 Statistical Evidence Chapman & Hall
[50] 서적 Philosophy of Statistics North-Holland Publishing
[51] 문서 Probability and the Weighing of Evidence Griffin 1950
[52] 문서 Theory of Probability Oxford University Press 1983
[53] 문서 Probability Theory: The Logic of Science Cambridge University Press 2003
[54] 문서 Introduction to Probability and Statistics from a Bayesian Viewpoint. Part 1: Probability Cambridge University Press 1980
[55] 문서 Bayesian Data Analysis Chapman & Hall/CRC 2014
[56] 서적 Medical Decision Making Wiley
[57] 서적 A Celebration of Statistics Springer
[58] 서적 Akaike Information Criterion Statistics D. Reidel
[59] 서적 Model Selection and Multimodel Inference: A practical information-theoretic approach Springer-Verlag



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com