맨위로가기

지수족

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

지수족은 확률분포가 특정 형태를 가질 때를 지칭하며, 통계적 성질을 활용하여 통계 분석에 사용된다. 지수족은 정규 분포, 지수 분포 등 다양한 분포를 포함하며, 일반적으로 혼합 모델은 지수족에 속하지 않는다. 지수족은 피트만-쿱만-다르모아 정리에 따라 표본 크기에 관계없이 고정된 차원의 충분 통계량을 가지며, 베이즈 통계에서 켤레 사전 분포를 갖는다는 특징이 있다. 일반화 선형 모형의 기초를 형성하며, 베이즈 추론에도 활용된다.

더 읽어볼만한 페이지

  • 확률분포 - 베르누이 분포
    베르누이 분포는 성공 확률 p를 가지며, 단 한 번의 시행에서 성공 또는 실패 두 가지 결과를 나타내는 이산 확률 분포로, 기댓값은 p, 분산은 p(1-p)이며 다른 여러 확률 분포와 관련되어 불확실성과 정보량을 측정할 수 있다.
  • 확률분포 - 로그 정규 분포
    로그 정규 분포는 확률 변수 X의 로그가 정규 분포를 따르며, 양의 실수 값을 갖고 평균 μ와 표준 편차 σ를 매개변수로 갖는 확률 분포이다.
  • 거듭제곱 - 지수 함수
    지수 함수는 양의 상수 *a*를 밑으로 하는 *y = ax* 형태의 함수이며, 특히 자연로그의 역함수인 *ex*는 다양한 정의와 응용을 가지며 복소수로 확장될 수 있다.
  • 거듭제곱 - 반감기
    반감기는 어떤 양이 원래 값의 절반으로 줄어드는 데 걸리는 시간을 의미하며, 방사성 붕괴, 화학 반응 등 다양한 분야에서 활용되고 방사성 동위원소의 안정성을 나타내는 지표이다.
지수족
개요
유형지수족
관련 분포정규 분포, 지수 분포, 베르누이 분포, 푸아송 분포, 감마 분포, 카이제곱 분포, 베타 분포, 디리클레 분포
형태
확률 밀도 함수 (PDF)f(x; θ) = h(x) exp(η(θ) · T(x) - A(θ))
모수θ (모수 벡터)
자연 모수η(θ)
충분 통계량T(x)
척도 함수h(x)
로그-분할 함수A(θ)
속성
켤레 사전 분포존재
지수 분산 모델지수 분산 모델의 특수한 경우

2. 정의

일반적으로 확률분포가 다음 형태로 나타나는 경우 지수족이라고 부른다.

:f(x;\theta) = h(x)\ \exp[\ \eta(\theta) \cdot T(x)\ -\ A(\theta)\ ]

여기서 \theta는 함수의 매개변수이며, h(x), T(x), \eta(\theta), A(\theta)는 알려져 있는 함수이다. 여기서 T(x)는 충분통계량의 역할을 한다.

위 형태는 다음과 같은 형태로 나타내기도 한다.

:f(x;\theta) = h(x)\ g(\theta) \exp[\ \eta(\theta) \cdot T(x)\ ]

:f(x;\theta) = \exp[\ \eta(\theta) \cdot T(x) - A(\theta) + B(x) \ ]

만약 분포가 여러 개의 매개변수를 받는 경우, 매개변수 {\boldsymbol \theta} = (\theta_1, \theta_2, \ldots, \theta_d)^T에 대해, 대응하는 지수족은 다음과 같이 확장할 수 있다.

:f(x; \boldsymbol \theta) = h(x) \exp\left(\sum_{i=1}^s \eta_i({\boldsymbol \theta}) T_i(x) - A({\boldsymbol \theta}) \right)

분포의 지지집합은 매개변수에 의존하지 않아야 한다.

2. 1. 정규형

\ \eta(\theta) = \theta \ 이면, 지수족은 정규형이라고 한다. 변환된 매개변수 \ \eta = \eta(\theta)\ 를 정의함으로써, 지수족을 항상 정규형으로 변환할 수 있다. 정규형에서의 매개변수를 자연 매개변수라고 한다.

2. 2. 벡터 매개변수

하나의 실수 매개변수에 대한 정의는 하나의 실수 벡터 매개변수로 확장될 수 있다. 분포족은 확률 밀도 함수 (또는 이산 분포의 경우 확률 질량 함수)를 다음과 같이 쓸 수 있다면 벡터 지수족에 속한다고 한다.

: f_X(x\mid\boldsymbol \theta) = h(x)\,\exp\left(\sum_{i=1}^s \eta_i({\boldsymbol \theta}) T_i(x) - A({\boldsymbol \theta}) \right)~,

또는 더 간결한 형태로,

: f_X(x\mid\boldsymbol \theta) = h(x)\,\exp\Big(\boldsymbol\eta({\boldsymbol \theta}) \cdot \mathbf{T}(x) - A({\boldsymbol \theta}) \Big)

이 형태는 합계를 벡터 값 함수 \boldsymbol\eta({\boldsymbol \theta})\mathbf{T}(x)\,의 내적으로 나타낸다.

자주 사용되는 또 다른 동등한 형태는 다음과 같다.

: f_X(x\mid\boldsymbol \theta) = h(x)\,g(\boldsymbol \theta)\,\exp\Big(\boldsymbol\eta({\boldsymbol \theta}) \cdot \mathbf{T}(x)\Big)

스칼라 값의 경우와 마찬가지로, 지수족은 다음과 같은 경우 ''표준형''이라고 한다.

:\quad \eta_i({\boldsymbol \theta}) = \theta_i \quad \forall i\,.

벡터 지수족은 다음의 경우 ''곡선형''이라고 한다.

:\boldsymbol \theta \equiv \left[\,\theta_1,\,\theta_2,\,\ldots,\,\theta_d\,\,\right]^\mathsf T 의 차원이 {\boldsymbol \eta}(\boldsymbol \theta) \equiv \left[\,\eta_1(\boldsymbol \theta),\,\eta_2(\boldsymbol \theta),\,\ldots,\,\eta_s(\boldsymbol \theta),\,\right]^\mathsf T~.의 차원보다 작을 때를 의미한다. 즉, 매개변수 벡터의 ''차원''이 확률 밀도 함수의 위 표현에서 매개변수 벡터의 ''함수 수''보다 작은 경우이다. 지수족에서 가장 흔한 분포는 ''곡선형이 아니며'', 모든 지수족과 함께 작동하도록 설계된 많은 알고리즘은 암시적으로 또는 명시적으로 분포가 곡선형이 아니라고 가정한다.

스칼라 값 매개변수의 경우와 마찬가지로, 다른 함수가 선택되면 함수 A(\boldsymbol \theta) 또는 동등하게 g(\boldsymbol \theta)는 정규화 제약 조건에 의해 자동으로 결정된다. \boldsymbol\eta(\boldsymbol\theta)가 일대일이 아니더라도, 분포가 자연 매개변수 \boldsymbol\eta의 각 값에 대해 정규화되도록 요구함으로써 함수 A(\boldsymbol \eta)g(\boldsymbol \eta)를 정의할 수 있다. 이것은 ''표준형''을 생성한다.

: f_X(x\mid\boldsymbol \eta) = h(x)\,\exp\Big(\boldsymbol\eta \cdot \mathbf{T}(x) - A({\boldsymbol \eta})\Big),

또는 동등하게

: f_X(x\mid\boldsymbol \eta) = h(x)\,g(\boldsymbol \eta)\,\exp\Big(\boldsymbol\eta \cdot \mathbf{T}(x)\Big).

위의 형태는 \boldsymbol\eta \cdot \mathbf{T}(x)\, 대신 \boldsymbol\eta^\mathsf T \mathbf{T}(x)로 나타내어질 수도 있다. 이들은 정확히 동등한 공식이며, 내적에 대해 서로 다른 표기법을 사용할 뿐이다.

2. 3. 벡터 변수와 벡터 매개변수

단일 스칼라 값 확률 변수에 대한 벡터-매개변수 형태는 확률 변수 벡터에 대한 결합 분포를 포함하도록 쉽게 확장할 수 있다. 결과 분포는 스칼라 의 각 발생을 벡터로 대체하는 스칼라 값 확률 변수에 대한 위의 분포와 같다.

:\mathbf{x} = \left( x_1, x_2, \cdots, x_k \right)^{\mathsf T}~.

확률 변수의 차원 는 매개변수 벡터의 차원 와 일치할 필요가 없으며 (곡선 지수 함수의 경우) 자연 매개변수 \boldsymbol\eta와 충분 통계량  의 차원 와도 일치할 필요가 없다.

이 경우의 분포는 다음과 같이 작성된다.

:f_X\!\left(\mathbf{x}\mid\boldsymbol \theta\right) = h(\mathbf{x})\,\exp\!\left(\,\sum_{i=1}^s \eta_i({\boldsymbol \theta}) T_i(\mathbf{x}) - A({\boldsymbol \theta})\,\right)

또는 더 간결하게는

: f_X\!\left(\,\mathbf{x}\mid\boldsymbol \theta\,\right) = h(\mathbf{x}) \, \exp\!\Big(\,\boldsymbol\eta({\boldsymbol \theta}) \cdot \mathbf{T}(\mathbf{x}) - A({\boldsymbol \theta})\,\Big)

또는 다른 방식으로

: f_X\!\left(\,\mathbf{x}\mid\boldsymbol \theta\,\right) = g(\boldsymbol \theta) \; h(\mathbf{x}) \, \exp\!\Big(\,\boldsymbol\eta({\boldsymbol \theta}) \cdot \mathbf{T}(\mathbf{x})\,\Big)

3. 성질

Pitman–Koopman–Darmois 정리에 따르면, 지수족 분포에는 표본의 숫자와 무관하게 고정된 차원을 가지는 충분통계량이 존재한다.[9][10][11] 즉, 서로 독립이고 같은 분포를 따르는(i.i.d.) 표본 X_1, \cdots, X_n가 있을 때, 충분통계량 T(X_1, \cdots, X_n)이 존재하여 이 함수값의 차원이 n과 관계없는 고정된 값을 가진다.

지수족은 통계적 분석에 매우 유용하게 사용될 수 있는 많은 속성을 가지고 있다. 많은 경우, 이러한 속성을 가진 것은 ''오직'' 지수족뿐이라는 것을 보여줄 수 있다. 예시는 다음과 같다.


  • 지수족은 고정된 수의 값을 사용하여 임의의 양의 독립 동일 분포 데이터를 요약할 수 있는 충분 통계량을 가진 유일한 족이다. (피트만–쿱만–다르모아 정리)
  • 지수족은 켤레 사전 분포를 가지며, 이는 베이즈 통계에서 중요한 속성이다.
  • 켤레 사전 분포를 갖는 지수족 확률 변수의 사후 예측 분포는 항상 폐쇄 형식으로 작성될 수 있다 (지수족 분포의 정규화 인자 자체가 폐쇄 형식으로 작성될 수 있는 경우).
  • 변분 베이즈의 평균장 근사(대규모 베이즈 네트워크에서 사후 분포를 근사하는 데 사용)에서, 켤레 사전 분포를 갖는 지수족 노드(노드는 베이즈 네트워크의 문맥에서 확률 변수임)의 최적 근사 사후 분포는 해당 노드와 동일한 족에 속한다.[8]


피트만–쿱만–다르모아 정리에 따르면, 추정하려는 매개변수에 따라 정의역이 변하지 않는 확률 분포군 중에서, 표본 크기가 증가함에 따라 차원이 제한된 충분 통계량이 존재하는 것은 지수족뿐이다.

좀 더 자세히 설명하면, ''Xk'' (여기서 ''k'' = 1, 2, 3, ... ''n'')가 독립적이고 동일하게 분포된 확률 변수라고 가정한다. 분포가 지수족 중 하나인 경우에만 충분 통계량 '''''T'''''(''X''1, ..., ''Xn'')이 존재하며, 이 통계량의 성분의 스칼라 성분 수는 표본 크기 ''n''이 증가해도 증가하지 않는다. 통계량 '''''T'''''는 벡터 또는 단일 스칼라 숫자일 수 있지만, 더 많은 데이터를 얻더라도 크기는 커지거나 줄어들지 않는다.

4. 예제

정규 분포, 지수 분포, 로그 정규 분포, 감마 분포, 카이제곱 분포, 베타 분포, 디리클레 분포, 베르누이 분포, 범주형 분포, 푸아송 분포, 기하 분포, 역가우시안 분포, ALAAM, 폰 미제스 분포, 폰 미제스-피셔 분포는 모두 지수족에 속한다.

파레토 분포는 고정된 최소 경계 ''x''m를 가질 때, 이항 분포다항 분포는 고정된 시행 횟수 ''n''을 가질 때, 음이항 분포는 고정된 실패 횟수(중지 시간 매개변수) ''r''을 가질 때 지수족이 된다. 하지만 언급된 매개변수 중 하나라도 변동이 허용되면 지수족이 아니다.

지지는 지수족의 모든 매개변수 설정에서 동일하게 유지되어야 한다. 이는 시행 횟수가 다른 이항 분포, 최소 경계가 다른 파레토 분포가 지수족이 아닌 이유이다. 이들은 매개변수가 지지에 영향을 미쳐 최소 또는 최대 가능 값을 변경시키기 때문이다. 이산 균등 분포와 연속 균등 분포도 경계가 변동하면 지수족이 아니다.

와이블 분포는 고정된 모양 매개변수 ''k''를 가질 때 지수족이다. 모양 매개변수는 지지에 영향을 미치지 않지만, 변동이 허용되면 확률 밀도 함수의 특성(''k''가 지수의 지수에 나타남) 때문에 지수족이 아니게 된다.

혼합 모형 밀도, 복합 확률 분포 등 다른 분포의 유한 또는 무한 혼합 분포에서 파생된 분포는 일반적으로 지수족이 아니다. 스튜던트 t-분포(''정규 분포''를 감마 분포된 정밀도 사전으로 복합), 베타-이항 분포, 디리클레-다항 분포 등 많은 꼬리가 두꺼운 분포와 F-분포, 코시 분포, 초기하 분포, 로지스틱 분포 등이 이에 해당한다.

4. 1. 정규 분포: 미지의 평균, 알려진 분산

알려지지 않은 평균 ''μ''와 ''알려진'' 분산 ''σ''2을 갖는 정규 분포의 확률 밀도 함수는 다음과 같다.

:f_\sigma(x;\mu) = \frac 1 {\sqrt{2 \pi \sigma^2}} e^{-(x-\mu)^2/2\sigma^2}.

이는 다음과 같이 설정함으로써 단일 매개변수 지수족임을 알 수 있다.

:\begin{align}

h_\sigma(x) &= \frac 1 {\sqrt{2\pi\sigma^2}} e^{-x^2/2\sigma^2} \\[4pt]

T_\sigma(x) &= \frac x \sigma \\[4pt]

A_\sigma(\mu) &= \frac{\mu^2}{2\sigma^2}\\[4pt]

\eta_\sigma(\mu) &= \frac \mu \sigma.

\end{align}

만약 ''σ'' = 1 이라면, 이는 정규 형태이며, 이때 ''η''(''μ'') = ''μ'' 이다.

4. 2. 정규 분포: 미지의 평균과 분산

평균과 분산을 알 수 없는 정규 분포의 확률 밀도 함수는 다음과 같다.

:f(x;\mu,\sigma) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{(x-\mu)^2}{2 \sigma^2} \right).

이는 다음과 같이 정의하여 정규형식으로 표현할 수 있는 지수족이다.

:\begin{align}

\boldsymbol{\eta} &= \left(\frac{\mu}{\sigma^2}, -\frac{1}{2\sigma^2} \right)^{\rm T} \\

h(x) &= \frac{1}{\sqrt{2 \pi}} \\

T(x) &= \left( x, x^2 \right)^{\rm T} \\

A({\boldsymbol \eta}) &= \frac{\mu^2}{2 \sigma^2} + \log |\sigma| = -\frac{\eta_1^2}{4\eta_2} + \frac{1}{2}\log\left|\frac{1}{2\eta_2} \right|

\end{align}

4. 3. 이항 분포

이항 분포는 시행 횟수가 고정된 경우 지수족에 속한다. 이산 지수족의 예로, 알려진 시행 횟수 ''n''을 갖는 이항 분포를 고려해 보자. 이 분포에 대한 확률 질량 함수는 다음과 같다.

:f(x)={n \choose x}p^x (1-p)^{n-x}, \quad x \in \{0, 1, 2, \ldots, n\}.

이는 다음과 같이 동등하게 작성할 수 있다.

:f(x)={n \choose x}\exp\left(x \log\left(\frac{p}{1-p}\right) + n \log(1-p)\right),

이는 이항 분포가 지수족이며, 자연 모수는 다음과 같다는 것을 보여준다.

:\eta = \log\frac{p}{1-p}.

''p''의 이 함수는 로짓으로 알려져 있다.

5. 분포표

확률 분포매개변수 \boldsymbol\theta자연 매개변수 \boldsymbol\eta역 매개변수 매핑기본 측도 h(x)충분 통계량 T(x)로그 분할 A(\boldsymbol\eta)로그 분할 A(\boldsymbol\theta)
베르누이 분포[12]p\log\frac{p}{1-p}
(로짓 함수)
\frac{1}{1+e^{-\eta}} = \frac{e^\eta}{1+e^{\eta}}
(로지스틱 함수)
1 x \log (1+e^{\eta}) -\log (1-p)
이항 분포
(n회 시행 횟수 고정)
p\log\frac{p}{1-p}\frac{1}{1+e^{-\eta}} = \frac{e^\eta}{1+e^{\eta}} {n \choose x} x n \log (1+e^{\eta}) -n \log (1-p)
푸아송 분포\lambda\log\lambdae^\eta \frac{1}{x!} x e^{\eta} \lambda
음이항 분포
(실패 횟수 r 고정)
p\log(1-p)1-e^\eta {x+r-1 \choose x} x -r \log (1-e^{\eta}) -r \log (1-p)
지수 분포\lambda-\lambda -\eta 1 x -\log(-\eta) -\log\lambda
파레토 분포
(최소값 x_m 고정)
\alpha-\alpha-1-1-\eta 1 \log x -\log (-1-\eta) + (1+\eta) \log x_{\mathrm m} -\log \alpha - \alpha \log x_{\mathrm m}
와이블 분포
(모양 고정)
\lambda-\frac{1}{\lambda^k}(-\eta)^{-1/k} x^{k-1} x^k -\log(-\eta) -\log k k\log\lambda -\log k
라플라스 분포
(평균 \mu 고정)
b-\frac{1}{b}-\frac{1}{\eta} 1 >x-\mu| \log\left(-\frac{2}{\eta}\right) \log 2b
카이제곱 분포\nu\frac{\nu}{2}-1 2(\eta+1) e^{-x/2} \log x \log \Gamma(\eta+1)+(\eta+1)\log 2 \log \Gamma\left(\frac{\nu}{2}\right)+\frac{\nu}{2}\log 2
정규 분포
(분산 고정)
\mu\frac{\mu}{\sigma} \sigma\eta \frac{e^{-x^2/(2\sigma^2)}}{\sqrt{2\pi}\sigma} \frac{x}{\sigma} \frac{\eta^2}{2} \frac{\mu^2}{2\sigma^2}
연속 베르누이 분포\lambda\log\frac{\lambda}{1-\lambda}\frac{e^\eta}{1+e^\eta} 1 x \log\frac{e^\eta - 1}{\eta} \log\left( \frac{1 - 2\lambda}{(1-\lambda)\log\left(\frac{1-\lambda}{\lambda}\right)} \right)
정규 분포\mu,\ \sigma^2\begin{bmatrix} \dfrac{\mu}{\sigma^2} \\[10pt] -\dfrac{1}{2\sigma^2} \end{bmatrix} \begin{bmatrix} -\dfrac{\eta_1}{2\eta_2} \\[15pt] -\dfrac{1}{2\eta_2} \end{bmatrix} \frac{1}{\sqrt{2\pi}} \begin{bmatrix} x \\ x^2 \end{bmatrix} -\frac{\eta_1^2}{4\eta_2} - \frac12\log(-2\eta_2) \frac{\mu^2}{2\sigma^2} + \log \sigma
로그 정규 분포\mu,\ \sigma^2\begin{bmatrix} \dfrac{\mu}{\sigma^2} \\[10pt] -\dfrac{1}{2\sigma^2} \end{bmatrix} \begin{bmatrix} -\dfrac{\eta_1}{2\eta_2} \\[15pt] -\dfrac{1}{2\eta_2} \end{bmatrix} \frac{1}{\sqrt{2\pi}x} \begin{bmatrix} \log x \\ (\log x)^2 \end{bmatrix} -\frac{\eta_1^2}{4\eta_2} - \frac12\log(-2\eta_2) \frac{\mu^2}{2\sigma^2} + \log \sigma
역 가우시안 분포\mu,\ \lambda\begin{bmatrix} -\dfrac{\lambda}{2\mu^2} \\[15pt] -\dfrac{\lambda}{2} \end{bmatrix} \begin{bmatrix} \sqrt{\dfrac{\eta_2}{\eta_1}} \\[15pt] -2\eta_2 \end{bmatrix} \frac{1}{\sqrt{2\pi}x^{3/2}} \begin{bmatrix} x \\[5pt] \dfrac{1}{x} \end{bmatrix} -2\sqrt{\eta_1\eta_2} -\frac12\log(-2\eta_2) -\frac{\lambda}{\mu} -\frac12\log\lambda
감마 분포\alpha,\ \beta\begin{bmatrix} \alpha-1 \\ -\beta \end{bmatrix} \begin{bmatrix} \eta_1+1 \\ -\eta_2 \end{bmatrix} 1 \begin{bmatrix} \log x \\ x \end{bmatrix} \log \Gamma(\eta_1+1)-(\eta_1+1)\log(-\eta_2) \log \Gamma(\alpha)-\alpha\log\beta
k,\ \theta\begin{bmatrix} k-1 \\[5pt] -\dfrac{1}{\theta} \end{bmatrix} \begin{bmatrix} \eta_1+1 \\[5pt] -\dfrac{1}{\eta_2} \end{bmatrix} \log \Gamma(k)+k\log\theta
역 감마 분포\alpha,\ \beta\begin{bmatrix} -\alpha-1 \\ -\beta \end{bmatrix} \begin{bmatrix} -\eta_1-1 \\ -\eta_2 \end{bmatrix} 1 \begin{bmatrix} \log x \\ \frac{1}{x} \end{bmatrix} \log \Gamma(-\eta_1-1)-(-\eta_1-1)\log(-\eta_2) \log \Gamma(\alpha)-\alpha\log\beta
일반화된 역 가우시안 분포p,\ a,\ b\begin{bmatrix} p-1 \\ -a/2 \\ -b/2 \end{bmatrix} \begin{bmatrix} \eta_1+1 \\ -2\eta_2\\ -2\eta_3 \end{bmatrix} 1 \begin{bmatrix} \log x \\ x \\ \frac{1}{x} \end{bmatrix} \log 2 K_{\eta_1+1}(\sqrt{4\eta_2\eta_3}) - \frac{\eta_1+1}{2}\log\frac{\eta_2}{\eta_3} \log 2 K_{p}(\sqrt{ab}) - \frac{p}{2}\log\frac{a}{b}
스케일링된 역 카이제곱 분포\nu,\ \sigma^2\begin{bmatrix} -\dfrac{\nu}{2}-1 \\[10pt] -\dfrac{\nu\sigma^2}{2} \end{bmatrix} \begin{bmatrix} -2(\eta_1+1) \\[10pt] \dfrac{\eta_2}{\eta_1+1} \end{bmatrix} 1 \begin{bmatrix} \log x \\ \frac{1}{x} \end{bmatrix} \log \Gamma(-\eta_1-1)-(-\eta_1-1)\log(-\eta_2) \log \Gamma\left(\frac{\nu}{2}\right)-\frac{\nu}{2}\log\frac{\nu\sigma^2}{2}
베타 분포

(변형 1)
\alpha,\ \beta\begin{bmatrix} \alpha \\ \beta \end{bmatrix} \begin{bmatrix} \eta_1 \\ \eta_2 \end{bmatrix} \frac{1}{x(1-x)} \begin{bmatrix} \log x \\ \log (1-x) \end{bmatrix} \log \Gamma(\eta_1) + \log \Gamma(\eta_2) - \log \Gamma(\eta_1+\eta_2) \log \Gamma(\alpha) + \log \Gamma(\beta) - \log \Gamma(\alpha+\beta)
베타 분포

(변형 2)
\alpha,\ \beta\begin{bmatrix} \alpha - 1 \\ \beta - 1 \end{bmatrix} \begin{bmatrix} \eta_1 + 1 \\ \eta_2 + 1 \end{bmatrix} 1 \begin{bmatrix} \log x \\ \log (1-x) \end{bmatrix} \log \Gamma(\eta_1 + 1) + \log \Gamma(\eta_2 + 1) - \log \Gamma(\eta_1 + \eta_2 + 2) \log \Gamma(\alpha) + \log \Gamma(\beta) - \log \Gamma(\alpha+\beta)
다변량 정규 분포\boldsymbol\mu,\ \boldsymbol\Sigma\begin{bmatrix} \boldsymbol\Sigma^{-1}\boldsymbol\mu \\[5pt] -\frac12\boldsymbol\Sigma^{-1} \end{bmatrix}\begin{bmatrix} -\frac12\boldsymbol\eta_2^{-1}\boldsymbol\eta_1 \\[5pt] -\frac12\boldsymbol\eta_2^{-1} \end{bmatrix}(2\pi)^{-\frac{k}{2}}\begin{bmatrix} \mathbf{x} \\[5pt] \mathbf{x}\mathbf{x}^{\mathsf T} \end{bmatrix} -\frac{1}{4}\boldsymbol\eta_1^{\mathsf T}\boldsymbol\eta_2^{-1}\boldsymbol\eta_1 - \frac12\log\left>-2\boldsymbol\eta_2\right| \frac12\boldsymbol\mu^{\mathsf T}\boldsymbol\Sigma^{-1}\boldsymbol\mu + \frac12 \log>\boldsymbol\Sigma|
범주형 분포

(변형 1)
p_1,\ \ldots,\,p_k

(\textstyle\sum_{i=1}^k p_i=1)
\begin{bmatrix} \log p_1 \\ \vdots \\ \log p_k \end{bmatrix}\begin{bmatrix} e^{\eta_1} \\ \vdots \\ e^{\eta_k} \end{bmatrix} (\textstyle\sum_{i=1}^k e^{\eta_i}=1) 1 \begin{bmatrix} [x=1] \\ \vdots \\ {[x=k]} \end{bmatrix} 0 0
범주형 분포

(변형 2)
p_1,\ \ldots,\,p_k

(\textstyle\sum_{i=1}^k p_i=1)
\begin{bmatrix} \log p_1+C \\ \vdots \\ \log p_k+C \end{bmatrix}\begin{bmatrix} \dfrac{1}{C}e^{\eta_1} \\ \vdots \\ \dfrac{1}{C}e^{\eta_k} \end{bmatrix} =
1 \begin{bmatrix} [x=1] \\ \vdots \\ {[x=k]} \end{bmatrix} 0 0
범주형 분포

(변형 3)
p_1,\ \ldots,\,p_k

(p_k = 1 - \textstyle\sum_{i=1}^{k-1} p_i)
\begin{bmatrix} \log \dfrac{p_1}{p_k} \\[10pt] \vdots \\[5pt] \log \dfrac{p_{k-1}}{p_k} \\[15pt] 0 \end{bmatrix} =

\begin{bmatrix} \log \dfrac{p_1}{1-\sum_{i=1}^{k-1}p_i} \\[10pt] \vdots \\[5pt] \log \dfrac{p_{k-1}}{1-\sum_{i=1}^{k-1}p_i} \\[15pt] 0 \end{bmatrix}
\begin{bmatrix} \dfrac{e^{\eta_1}}{\sum_{i=1}^{k}e^{\eta_i}} \\[10pt] \vdots \\[5pt] \dfrac{e^{\eta_k}}{\sum_{i=1}^{k}e^{\eta_i}} \end{bmatrix} =

1 \begin{bmatrix} [x=1] \\ \vdots \\ {[x=k]} \end{bmatrix} \log \left(\sum_{i=1}^{k} e^{\eta_i}\right) = \log \left(1+\sum_{i=1}^{k-1} e^{\eta_i}\right) -\log p_k = -\log \left(1 - \sum_{i=1}^{k-1} p_i\right)
다항 분포

(변형 1)
(n회 시행 횟수 고정)
p_1,\ \ldots,\,p_k

(\textstyle\sum_{i=1}^k p_i=1)
\begin{bmatrix} \log p_1 \\ \vdots \\ \log p_k \end{bmatrix}\begin{bmatrix} e^{\eta_1} \\ \vdots \\ e^{\eta_k} \end{bmatrix}(\textstyle\sum_{i=1}^k e^{\eta_i}=1) \frac{n!}{\prod_{i=1}^k x_i!} \begin{bmatrix} x_1 \\ \vdots \\ x_k \end{bmatrix} 0 0
다항 분포

(변형 2)
(n회 시행 횟수 고정)
p_1,\ \ldots,\,p_k

(\textstyle\sum_{i=1}^k p_i=1)
\begin{bmatrix} \log p_1+C \\ \vdots \\ \log p_k+C \end{bmatrix}\begin{bmatrix} \dfrac{1}{C}e^{\eta_1} \\ \vdots \\ \dfrac{1}{C}e^{\eta_k} \end{bmatrix} =
\frac{n!}{\prod_{i=1}^k x_i!} \begin{bmatrix} x_1 \\ \vdots \\ x_k \end{bmatrix} 0 0
다항 분포

(변형 3)
(n회 시행 횟수 고정)
p_1,\ \ldots,\,p_k

(p_k = 1 - \textstyle\sum_{i=1}^{k-1} p_i)
\begin{bmatrix} \log \dfrac{p_1}{p_k} \\[10pt] \vdots \\[5pt] \log \dfrac{p_{k-1}}{p_k} \\[15pt] 0 \end{bmatrix} =

\begin{bmatrix} \log \dfrac{p_1}{1-\sum_{i=1}^{k-1}p_i} \\[10pt] \vdots \\[5pt] \log \dfrac{p_{k-1}}{1-\sum_{i=1}^{k-1}p_i} \\[15pt] 0 \end{bmatrix}
\begin{bmatrix} \dfrac{e^{\eta_1}}{\sum_{i=1}^{k}e^{\eta_i}} \\[10pt] \vdots \\[5pt] \dfrac{e^{\eta_k}}{\sum_{i=1}^{k}e^{\eta_i}} \end{bmatrix} =

\frac{n!}{\prod_{i=1}^k x_i!} \begin{bmatrix} x_1 \\ \vdots \\ x_k \end{bmatrix} n\log \left(\sum_{i=1}^{k} e^{\eta_i}\right) = n\log \left(1+\sum_{i=1}^{k-1} e^{\eta_i}\right) -n\log p_k = -n\log \left(1 - \sum_{i=1}^{k-1} p_i\right)
디리클레 분포

(변형 1)
\alpha_1,\ \ldots,\,\alpha_k\begin{bmatrix} \alpha_1 \\ \vdots \\ \alpha_k \end{bmatrix}\begin{bmatrix} \eta_1 \\ \vdots \\ \eta_k \end{bmatrix} \frac{1}{\prod_{i=1}^k x_i} \begin{bmatrix} \log x_1 \\ \vdots \\ \log x_k \end{bmatrix} \sum_{i=1}^k \log \Gamma(\eta_i) - \log \Gamma\left(\sum_{i=1}^k \eta_i \right) \sum_{i=1}^k \log \Gamma(\alpha_i) - \log \Gamma\left(\sum_{i=1}^k\alpha_i\right)
디리클레 분포

(변형 2)
\alpha_1,\ \ldots,\,\alpha_k\begin{bmatrix} \alpha_1 - 1 \\ \vdots \\ \alpha_k - 1 \end{bmatrix}\begin{bmatrix} \eta_1 + 1 \\ \vdots \\ \eta_k + 1 \end{bmatrix} 1 \begin{bmatrix} \log x_1 \\ \vdots \\ \log x_k \end{bmatrix} \sum_{i=1}^k \log \Gamma(\eta_i + 1) - \log \Gamma\left(\sum_{i=1}^k (\eta_i + 1) \right) \sum_{i=1}^k \log \Gamma(\alpha_i) - \log \Gamma\left(\sum_{i=1}^k\alpha_i\right)
위샤트 분포\mathbf V,\ n\begin{bmatrix} -\frac12\mathbf{V}^{-1} \\[5pt] \dfrac{n-p-1}{2} \end{bmatrix}\begin{bmatrix} -\frac12{\boldsymbol\eta_1}^{-1} \\[5pt] 2\eta_2+p+1 \end{bmatrix} 1 \begin{bmatrix} \mathbf{X} \\ \log>\mathbf{X}| \end{bmatrix} -\left(\eta_2+\frac{p+1}{2}\right)\log|-\boldsymbol\eta_1|+ \log\Gamma_p\left(\eta_2+\frac{p+1}{2}\right) \frac{n}{2}(p\log 2 + \log|\mathbf{V}|) + \log\Gamma_p\left(\frac{n}{2}\right)
참고: {\rm tr}(\mathbf{A}^{\mathsf T}\mathbf{B}) = \operatorname{vec}(\mathbf{A}) \cdot \operatorname{vec}(\mathbf{B}), 즉, 트레이스는 행렬 곱이 점곱과 매우 유사하다는 사실을 사용. 행렬 매개변수는 지수 형태로 삽입될 때 벡터화(벡터로 배치됨)된 것으로 간주. 또한 \mathbf{V}\mathbf{X}는 대칭이므로, \mathbf{V}^{\mathsf T} = \mathbf{V}.
역 위샤트 분포\mathbf \Psi,\,m\begin{bmatrix} -\frac12\boldsymbol\Psi \\[5pt] -\dfrac{m+p+1}{2} \end{bmatrix}\begin{bmatrix} -2\boldsymbol\eta_1 \\[5pt] -(2\eta_2+p+1) \end{bmatrix} 1 \begin{bmatrix} \mathbf{X}^{-1} \\ \log>\mathbf{X}| \end{bmatrix} \left(\eta_2 + \frac{p + 1}{2}\right)\log>-\boldsymbol\eta_1| + \log\Gamma_p\left(-\Big(\eta_2 + \frac{p + 1}{2}\Big)\right) \frac{m}{2}(p\log 2 - \log>\boldsymbol\Psi|) + \log\Gamma_p\left(\frac{m}{2}\right)
정규-감마 분포\alpha,\ \beta,\ \mu,\ \lambda\begin{bmatrix} \alpha-\frac12 \\ -\beta-\dfrac{\lambda\mu^2}{2} \\ \lambda\mu \\ -\dfrac{\lambda}{2}\end{bmatrix} \begin{bmatrix} \eta_1+\frac12 \\ -\eta_2 + \dfrac{\eta_3^2}{4\eta_4} \\ -\dfrac{\eta_3}{2\eta_4} \\ -2\eta_4 \end{bmatrix} \dfrac{1}{\sqrt{2\pi}} \begin{bmatrix} \log \tau \\ \tau \\ \tau x \\ \tau x^2 \end{bmatrix} \log \Gamma\left(\eta_1+\frac12\right) - \frac12\log\left(-2\eta_4\right) - \left(\eta_1+\frac12\right)\log\left(-\eta_2 + \dfrac{\eta_3^2}{4\eta_4}\right) \log \Gamma\left(\alpha\right)-\alpha\log\beta-\frac12\log\lambda


6. 통계학에서의 역할

피트만-쿱만-다르모아 정리에 따르면, 추정하려는 매개변수에 따라 정의역이 변하지 않는 확률 분포군 중에서, 표본 크기가 증가함에 따라 차원이 제한된 충분 통계량이 존재하는 것은 지수족뿐이다. 좀 더 자세히 설명하면, ''Xk'' (여기서 ''k'' = 1, 2, 3, ... ''n'')가 독립적이고 동일하게 분포된 확률 변수라고 가정할 때, 분포가 지수족 중 하나인 경우에만 충분 통계량 '''''T'''''(''X''1, ..., ''Xn'')이 존재하며, 이 통계량의 성분의 스칼라 성분 수는 표본 크기 ''n''이 증가해도 증가하지 않는다.

지수족은 베이즈 통계학에서도 중요하다. 베이즈 통계학에서 사전 분포는 우도 함수와 곱해진 다음 정규화되어 사후 분포를 생성한다. 지수족에 속하는 우도의 경우, 종종 지수족에 속하는 공액 사전 분포가 존재한다.[1] 공액 사전 분포는 우도와 결합되고 정규화될 때 사전 분포와 동일한 유형의 사후 분포를 생성하는 분포이다. 예를 들어, 이항 분포의 성공 확률을 추정하는 경우, 베타 분포를 사전 분포로 사용하면 사후 분포는 또 다른 베타 분포가 되므로 사후 분포의 계산이 특히 간단해진다.[1]

지수족은 일반화 선형 모형(GLM)에서 사용되는 분포 함수의 기초를 형성한다.[2] 일반화 선형 모형은 통계에서 일반적으로 사용되는 회귀 모형의 대부분을 포함하며, 예시로는 이항족을 사용하는 로지스틱 회귀와 푸아송 회귀가 있다.[3][2]

참조

[1] 논문 Probabilities of hypotheses and information-statistics in sampling from exponential-class populations
[2] 논문 Sufficiency and Exponential Families for Discrete Sample Spaces Journal of the American Statistical Association 1970-09
[3] 논문 Sufficient statistics and intrinsic accuracy
[4] 논문 Sur les lois de probabilites a estimation exhaustive
[5] 논문 On distribution admitting a sufficient statistic American Mathematical Society
[6] 웹사이트 General Exponential Families https://www.randomse[...] 2022-08-30
[7] 서적 Statistical Theory: A concise introduction Chapman & Hall
[8] 웹사이트 Variational Inference https://www.cs.princ[...] Princeton U.
[9] 서적 Statistical inference https://www.worldcat[...] Thomson Learning 2002
[10] 서적 Fundamentals of statistical exponential families : with applications in statistical decision theory https://www.worldcat[...] Institute of Mathematical Statistics 1986
[11] 서적 Theoretical statistics : topics for a core course https://www.worldcat[...] 2010
[12] arXiv Statistical exponential families: A digest with flash cards
[13] 논문 Curved Exponential Models in Econometrics
[14] 논문 Tweedie's Formula and Selection Bias 2011-12
[15] 논문 Sufficiency and Exponential Families for Discrete Sample Spaces Journal of the American Statistical Association 1970-09
[16] 논문 Sufficient statistics and intrinsic accuracy
[17] 논문 Sur les lois de probabilites a estimation exhaustive
[18] 논문 On distribution admitting a sufficient statistic American Mathematical Society
[19] arXiv Statistical exponential families: A digest with flash cards
[20] 문서 自然パラメータはロジット関数、パラメータの逆写像はロジスティック関数に相当する。
[21] 문서 [x=i] は[[アイバーソンの記法]]による(x=i ならば 1 そうでなければ 0)
[22] 문서 {\rm tr}(\mathbf{A}^{\rm T}\mathbf{B}) = \operatorname{vec}(\mathbf{A}) \cdot \operatorname{vec}(\mathbf{B}) を用いた。行列パラメータは指数形式に代入する際にベクトル化されているとものとする。また、'''V''' と '''X''' は対称行列であり、\mathbf{V}^\top = \mathbf{V} などとなる。



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com