맨위로가기

스튜던트 t 분포

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

스튜던트 t 분포는 연속 확률 분포의 일종으로, 표본 크기가 작은 정규 모집단의 평균을 추정하는 데 사용된다. 표준 정규 분포와 카이제곱 분포를 이용하여 정의되며, 자유도에 따라 모양이 변한다. t 분포는 모 분산을 알 수 없을 때, 표본 평균을 이용하여 모집단의 평균을 추정하거나 가설 검정을 수행하는 데 활용된다. 또한, 가설 검정, 신뢰 구간 설정, 예측 구간 구성 등 다양한 통계적 추론에 적용되며, 베이즈 통계학, 강건 통계, 스튜던트 t 과정 등에서도 중요한 역할을 한다. 1875년 프리드리히 헬메르트가 처음 도입했으며, 1908년 윌리엄 고셋이 "스튜던트"라는 필명으로 재발견하여 널리 알려졌다.

2. 정의

'''스튜던트 t 분포'''는 다음 확률변수의 분포로 정의된다.

:\frac{Z}{\sqrt{V/\nu}}

여기에서 Z는 표준정규분포, V자유도 \nu카이제곱 분포이다.

t 분포는 종 모양으로서 t=0에서 좌우대칭을 이룬다. t 분포의 모양을 결정하는 것은 자유도이며, 자유도가 커질수록 표준정규분포에 가깝게 된다.[33]

윌리엄 고셋이 제시한 t 분포는, 표본 평균을

:\overline{X} =\frac{X_1 +\cdots +X_n}{n}

로 하고, 불편 분산을

:S^2 =\frac{1}{n-1} \sum_{i=1}^n (X_i -\overline{X} )^2

로 할 때, 다음 변수

:t=\frac{\overline{X} -\mu}{S /\sqrt{n}}

가 따르는 분포이다.

2. 1. 확률 밀도 함수

스튜던트 t 분포는 다음과 같은 확률 밀도 함수를 갖는다.[3]

: f(t)\ =\ \frac{\ \Gamma\!\left(\frac{\ \nu+1\ }{ 2 }\right)\ }{\ \sqrt{\pi\ \nu\ }\; \Gamma\!\left(\frac{\nu}{2}\right)} \; \left(\ 1 + \frac{\ t^2\ }{ \nu }\ \right)^{-(\nu+1)/2}\ ,

여기서 \ \nu\ 는 자유도를 나타내고, \ \Gamma\ 감마 함수이다. 이는 다음과 같이 쓸 수도 있다.

: f(t)\ =\ \frac{ 1 }{\ \sqrt{\nu\ }\ {\mathrm B}\!\left( \frac{\ 1\ }{ 2 },\ \frac{\ \nu\ }{ 2 }\right)\ } \; \left(\ 1 + \frac{\ t^2\ }{ \nu }\ \right)^{-(\nu+1)/2}\ ,

여기서 \ {\mathrm B}\ 베타 함수이다.

확률 밀도 함수는 대칭 분포이며, 자유도의 수가 증가함에 따라 평균 0, 분산 1인 정규 분포에 접근한다.[3]

다음은 자유도가 1, 2, 3, 5, 10, 30인 t 분포(빨간색)의 밀도를 표준 정규 분포(파란색)와 비교한 그림이다.

\ \nu\ 가 증가함에 따라 t 분포(빨간색 선)가 정규 분포에 더 가까워진다.

윌리엄 고셋이 제시한 확률 밀도 함수는 다음과 같다.

:f(t)=\frac{\Gamma ((\nu +1)/2)}{\sqrt{\nu \pi \,}\, \Gamma (\nu /2)} (1+t^2/\nu)^{-(\nu+1)/2}

여기서 t=\frac{\overline{X} -\mu}{S /\sqrt{n}} 이고, \nu자유도이며, \Gamma감마 함수이다.

2. 2. 누적 분포 함수

누적 분포 함수는 정규화된 불완전 베타 함수 ''I''로 나타낼 수 있다. ''t'' > 0에 대해,

:F(t) = \int_{-\infty}^t\ f(u)\ \operatorname{d}u ~=~ 1 - \frac{1}{2} I_{x(t)}\!\left( \frac{\ \nu\ }{ 2 },\ \frac{\ 1\ }{ 2 } \right)\ ,

여기서

:x(t) = \frac{ \nu }{\ t^2+\nu\ } ~.

다른 값들은 대칭성을 통해 얻을 수 있다. \ t^2 < \nu\ ,에 대해 유효한 다른 공식은

:\int_{-\infty}^t f(u)\ \operatorname{d}u ~=~ \frac{1}{2} + t\ \frac{\ \Gamma\!\left( \frac{\ \nu+1\ }{ 2 } \right)\ }{\ \sqrt{\pi\ \nu\ }\ \Gamma\!\left( \frac{ \nu }{\ 2\ }\right)\ } \ {}_{2}F_1\!\left(\ \frac{1}{2}, \frac{\ \nu+1\ }{2}\ ; \frac{ 3 }{\ 2\ }\ ;\ -\frac{\ t^2\ }{ \nu }\ \right)\ ,

이며, 여기서 \ {}_{2}F_1(\ ,\ ;\ ;\ )\ 은 초기하 함수의 특정 예시이다.

역 누적 분포 함수에 대한 정보는 스튜던트 t-분포를 참조하면 된다.

3. 정규분포에서의 추정

어떤 정규분포의 평균\mu이고 분산\sigma^2일 때, 그 분포에서 n개의 표본을 추출한 것을 X_1, \cdots, X_n라고 표기한다. 여기서 다음을 정의한다.

:V = (n-1)\frac{S^2}{\sigma^2}

이는 자유도가 n-1카이제곱 분포를 따른다는 것이 Cochran 정리에 의해 알려져 있다. 또한,

:Z = \left(\overline{X}-\mu\right)\frac{\sqrt{n}}{\sigma}

는 평균이 0이고 분산이 1인 정규분포를 가지며, VZ는 서로 독립이다.

이때 Z에서 \sigma^2 대신 표본분산 S^{\;2}로 대체한 추축량(pivot quantity) T는 다음과 같다.

:T \equiv \frac{Z}{\sqrt{V/\nu}} = \left(\overline{X}-\mu\right)\frac{\sqrt{n}}{S}

T\sigma^2를 포함하지 않으므로, 이 분포는 모집단의 분산을 모를 때 모평균 \mu를 추정하는 데 사용될 수 있다. T는 자유도 n-1인 t-분포를 따른다.

3. 1. 구간 추정

어떤 정규분포에서 표본을 추출하여 표본평균과 표본분산을 구할 수 있다. 이때, 표본평균과 표본분산은 실제 평균과 분산에 대한 불편추정값이다. 표본평균과 표본분산은 다음과 같이 정의된다.

:\overline{X} = \frac{1}{n}(X_1+\cdots+X_n)

:S^{\;2} = \frac{1}{n-1}\sum_{i=1}^n\left(X_i-\overline{X}\right)^2

여기서 T \equiv \left(\overline{X}-\mu\right)\frac{\sqrt{n}}{S}와 같이 정의된 추축량(pivot quantity) T는 자유도가 n-1인 t-분포를 따른다. 이 분포는 모집단의 분산을 모를 때 모평균 \mu를 추정하는 데 사용된다.

자유도가 n-1인 t 분포 T에 대해, \Pr(-A를 만족하는 실수 A는 수치적으로 계산 가능하다. 이를 이용하면,

:\Pr\left(\overline{X}_n - A{S \over \sqrt{n}} < \mu < \overline{X} + A{S \over \sqrt{n}}\right) = 0.9

가 되므로, 정규분포의 모평균은 90%의 신뢰도로 \overline{X}\pm A\frac{S}{\sqrt{n}} 신뢰구간에 속하게 된다.

t 분포를 사용한 모집단의 평균값 \mu의 구간 추정에서는, t=0에 대해 대칭인 구간에서 확률 밀도의 적분값이 95%가 되는 구간(95% 신뢰 구간)을 찾고, 이에 대응하는 \mu의 구간을 신뢰 구간로 사용한다. (99% 신뢰 구간을 사용하는 경우도 있다.)

4. 성질

스튜던트 t 분포는 자유도에 따라 다양한 성질을 가진다.

ν > 1인 경우, t 분포의 원점 모멘트는 다음과 같다.[4]

:\operatorname{\mathbb E}\left\{\ T^k\ \right\} = \begin{cases}

\quad 0 & k \text{ 홀수 }, \quad 0 < k < \nu\ , \\ {} \\

\frac{1}{\ \sqrt{\pi\ }\ \Gamma\left(\frac{\ \nu\ }{ 2 }\right)}\ \left[\ \Gamma\!\left(\frac{\ k + 1\ }{ 2 }\right)\ \Gamma\!\left(\frac{\ \nu - k\ }{ 2 }\right)\ \nu^{\frac{\ k\ }{ 2 }}\ \right] & k \text{ 짝수 }, \quad 0 < k < \nu ~.\\

\end{cases}

ν 차수 이상의 모멘트는 존재하지 않는다. 0 < k < ν 이고 k가 짝수인 경우 감마 함수의 성질을 이용하여 위 식을 단순화할 수 있다.

:\operatorname{\mathbb E}\left\{\ T^k\ \right\} = \nu^{ \frac{\ k\ }{ 2 } }\ \prod_{j=1}^{k/2}\ \frac{~ 2j - 1 ~}{ \nu - 2j } \qquad k \text{ 짝수}, \quad 0 < k < \nu ~.

자유도 ν를 가진 t 분포의 기댓값은 ν > 1 이면 0이고, 분산은 ν > 2 이면 \ \frac{ \nu }{\ \nu-2\ }\ 이다. 왜도는 ν > 3 이면 0이고, 초과 첨도는 ν > 4 이면 \ \frac{ 6 }{\ \nu - 4\ }\ 이다.

스튜던트 t 분포는 자유도 \nu카이제곱 분포(V)와 표준정규분포(Z)를 이용하여 다음과 같이 정의된다.[33]

:\frac{Z}{\sqrt{V/\nu}}

t 분포는 종 모양으로 t=0을 기준으로 좌우 대칭을 이룬다. 자유도가 커질수록 표준정규분포에 가까워진다.[33]

스튜던트 t 분포는 특정 조건에서 최대 엔트로피 확률 분포가 된다.[9]

위치 모수 \mu와 척도 모수 \tau를 도입하여 3개의 모수를 갖는 위치-척도 t 분포 \mathcal{lst}(\mu, \tau^2, \nu)로 일반화할 수 있다.[12]

:T \sim t_\nu

위치-척도족 변환을 사용하면,

:X = \mu + \tau T

:X \sim \mathcal{lst}(\mu, \tau^2, \nu)

결과 분포는 비표준 스튜던트 t 분포라고도 한다. 위치-척도 t 분포는 다음과 같이 정의된 밀도를 갖는다.[12]

:p(x\mid \nu,\mu,\tau) = \frac{\Gamma\left(\frac{\nu + 1}{2}\right)}{\Gamma\left( \frac{\nu}{2}\right) \sqrt{\pi\nu} \tau} \left( 1 + \frac{1}{\nu} \left(\frac{x-\mu}{\tau}\right)^2 \right)^{-(\nu+1)/2}

이 분포의 다른 성질들은 다음과 같다.[12]

:\begin{align}

\operatorname{\mathbb E}\{ X \} &= \mu & \text{ for } \nu > 1,\\

\operatorname{var}\{ X \} &= \tau^2\frac{\nu}{\nu-2} & \text{ for } \nu > 2,\\

\operatorname{mode}\{ X \} &= \mu.

\end{align}

자유도에 따라 스튜던트 t 분포는 다음과 같은 특수한 형태를 가진다.[3]

자유도 (\nu)확률밀도함수 (PDF)누적분포함수 (CDF)비고
1\ \frac{\ 1\ }{\ \pi\ (1 + t^2)\ }\ \ \frac{\ 1\ }{ 2 } + \frac{\ 1\ }{ \pi }\ \arctan(\ t\ )\ 코시 분포
2\ \frac{ 1 }{\ 2\ \sqrt{2\ }\ \left(1+\frac{t^2}{2}\right)^{3/2}}\ \ \frac{\ 1 }{\ 2\ }+\frac{ t }{\ 2\sqrt{2\ }\ \sqrt{ 1 + \frac{~ t^2\ }{ 2 }\ }\ }\
3\ \frac{ 2 }{\ \pi\ \sqrt{3\ }\ \left(\ 1 + \frac{~ t^2\ }{ 3 }\ \right)^2\ }\ \ \frac{\ 1\ }{ 2 } + \frac{\ 1\ }{ \pi }\ \left[ \frac{ \left(\ \frac{ t }{\ \sqrt{3\ }\ }\ \right) }{ \left(\ 1 + \frac{~ t^2\ }{ 3 }\ \right) } + \arctan\left(\ \frac{ t }{\ \sqrt{3\ }\ }\ \right)\ \right]\
4\ \frac{\ 3\ }{\ 8\ \left(\ 1 + \frac{~ t^2\ }{ 4 }\ \right)^{5/2}}\ \ \frac{\ 1\ }{ 2 } + \frac{\ 3\ }{ 8 } \left[\ \frac{ t }{\ \sqrt{ 1 + \frac{~ t^2\ }{ 4 } ~}\ } \right] \left[\ 1 - \frac{~ t^2\ }{\ 12\ \left(\ 1 + \frac{~ t^2\ }{ 4 }\ \right)\ }\ \right]\
5\ \frac{ 8 }{\ 3 \pi \sqrt{5\ }\left(1+\frac{\ t^2\ }{ 5 }\right)^3\ }\ \ \frac{\ 1\ }{ 2 } + \frac{\ 1\ }{\pi}{ \left[ \frac{ t }{\ \sqrt{5\ }\left(1 + \frac{\ t^2\ }{ 5 }\right)\ } \left(1 + \frac{ 2 }{\ 3 \left(1 + \frac{\ t^2\ }{ 5 }\right)\ }\right) + \arctan\left( \frac{ t }{\ \sqrt{\ 5\ }\ } \right)\right]}\
\ \infty\ \ \frac{ 1 }{\ \sqrt{2 \pi\ }\ }\ e^{-t^2/2}\ \frac{\ 1\ }{ 2 }\ {\left[ 1 + \operatorname{erf}\left( \frac{ t }{\ \sqrt{2\ }\ } \right) \right]}\ 정규 분포, 오차 함수


  • 자유도 \nu=1일 때, 스튜던트 t 분포는 코시 분포와 같다.
  • 자유도 \nu가 무한대(\infty)에 가까워질수록, 스튜던트 t 분포는 정규 분포에 수렴한다.

4. 1. 모멘트

ν > 1에 대해, t 분포의 원점 모멘트는 다음과 같다.

:\operatorname{\mathbb E}\left\{\ T^k\ \right\} = \begin{cases}

\quad 0 & k \text{ 홀수 }, \quad 0 < k < \nu\ , \\ {} \\

\frac{1}{\ \sqrt{\pi\ }\ \Gamma\left(\frac{\ \nu\ }{ 2 }\right)}\ \left[\ \Gamma\!\left(\frac{\ k + 1\ }{ 2 }\right)\ \Gamma\!\left(\frac{\ \nu - k\ }{ 2 }\right)\ \nu^{\frac{\ k\ }{ 2 }}\ \right] & k \text{ 짝수 }, \quad 0 < k < \nu ~.\\

\end{cases}

ν 차수 이상의 모멘트는 존재하지 않는다.[4]

0 < k < ν 이고, k가 짝수인 경우 감마 함수의 성질을 이용하여 다음과 같이 단순화할 수 있다.

:\operatorname{\mathbb E}\left\{\ T^k\ \right\} = \nu^{ \frac{\ k\ }{ 2 } }\ \prod_{j=1}^{k/2}\ \frac{~ 2j - 1 ~}{ \nu - 2j } \qquad k \text{ 짝수}, \quad 0 < k < \nu ~.

자유도 ν를 가진 t 분포의 경우, 기댓값은 ν > 1 이면 0이고, 분산은 ν > 2 이면 \ \frac{ \nu }{\ \nu-2\ }\ 이다. 왜도는 ν > 3 이면 0이고, 초과 첨도는 ν > 4 이면 \ \frac{ 6 }{\ \nu - 4\ }\ 이다.

''t'' 분포의 적률은 다음 식으로 나타낸다.

  • k가 홀수인 경우

:E(t^k)=\begin{cases}

0, &\quad 0
\mbox{정의되지 않음}, &\quad 0<\nu \leq k

\end{cases}

  • k가 짝수인 경우

:E(t^k )=\begin{cases}

\frac{\Gamma (\frac{k+1}{2})\Gamma (\frac{\nu-k}{2} )\nu^{k/2}}{\sqrt{\pi}\Gamma (\frac{\nu}{2} )}, &\quad 0
\infty, &\quad 0<\nu \leq k

\end{cases}

4. 2. 다른 분포와의 관계

스튜던트 t 분포는 자유도 \nu카이제곱 분포(V)와 표준정규분포(Z)를 이용하여 다음과 같이 정의된다.[33]

:\frac{Z}{\sqrt{V/\nu}}

t 분포는 종 모양으로 t=0을 기준으로 좌우 대칭을 이룬다. 자유도가 커질수록 표준정규분포에 가까워진다.[33]

스튜던트 t 분포는 특정 조건에서 최대 엔트로피 확률 분포가 된다.[9]

t 분포는 다음과 같은 분포들과 관련이 있다.

  • 비중심 t-분포: t-분포를 일반화하여 비중심 모수를 포함하며, 대칭적이지 않다.
  • 이산 스튜던트 t 분포: 확률 질량 함수가 특정 형태를 가지며, 연속 분포에 대한 피어슨 분포와 유사한 이산 분포 시스템에서 발생한다.[10][11]
  • 비율 분포: t 분포는 비율 분포의 한 예이다.
  • 정규 분포카이제곱 분포: 정규 분포와 카이제곱 분포의 제곱근에서 변수의 비율을 취하여 스튜던트 t 분포 표본을 생성할 수 있다.
  • t(n) 분포를 따르는 확률 변수의 제곱은 F(1,n) 분포를 따른다.

4. 2. 1. 위치-척도 모수 변환

스튜던트 t 분포는 위치 모수 \mu와 척도 모수 \tau를 도입하여 3개의 모수를 갖는 위치-척도 t 분포 \mathcal{lst}(\mu, \tau^2, \nu)로 일반화된다.[12]

:T \sim t_\nu

위치-척도족 변환을 사용하면,

:X = \mu + \tau T

다음과 같은 결과를 얻는다.

:X \sim \mathcal{lst}(\mu, \tau^2, \nu)

결과 분포는 비표준 스튜던트 t 분포라고도 한다.

위치-척도 t 분포는 다음과 같이 정의된 밀도를 갖는다.[12]

:p(x\mid \nu,\mu,\tau) = \frac{\Gamma\left(\frac{\nu + 1}{2}\right)}{\Gamma\left( \frac{\nu}{2}\right) \sqrt{\pi\nu} \tau} \left( 1 + \frac{1}{\nu} \left(\frac{x-\mu}{\tau}\right)^2 \right)^{-(\nu+1)/2}

또는, 밀도를 \tau^2로 표현할 수 있다.

:p(x \mid \nu, \mu, \tau^2) = \frac{\Gamma( \frac{\nu + 1}{2})}{\Gamma\left(\frac{\nu}{2}\right) \sqrt{\pi\nu\tau^2}} \left( 1 + \frac{1}{\nu} \frac{(x - \mu)^2}{\tau^2} \right)^{-(\nu+1)/2}

이 분포의 다른 성질들은 다음과 같다.[12]

:\begin{align}

\operatorname{\mathbb E}\{ X \} &= \mu & \text{ for } \nu > 1,\\

\operatorname{var}\{ X \} &= \tau^2\frac{\nu}{\nu-2} & \text{ for } \nu > 2,\\

\operatorname{mode}\{ X \} &= \mu.

\end{align}

  • 만약 X가 위치-척도 t 분포 X \sim \mathcal{lst}\left(\mu, \tau^2, \nu\right)를 따른다면, \nu \rightarrow \infty일 때 X는 평균 \mu와 분산 \tau^2를 갖는 정규 분포 X \sim \mathrm{N}\left(\mu, \tau^2\right)를 따른다.
  • 자유도 \nu=1을 갖는 위치-척도 t 분포 \mathcal{lst}\left(\mu, \tau^2, \nu=1 \right)는 코시 분포 \mathrm{Cau}\left(\mu, \tau\right)와 동일하다.
  • \mu=0\tau^2=1인 위치-척도 t 분포 \mathcal{lst}\left(\mu=0, \tau^2=1, \nu\right)는 스튜던트 t 분포 t_\nu로 축소된다.

4. 3. 특수한 경우

자유도에 따라 스튜던트 t 분포는 다음과 같은 특수한 형태를 가진다.[3]

자유도 (\nu)확률밀도함수 (PDF)누적분포함수 (CDF)비고
1\ \frac{\ 1\ }{\ \pi\ (1 + t^2)\ }\ \ \frac{\ 1\ }{ 2 } + \frac{\ 1\ }{ \pi }\ \arctan(\ t\ )\ 코시 분포
2\ \frac{ 1 }{\ 2\ \sqrt{2\ }\ \left(1+\frac{t^2}{2}\right)^{3/2}}\ \ \frac{\ 1 }{\ 2\ }+\frac{ t }{\ 2\sqrt{2\ }\ \sqrt{ 1 + \frac{~ t^2\ }{ 2 }\ }\ }\
3\ \frac{ 2 }{\ \pi\ \sqrt{3\ }\ \left(\ 1 + \frac{~ t^2\ }{ 3 }\ \right)^2\ }\ \ \frac{\ 1\ }{ 2 } + \frac{\ 1\ }{ \pi }\ \left[ \frac{ \left(\ \frac{ t }{\ \sqrt{3\ }\ }\ \right) }{ \left(\ 1 + \frac{~ t^2\ }{ 3 }\ \right) } + \arctan\left(\ \frac{ t }{\ \sqrt{3\ }\ }\ \right)\ \right]\
4\ \frac{\ 3\ }{\ 8\ \left(\ 1 + \frac{~ t^2\ }{ 4 }\ \right)^{5/2}}\ \ \frac{\ 1\ }{ 2 } + \frac{\ 3\ }{ 8 } \left[\ \frac{ t }{\ \sqrt{ 1 + \frac{~ t^2\ }{ 4 } ~}\ } \right] \left[\ 1 - \frac{~ t^2\ }{\ 12\ \left(\ 1 + \frac{~ t^2\ }{ 4 }\ \right)\ }\ \right]\
5\ \frac{ 8 }{\ 3 \pi \sqrt{5\ }\left(1+\frac{\ t^2\ }{ 5 }\right)^3\ }\ \ \frac{\ 1\ }{ 2 } + \frac{\ 1\ }{\pi}{ \left[ \frac{ t }{\ \sqrt{5\ }\left(1 + \frac{\ t^2\ }{ 5 }\right)\ } \left(1 + \frac{ 2 }{\ 3 \left(1 + \frac{\ t^2\ }{ 5 }\right)\ }\right) + \arctan\left( \frac{ t }{\ \sqrt{\ 5\ }\ } \right)\right]}\
\ \infty\ \ \frac{ 1 }{\ \sqrt{2 \pi\ }\ }\ e^{-t^2/2}\ \frac{\ 1\ }{ 2 }\ {\left[ 1 + \operatorname{erf}\left( \frac{ t }{\ \sqrt{2\ }\ } \right) \right]}\ 정규 분포, 오차 함수


  • 자유도 \nu=1일 때, 스튜던트 t 분포는 코시 분포와 같다.
  • 자유도 \nu가 무한대(\infty)에 가까워질수록, 스튜던트 t 분포는 정규 분포에 수렴한다.

5. 응용

Student's t-distribution|스튜던트 t 분포영어는 ''t'' 검정 등 다양한 통계적 상황에서 활용된다. 함수는 스튜던트 확률 밀도 함수를 특정 구간까지 적분한 값으로, 관찰된 데이터에서 계산된 값보다 작은 ''t'' 값이 우연히 발생할 확률을 나타낸다.

두 데이터 집합의 평균 간 차이가 통계적으로 유의미한지 검정할 때, 이 함수를 사용하여 해당 값을 계산하고 두 데이터 집합이 동일한 모집단에서 추출된 경우 발생할 확률을 계산할 수 있다.

통계적 가설 검정에서 이 함수는 ''p''-값을 구성하는 데 사용된다. 또한, 베이즈 통계학에서도 정규 분포와의 연관성 때문에 자주 등장한다. 예를 들어, 정규 분포를 따르는 확률 변수의 분산이 알려져 있지 않고, 역 감마 분포를 따르는 켤레 사전 분포가 분산에 적용되면, 변수의 결과적인 주변 분포는 스튜던트 t 분포를 따른다.

t 분포는 정규 분포보다 꼬리가 더 두꺼운 데이터를 모델링하기 위한 대안으로도 사용되며, 강건 통계에 대한 매개변수적 접근 방식을 제공한다. 또한, 회귀 분석 및 예측의 필요성을 위해 함수에 대한 스튜던트 t 분포의 일반화인 스튜던트 t 과정이 도입되어 활용된다.

5. 1. 통계적 추론

스튜던트 t 분포는 모분산을 모를 때 모평균 \mu를 추정하는 데 사용된다. 어떤 정규분포에서 n개의 표본을 추출했을 때, 표본평균과 표본분산은 다음과 같다.

:\overline{X} = \frac{1}{n}(X_1+\cdots+X_n)

:S^{\;2} = \frac{1}{n-1}\sum_{i=1}^n\left(X_i-\overline{X}\right)^2

이 값들은 실제 평균과 분산에 대한 불편추정값이다. 이때,

:T \equiv \left(\overline{X}-\mu\right)\frac{\sqrt{n}}{S}

는 자유도 n-1인 t-분포를 따른다. 이 분포는 분산을 모를 때 평균값 \mu를 추정하는 데 사용이 가능하다.[5][6]

t 분포는 데이터에 오류가 추가된 상태에서 미지의 매개변수를 추정하는 다양한 통계적 문제에서 활용된다. 특히 모분산을 알 수 없어 데이터로부터 추정해야 할 때, t 분포는 이러한 추정에서 발생하는 불확실성을 반영하는 데 사용된다.

신뢰 구간과 가설 검정은 특정 통계량의 표집 분포에서 분위수를 필요로 하는 통계적 절차이다.

5. 1. 1. 가설 검정

Student영어 t 분포는 가설 검정에서 중요한 역할을 한다. 특히 t-검정에 사용된다.

어떤 데이터 집합의 평균 간 차이가 통계적으로 유의미한지 검정할 때, 해당 t 값을 계산하고, 두 데이터 집합이 동일한 모집단에서 추출된 경우 발생할 확률을 계산하여 사용한다. 통계량 t에 대해 자유도 ν를 가지는 경우, A(t|ν)는 두 평균이 동일할 경우 관찰된 값보다 t가 작을 확률이다(더 작은 평균을 더 큰 평균에서 빼서 t≥0). 이는 t 분포의 누적 분포 함수를 통해 계산할 수 있다.

통계적 가설 검정에서 이 함수는 p-값을 구성하는 데 사용된다.

다수의 통계량은 관심 있는 귀무 가설 하에서 중간 크기의 표본에 대해 t 분포를 갖는 것으로 나타날 수 있으며, 따라서 t 분포는 유의성 검정의 기초를 형성한다. 예를 들어, 스피어만 순위 상관 계수의 분포는 귀무 가설(상관 관계 0)의 경우 약 20 이상의 표본 크기에 대해 t 분포로 근사될 수 있다.

모집단의 평균값 μ의 가설 검정에서는, t의 값이 미리 정한 α 수준 하에서의 신뢰 구간(95% 또는 99%)에 포함되는지 여부를 판정 기준으로 하고, 포함되는 경우에는 모집단의 평균값이 μ라는 가설 (귀무 가설)은 기각되지 않고, 구간에서 벗어나는 경우에는 가설을 기각한다.

5. 1. 2. 신뢰 구간

어떤 정규분포의 평균이 \mu이고 분산이 \sigma^2일 때, 그 분포에서 n개의 표본을 추출하여 표본평균과 표본분산을 계산하면, 실제 평균과 분산에 대한 불편추정값을 얻을 수 있다. 이때,

:T \equiv \left(\overline{X}-\mu\right)\frac{\sqrt{n}}{S}

는 자유도 n-1인 t-분포를 따르며, 분산을 모를 때 평균값 \mu를 추정하는 데 사용된다.[1]

자유도 n-1인 t 분포 T에 대해,

:\Pr(-A

를 만족하는 실수 A는 수치적으로 계산 가능하다. 이를 통해,

:\Pr\left(\overline{X}_n - A{S \over \sqrt{n}} < \mu < \overline{X} + A{S \over \sqrt{n}}\right) = 0.9

임을 알 수 있다. 따라서, 정규분포의 평균은 90%의 신뢰도로 \overline{X}\pm A\frac{S}{\sqrt{n}} 신뢰구간에 속하게 된다.[1]

데이터가 정규 분포를 따를 때, 평균의 단측 신뢰 한계(UCL)는 다음으로 계산된다.

:\mathsf{UCL}_{1-\alpha} = \overline{X}_n + t_{\alpha,n-1}\ \frac{ S_n }{\ \sqrt{n\ }\ } ~.[1]

결과 UCL은 주어진 신뢰 구간 및 모집단 크기에 대해 발생할 최대 평균 값이 된다. 즉, \overline{X}_n이 관측값 집합의 평균일 때, 분포의 평균이 \mathsf{UCL}_{1-\alpha} 보다 작을 확률은 신뢰 수준 1-\alpha와 같다.[1]

다음은 단측 또는 양측 임계 영역에 대해 자유도 \nu를 가진 t 분포의 값을 나타내는 표이다.

단측75%80%85%90%95%97.5%99%99.5%99.75%99.9%99.95%
양측50%60%70%80%90%95%98%99%99.5%99.8%99.9%
11.0001.3761.9633.0786.31412.70631.82163.657127.321318.309636.619
20.8161.0611.3861.8862.9204.3036.9659.92514.08922.32731.599
30.7650.9781.2501.6382.3533.1824.5415.8417.45310.21512.924
40.7410.9411.1901.5332.1322.7763.7474.6045.5987.1738.610
50.7270.9201.1561.4762.0152.5713.3654.0324.7735.8936.869
60.7180.9061.1341.4401.9432.4473.1433.7074.3175.2085.959
70.7110.8961.1191.4151.8952.3652.9983.4994.0294.7855.408
80.7060.8891.1081.3971.8602.3062.8963.3553.8334.5015.041
90.7030.8831.1001.3831.8332.2622.8213.2503.6904.2974.781
100.7000.8791.0931.3721.8122.2282.7643.1693.5814.1444.587
110.6970.8761.0881.3631.7962.2012.7183.1063.4974.0254.437
120.6950.8731.0831.3561.7822.1792.6813.0553.4283.9304.318
130.6940.8701.0791.3501.7712.1602.6503.0123.3723.8524.221
140.6920.8681.0761.3451.7612.1452.6242.9773.3263.7874.140
150.6910.8661.0741.3411.7532.1312.6022.9473.2863.7334.073
160.6900.8651.0711.3371.7462.1202.5832.9213.2523.6864.015
170.6890.8631.0691.3331.7402.1102.5672.8983.2223.6463.965
180.6880.8621.0671.3301.7342.1012.5522.8783.1973.6103.922
190.6880.8611.0661.3281.7292.0932.5392.8613.1743.5793.883
200.6870.8601.0641.3251.7252.0862.5282.8453.1533.5523.850
210.6860.8591.0631.3231.7212.0802.5182.8313.1353.5273.819
220.6860.8581.0611.3211.7172.0742.5082.8193.1193.5053.792
230.6850.8581.0601.3191.7142.0692.5002.8073.1043.4853.767
240.6850.8571.0591.3181.7112.0642.4922.7973.0913.4673.745
250.6840.8561.0581.3161.7082.0602.4852.7873.0783.4503.725
260.6840.8561.0581.3151.7062.0562.4792.7793.0673.4353.707
270.6840.8551.0571.3141.7032.0522.4732.7713.0573.4213.690
280.6830.8551.0561.3131.7012.0482.4672.7633.0473.4083.674
290.6830.8541.0551.3111.6992.0452.4622.7563.0383.3963.659
300.6830.8541.0551.3101.6972.0422.4572.7503.0303.3853.646
400.6810.8511.0501.3031.6842.0212.4232.7042.9713.3073.551
500.6790.8491.0471.2991.6762.0092.4032.6782.9373.2613.496
600.6790.8481.0451.2961.6712.0002.3902.6602.9153.2323.460
800.6780.8461.0431.2921.6641.9902.3742.6392.8873.1953.416
1000.6770.8451.0421.2901.6601.9842.3642.6262.8713.1743.390
1200.6770.8451.0411.2891.6581.9802.3582.6172.8603.1603.373
0.6740.8421.0361.2821.6451.9602.3262.5762.8073.0903.291
단측75%80%85%90%95%97.5%99%99.5%99.75%99.9%99.95%
양측50%60%70%80%90%95%98%99%99.5%99.8%99.9%

[1]

t 분포를 사용한 모집단의 평균값 \mu의 구간 추정에서는, t=0에 대해 대칭인 구간에서, 그 구간에 걸친 확률 밀도의 적분값이 95%가 되는 구간(95% 신뢰 구간)을 구하고, 이에 대응하는 \mu의 구간을 신뢰 구간 (CI)이라고 한다. (99% 신뢰 구간을 사용하는 경우도 있다).[1]

5. 1. 3. 예측 구간

Student's t-distribution|스튜던트 t 분포영어는 평균과 분산을 알 수 없는 정규 분포에서 관측되지 않은 표본에 대한 예측 구간을 구성하는 데 사용할 수 있다.

5. 2. 베이즈 통계학

스튜던트 *t* 분포는 특히 세 매개변수(위치-척도) 버전에서 베이즈 통계학에서 정규 분포와의 연관성 때문에 자주 발생한다. 정규 분포를 따르는 확률 변수분산이 알려져 있지 않고, 역 감마 분포를 따르는 켤레 사전 분포가 분산에 적용되면, 변수의 결과적인 주변 분포는 스튜던트 *t* 분포를 따른다. 동일한 결과를 갖는 동등한 구성에는 분산에 대한 켤레 스케일링된 역 카이 제곱 분포 또는 정밀도에 대한 켤레 감마 분포가 포함된다. 분산에 비례하는 부적절 사전 분포가 적용되면 *t* 분포도 나타난다. 이는 정규 분포 변수의 평균이 알려져 있는지, 켤레 사전 분포에 따라 분포된 알려지지 않은 것인지, 또는 부적절한 상수 사전 분포에 따라 분포된 알려지지 않은 것인지에 관계없이 적용된다.

  • t* 분포를 생성하는 관련 상황은 다음과 같다.

  • 위 모델을 따르는 알려지지 않은 사전 평균과 분산을 갖는, 정규 분포 변수의 알려지지 않은 평균에 대한 주변 사후 분포.
  • 위 모델과 같이 사전 평균과 분산이 있는, 일련의 독립 동일 분포 정규 분포 데이터 포인트가 관찰되었을 때 새로운 정규 분포 데이터 포인트의 사전 예측 분포 및 사후 예측 분포.

5. 3. 강건 통계

t 분포는 정규 분포보다 꼬리가 더 두꺼운 데이터를 모델링하기 위한 대안으로 자주 사용된다. 예를 들어 랑게 등(Lange et al.)을 참조할 수 있다.[13] 고전적인 접근 방식은 이상값을 식별하고(예: Grubbs's test 사용) 이를 제외하거나 가중치를 낮추는 것이었다. 그러나 이상값을 식별하는 것은 항상 쉽지 않으며(특히 고차원에서), t 분포는 이러한 데이터에 대한 자연스러운 모델 선택이며 강건 통계에 대한 매개변수적 접근 방식을 제공한다.

5. 4. 스튜던트 t 과정

실용적인 회귀 분석예측의 필요성을 위해 함수에 대한 스튜던트 ''t'' 분포의 일반화인 스튜던트 ''t'' 과정이 도입되었다. 스튜던트 ''t'' 과정은 가우시안 과정이 다변량 정규 분포에서 구성되는 것처럼 스튜던트 ''t'' 분포에서 구성된다. 가우시안 과정의 경우, 모든 값의 집합은 다차원 가우시안 분포를 갖는다. 이와 유사하게, X(t)는 해당 과정의 값 X(t_1),\ \ldots\ , X(t_n)\ (t_i \in I)이 결합된 다변량 t-분포를 가질 경우 구간 I=[a,b]에서 스튜던트 ''t'' 과정이다.[15] 이러한 과정은 회귀, 예측, 베이지안 최적화 및 관련 문제에 사용된다. 다변량 회귀 및 다중 출력 예측을 위해 다변량 스튜던트 ''t'' 과정이 도입되어 사용된다.[16]

6. 역사

통계학자 윌리엄 시리 고셋(William Sealy Gosset), "Student"로 알려짐


스튜던트 t 분포는 1875년 프리드리히 로베르트 헬메르트(Friedrich Robert Helmertde)가 처음 도입하였고,[34][35][36][37] 이듬해 야코프 뤼로트(Jacob Lürothde)가 같은 분포를 재발견하였다.[38][39] 그러나 이들의 논문은 영문 학계에 널리 알려지지 않았다.

1908년 윌리엄 고셋이 "스튜던트"(Student영어)라는 필명으로 t 분포를 재발견하였다.[40] 기네스 양조 공장에서 근무했던 고셋은 맥주 보리의 품질을 시험하기 위해 이 분포를 사용했으며, 경쟁사에 기네스의 통계 기법을 숨기기 위해 필명을 사용했다.[41] 이후 로널드 피셔가 이 분포를 "스튜던트 분포"라 부르고 ''t'' 기호를 사용하면서, 고셋의 필명을 따 "스튜던트 t 분포"로 알려지게 되었다.[42]

t 분포는 칼 피어슨(Karl Pearson)의 1895년 논문에서 피어슨 4형 분포의 보다 일반적인 형태로 나타나기도 했다.[24]

6. 1. 헬메르트와 뤼로트의 초기 연구

프리드리히 로베르트 헬메르트(Friedrich Robert Helmertde)가 1875년에 도입하였다.[34][35][36][37] 이듬해 야코프 뤼로트(Jacob Lürothde)도 같은 분포를 재발견하였다.[38][39] 그러나 헬메르트와 뤼로트의 논문은 영문 학계에 널리 알려지지 않았다.

6. 2. 윌리엄 고셋의 재발견

윌리엄 고셋은 "스튜던트"(Student|스튜던트영어)라는 필명으로 1908년에 t 분포를 재발견하였다.[40] 고셋은 기네스 양조 공장에서 일했고, 맥주에 사용되는 보리의 질을 시험하기 위해 이 분포를 도입하였다. 경쟁사들에게 기네스의 획기적인 통계 기법을 숨기기 위해 필명을 사용한 것으로 알려져 있다.[41] 로널드 피셔는 이 분포를 "스튜던트 분포"라고 불렀고, ''t''라는 기호를 사용하였다.[42] 이후 이 분포는 고셋의 필명을 따 "스튜던트 t 분포"로 알려지게 되었다.

6. 3. 로널드 피셔의 기여

로널드 피셔는 이 분포를 "스튜던트 분포"라고 부르고, ''t''라는 기호를 사용하여 널리 알렸다.[42] 피셔 이후 이 분포는 고셋의 필명을 따 "스튜던트 t 분포"로 알려지게 되었다. 고셋의 논문은 이 분포를 "정규 모집단에서 추출한 표본의 표준 편차의 빈도 분포"라고 언급했지만, 로널드 피셔의 연구를 통해 널리 알려졌으며, 그는 이 분포를 "스튜던트의 분포"라고 부르고 검정 값을 문자 ''t''로 나타냈다.[28][29]

참조

[1] 웹사이트 The characteristic function of the Student {{mvar|t}} distribution http://wwwmaths.anu.[...]
[2] 논문 Calculating CVaR and bPOE for common probability distributions with application to portfolio optimization and density estimation http://uryasev.ams.s[...] Springer 2023-02-27
[3] 서적 Doing Bayesian Data Analysis Academic Press
[4] 서적 Statistical Inference Duxbury Resource Center
[5] 서적 Continuous Univariate Distributions Wiley
[6] 서적 Introduction to Mathematical Statistics Macmillan
[7] 논문 The distribution of quadratic forms in a normal system, with applications to the analysis of covariance 1934
[8] 서적 Bayesian Data Analysis Chapman & Hal l
[9] 논문 Maximum entropy autoregressive conditional heteroskedasticity model 2009
[10] 서적 Families of Frequency Distributions Griffin
[11] 서적 Families of frequency distributions Griffin
[12] 서적 Bayesian Analysis for the Social Sciences https://archive.org/[...] Wiley
[13] 논문 Robust Statistical Modeling Using the {{mvar|t}} Distribution https://cloudfront.e[...] 1989
[14] 서적 Bayesian Data Analysis CRC Press
[15] 논문 Student {{mvar|t}} processes as alternatives to Gaussian processes http://proceedings.m[...]
[16] 논문 Multivariate Gaussian and Student {{mvar|t}} process regression for multi-output prediction
[17] 논문 Polar generation of random variates with the {{mvar|t}} distribution 1994
[18] 논문 Über die Berechnung des wahrscheinlichen Fehlers aus einer endlichen Anzahl wahrer Beobachtungsfehler
[19] 논문 Über die Wahrscheinlichkeit der Potenzsummen der Beobachtungsfehler und uber einige damit in Zusammenhang stehende Fragen
[20] 논문 Die Genauigkeit der Formel von Peters zur Berechnung des wahrscheinlichen Beobachtungsfehlers directer Beobachtungen gleicher Genauigkeit https://zenodo.org/r[...]
[21] 논문 Vergleichung von zwei Werten des wahrscheinlichen Fehlers https://zenodo.org/r[...] 1876
[22] 논문 Studies in the history of probability and statistics. XLIV. A forerunner of the {{mvar|t}} distribution
[23] 논문 Helmert's work in the theory of errors
[24] 논문 Contributions to the Mathematical Theory of Evolution. II. Skew Variation in Homogeneous Material https://zenodo.org/r[...]
[25] 논문 The probable error of a mean http://www.york.ac.u[...]
[26] 논문 Pseudonymous fame 2016
[27] 서적 Mathematics for Physical Chemistry https://archive.org/[...] Elsevier
[28] 논문 Applications of 'Student's' distribution http://www.sothis.ro[...]
[29] 서적 Probability & Statistics for Engineers & Scientists Pearson
[30] 논문 The Modified-Half-Normal distribution: Properties and an efficient sampling scheme https://figshare.com[...] 2021-06-22
[31] 문서 The Characteristic Function of the Student-t Distribution http://wwwmaths.anu.[...]
[32] 문서 Probability and Statistics for Engineers and Scientists Pearson Education 2002
[33] 서적
[34] 논문
[35] 논문
[36] 저널 Die Genauigkeit der Formel von Peters zur Berechnung des wahrscheinlichen Beobachtungsfehlers directer Beobachtungen gleicher Genauigkeit 1876
[37] 저널 Helmert’s work in the theory of errors 1995
[38] 저널 Vergleichung von zwei Werthen des wahrscheinlichen Fehlers
[39] 저널 A forerunner of the ''t''-distribution (Studies in the history of probability and statistics XLIV) 1996
[40] 저널 The probable error of a mean http://www.york.ac.u[...] 1908-03
[41] 서적 Mathematics for Physical Chemistry https://archive.org/[...] Academic Press 2005
[42] 저널 Applications of "Student's" distribution https://web.archive.[...] 2015-10-18



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com