T 점수
1. 개요
T 점수는 표준화된 점수의 한 유형으로, z 점수를 변환하여 얻으며, 자연수와 백분위수로 나타낼 수 있다. 통계에서 t-통계량은 가설 검정에 사용되며, t-검정에서 귀무 가설을 지지하거나 기각하는 데 활용된다. z-점수와 유사하지만, 표본 크기가 작거나 모집단 표준 편차를 알 수 없는 경우에 사용된다. t-통계량은 스튜던트 t-검정과 신뢰 구간 계산에 사용되며, 잔차를 표본 표준 편차로 나누어 계산할 수 있다. t-분포는 1876년 헬메르트와 뤼로트에 의해 처음 유도되었으며, 윌리엄 고셋에 의해 널리 알려졌다.
| 분야 | 통계학, 확률 |
|---|---|
| 정의 | 추정된 모수의 실제 값으로부터의 표준 오차 단위의 편차 |
| 표기 | t |
| 분포 | 스튜던트 t-분포 |
| 자유도 | n − p (n은 샘플 크기, p는 추정된 모수의 개수) |
| 단일 샘플 t-검정 | $\displaystyle t = \frac{\bar{X} - \mu_0}{s/\sqrt{n}}$ |
|---|---|
| 쌍체 t-검정 | $\displaystyle t = \frac{\bar{d}}{s_d/\sqrt{n}}$ |
| 독립 2-샘플 t-검정 | $\displaystyle t = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{s_p^2/n_1 + s_p^2/n_2}}$ |
| 선형 회귀 기울기 | $\displaystyle t = \frac{\hat{\beta} - \beta_0}{SE(\hat{\beta})}$ |
| $\bar{X}$ | 샘플 평균 |
|---|---|
| $\mu_0$ | 귀무 가설 하의 모집단 평균 |
| s | 샘플 표준 편차 |
| n | 샘플 크기 |
| $\bar{d}$ | 쌍체 차이의 평균 |
| $\hat{\beta}$ | 추정된 기울기 |
| $\beta_0$ | 귀무 가설 하의 기울기 |
| $\SE(\hat{\beta})$ | 추정된 기울기의 표준 오차 |
| $\bar{X}_i$ | 그룹 i의 샘플 평균 |
| n_i | 그룹 i의 샘플 크기 |
| s_p^2 | 합동 표본 분산 |
-
정규 분포 -
로그 정규 분포
로그 정규 분포는 확률 변수 X의 로그가 정규 분포를 따르며, 양의 실수 값을 갖고 평균 μ와 표준 편차 σ를 매개변수로 갖는 확률 분포이다. -
정규 분포 -
카이제곱 분포
카이제곱 분포는 k개의 독립적인 표준정규분포를 따르는 확률변수들의 제곱의 합으로 정의되는 확률분포로서, 자유도 k에 따라 형태가 결정되며 통계적 가설 검정, 분산 분석, 적합도 검정, 독립성 검정 등 다양한 통계적 추론에 응용된다. -
통계학 -
확률
확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다. -
통계학 -
사분위수
사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.
2. 공식
표준값 z는 원점수 x가 평균에서 얼마나 떨어져 있는지를 나타낸다. 음수이면 평균 이하, 양수이면 평균 이상이다.
:
* 여기서 x는 정상화되는 원점수이다.
* σ는 모집단에서의 표준편차이다.
* μ는 모집단에서의 평균이다.
따라서 T 점수는 다음과 같이 계산된다.
:
소수점, 음수, 양수 값을 갖는 표준점수(z)로부터 자연수 및 백분위수로 변환하는 과정을 통해 T 점수를 구할 수 있다.
를 어떤 통계 모형에서 모수 β의 추정량이라고 할 때, 이 모수에 대한 t-통계량은 다음과 같다.
:
여기서 β0는 비무작위적이고 알려진 상수이며, 실제 알려지지 않은 모수 값 β와 일치할 수도 있고 그렇지 않을 수도 있으며, 는 β의 추정량 의 표준 오차이다.
3. t-통계량의 특징 및 분포
t-통계량은 가정된 값에서 표준 오차에 대한 모수 추정값 이탈의 비율이다. 기본적으로 통계 패키지는 β0 = 0 인 t-통계량을 보고하는데, 이는 해당 회귀 변수의 유의성을 검정하는 데 사용된다. 그러나 H0: β = β0 형태의 가설을 검정하기 위해 t-통계량이 필요한 경우, 0이 아닌 β0를 사용할 수 있다.
가 고전적인 선형 회귀 모형(즉, 정규 분포를 따르고 등분산성 오차항을 갖는)에서의 최소제곱법 추정량이고, 모수 β의 실제 값이 β0와 같다면, t-통계량의 표본 분포는 자유도가 (n − k)인 스튜던트 t-분포가 된다. 여기서 n은 관측치 수이고, k는 회귀 변수의 수이다(절편 포함).
대부분의 모형에서, 추정량 는 β에 대해 일치 추정량이며 점근적 정규성을 따른다. 만약 모수 β의 실제 값이 β0와 같고, 양 이 이 추정량의 점근 분산을 정확하게 추정한다면, t-통계량은 점근적으로 표준 정규 분포를 갖게 된다.
어떤 모형에서는 t-통계량의 분포가 정규 분포와 다르며, 심지어 점근적으로도 다르다. 예를 들어, 단위근을 가진 시계열을 확장된 디키-풀러 검정에서 회귀할 때, 검정 t-통계량은 점근적으로 디키-풀러 분포 중 하나를 갖게 된다(검정 설정에 따라 다름).
4. t-통계량의 사용
t-통계량은 스튜던트 t-검정과 같은 통계적 가설 검정과 특정 신뢰 구간 계산에 사용된다. t-검정에서는 귀무 가설을 지지할지 기각할지 여부를 결정하는 데 사용된다. z점수(z score)와 매우 유사하지만, 표본 크기가 작거나 모집단 표준 편차를 알 수 없는 경우에 t-통계량이 사용된다는 차이점이 있다.
t-통계량은 피벗 수량이라는 핵심 속성을 가진다. 즉, 표본 평균으로 정의되지만, 표본 분포는 모집단 매개변수에 의존하지 않으므로 이러한 매개변수에 관계없이 사용할 수 있다.
또한 잔차를 표본 표준 편차로 나누어 계산할 수 있다.
:
이는 주어진 표본이 평균으로부터 얼마나 많은 표준 편차 떨어져 있는지에 대한 추정값을 계산하기 위한 것으로, z-점수의 표본 버전이다. z-점수는 모집단 매개변수를 필요로 한다.
알 수 없는 평균과 분산을 가진 정규 분포 가 주어졌을 때, n번의 관측을 한 후의 미래 관측값 의 t-통계량은 보조 통계량이며, 이는 통계량(관측값으로부터 계산됨)인 피벗 수량(μ와 σ2의 값에 의존하지 않음)이다. 이를 통해 t-분포를 이용하여 빈도론적 예측 구간(예측 신뢰 구간)을 계산할 수 있다.
:
에 대해 풀면 예측 분포를 얻을 수 있고, 이를 통해 예측 신뢰 구간을 계산할 수 있다.
5. 역사
"t 통계량"이라는 용어는 "가설 검정 통계량"에서 축약된 것이다. 통계학에서 t-분포는 1876년 헬메르트와 뤼로트에 의해 처음 사후 분포로 유도되었다. t-분포는 또한 칼 피어슨의 1895년 논문에서 피어슨 타입 IV 분포의 보다 일반적인 형태로 나타났다. 그러나, Student's T 분포라고도 알려진 T-분포는 1908년 Biometrika에 "The Probable Error of a Mean" 논문을 "Student"라는 필명으로 발표한 윌리엄 시리 고셋의 이름을 따서 명명되었다. 고셋의 고용주는 과학 논문을 출판할 때 본명 대신 필명을 사용하는 것을 선호했기 때문에, 그는 자신의 신분을 숨기기 위해 "Student"라는 이름을 사용했다. 고셋은 아일랜드 더블린의 기네스 양조장에서 일했으며, 작은 표본의 문제에 관심이 있었다. "Student"라는 용어는 윌리엄 고셋의 필명이었지만, 이 분포가 "Student's distribution"과 "Student's t-test"로 잘 알려지게 된 것은 실제로 로널드 피셔의 연구를 통해서였다.
6. 관련 개념
* z-점수 (표준화): 모집단 모수를 알고 있다면, t-통계량을 계산하는 대신 z-점수를 계산할 수 있다. 유사하게 t-검정을 사용하는 대신 z-검정을 사용한다. 이는 표준화된 시험 외에서는 드물다.
* 스튜던트화 잔차: 회귀 분석에서, 서로 다른 데이터 지점에서의 추정치의 표준 오차는 다르다(단순 선형 회귀의 중간 지점과 끝점을 비교). 따라서 서로 다른 잔차를 오차에 대한 다른 추정치로 나누어 스튜던트화 잔차라고 한다.