표본 분포

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 표본 분포의 개념
- 2.1. 표본 평균의 분포
- 2.2. 표집 분포 (Sampling Distribution)
3. 표준 오차
- 3.1. 표준 오차 공식
- 3.2. 표준 오차의 의미
4. 다양한 분포에서의 표본 분포
참조

1. 개요

표본 분포는 크기 n인 임의 표본에서 파생된 통계량의 확률 분포로, 주어진 표본 크기에서 동일한 모집단으로부터 얻을 수 있는 모든 가능한 표본에 대한 통계량의 분포를 의미한다. 표본 분포는 모집단의 확률 분포, 고려하는 통계량, 표본 추출 절차, 표본 크기에 따라 달라지며, 중심 극한 정리에 따라 모집단이 정규 분포를 따르지 않아도 표본 크기가 충분히 크면 정규 분포에 근사한다. 표본 평균의 표준 편차인 표준 오차는 측정 오차를 나타내며, 표본 크기를 늘려 오차를 줄일 수 있다. 표본 분포는 정규 분포, 베르누이 분포 등 다양한 분포에서 나타나며, 통계적 가설 검증 및 추론에 활용된다.

더 읽어볼만한 페이지

통계 예측 - 데이터 동화
데이터 동화는 예측 값과 관측 값의 차이를 기반으로 예측 값을 보정하여 시스템 상태에 대한 최적의 추정치를 도출하는 기술이며, 수치 일기 예보, 물과 에너지 이동 모니터링 등 다양한 분야에 적용된다.
통계 예측 - 베이즈 추론
베이즈 추론은 관측된 데이터를 통해 추론 대상의 확률 분포를 업데이트하는 통계적 추론 방법이며, 베이즈 정리를 기반으로 사전 확률과 가능도를 결합하여 사후 확률을 계산하고 다양한 분야에 응용된다.
통계적 추론 - 과적합
과적합은 통계 모델이나 기계 학습 알고리즘이 훈련 데이터에 과도하게 적합되어 새로운 데이터에 대한 예측 성능이 저하되는 현상이다.
통계적 추론 - 비모수 통계
비모수 통계는 자료의 분포에 대한 가정을 최소화하며, 명목척도나 서열척도 자료, 또는 표본 수가 적은 경우에 사용되는 통계 방법이다.
표집 - 표본조사
표본조사는 모집단의 일부인 표본을 추출하여 전체 모집단의 특성을 추정하는 통계적 방법으로, 시간과 비용을 절약하면서 비교적 정확한 결과를 얻을 수 있도록 다양한 표본 추출 방법과 오차 최소화, 가중치 조정 등의 과정을 포함한다.
표집 - 가위바위보
가위바위보는 두 명 이상이 주먹, 가위, 보 세 가지 손 모양으로 승패를 가리는 놀이로, 간단한 규칙과 직관성으로 널리 알려져 있으며 중국 또는 일본에서 유래되었다는 설이 있다.

2. 표본 분포의 개념

통계량의 표본 분포는 크기 $n$ 의 임의 표본에서 파생된 확률 변수로 간주되는 해당 통계량의 확률 분포이다. 이는 주어진 표본 크기의 동일한 모집단에서 얻을 수 있는 모든 가능한 표본에 대한 통계량의 분포로 간주할 수 있다. 표본 분포는 모집단의 기본 확률 분포, 고려 중인 통계량, 사용된 표본 추출 절차 및 사용된 표본 크기에 따라 달라진다.

예를 들어, 평균 $\mu$ 와 분산 $\sigma^2$ 을 갖는 정규 분포 모집단을 생각해 보자. 이 모집단에서 표본을 반복적으로 추출하여 표본 평균을 계산하면, 이 표본 평균들의 분포는 "표본 평균의 표본 분포"가 된다.

표본 분포가 점근 분포에 의해 근사될 수 있는지에 대한 관심이 종종 있는데, 이는 유한 크기의 무작위 표본 수가 무한 모집단에서 추출되어 분포를 생성하는 데 사용되는 경우, 무한대로 접근하거나 동일한 모집단에서 하나의 동일하게 무한 크기의 "표본"이 추출될 때의 극한 사례에 해당한다.

2. 1. 표본 평균의 분포

모집단에서 임의로 추출된 표본의 평균은 표본 평균이라고 하며, 표본 평균도 값이 변하는 확률 변수이다. 이 확률 변수의 확률 분포를 표본 평균의 분포라고 한다. 이 확률 분포로부터 표본 평균(

\bar X

)들의 평균과 분산을 구할 수 있다.

정규 분포

\mathcal{N}(\mu, \sigma^2)

를 따르는 모집단에서 크기

n

인 표본을 추출했을 때, 표본 평균

\bar X

의 분포는 다음과 같은 특징을 갖는다.

$\operatorname{E}(\bar X) = \mu$ , $V(\bar X) = \frac{\sigma^2}{n}$
$\bar X$ 의 분포는 $\bar X \sim \mathcal{N}\Big(\mu,\, \frac{\sigma^2}{n} \Big)$ 이다.
'''모집단이 정규분포를 따르지 않아도 $n$ 이 충분히 크면 위의 사실이 근사적으로 성립한다.'''

이는 중심 극한 정리의 주요 내용이며, 이 정리에 따르면 모집단이 정규 분포를 따르지 않아도 표본 평균의 분포는 정규 분포를 따른다. 이러한 성질은 통계적 추론에 활용된다. 표준 오차는 이 분포의 표준 편차이다.

이항 분포

{\mathrm{B}(n,p)}

는

n

이 충분히 커질 때 (보통

np>5

와

nq>5

일 때),

{\mathcal{N}(np,npq)}

로 근사할 수 있다.

표본 평균의 분포는 모집단의 기본 확률 분포, 고려 중인 통계량, 사용된 표본 추출 절차 및 사용된 표본 크기에 따라 달라진다. 모집단 분포가 정규 분포가 아닌 경우에도 표본 분포는 종종 정규 분포에 가까울 수 있다. (중심 극한 정리 참조)

표본 분포는 몬테카를로 시뮬레이션,^[1] 부트스트랩 방법 또는 점근 분포 이론을 통해 근사할 수 있다.

2. 2. 표집 분포 (Sampling Distribution)

모집단에서 여러 번 표본을 추출하여 얻은 통계량들의 분포를 의미하며, 가설 검정에 사용된다.^[1] 특히 표집 분포는 연구 대상이 되는 모집단에서 복수의 표본들을 추출한 자료들을 통해서 통계적 가설을 검증할 때 필요한 분포이다.

따라서 모집단으로부터의 충분한 여러 표집에서 얻게되는 표본들의 표본평균들은 표집분포를 갖게되고 이 표집분포는 모집단의 분포에 수렴한다. 이러한 중심 극한 정리에서 표집분포의 평균값(

\mu_{\overline{X}}

)은 모집단의 평균값(

\mu

)에 근사하게 된다.

:

\mu_{\overline{X}} = \mu

통계량의 '''표본 분포'''는 크기

n

의 임의 표본에서 파생된, 확률 변수로 간주되는 해당 통계량의 확률 분포이다. 이는 주어진 표본 크기의 ''동일한 모집단에서 얻을 수 있는 모든 가능한 표본''에 대한 통계량의 분포로 간주될 수 있다. 표본 분포는 모집단의 기본 확률 분포, 고려 중인 통계량, 사용된 표본 추출 절차 및 사용된 표본 크기에 따라 달라진다. 표본 분포가 점근 분포에 의해 근사될 수 있는지에 대한 관심이 종종 있는데, 이는 유한 크기의 무작위 표본 수가 무한 모집단에서 추출되어 분포를 생성하는 데 사용되는 경우, 무한대로 접근하거나 동일한 모집단에서 하나의 동일하게 무한 크기의 "표본"이 추출될 때의 극한 사례에 해당한다.

예를 들어, 평균

\mu

와 분산

\sigma^2

을 갖는 정규 분포 모집단을 생각해 보자. 이 모집단에서 주어진 크기의 표본을 반복적으로 추출하여 각 표본에 대해 산술 평균

\bar x

를 계산한다고 가정한다. 이 통계량을 표본 평균이라고 한다. 이러한 평균 또는 평균의 분포를 "표본 평균의 표본 분포"라고 한다. 이 분포는 정규 분포

\mathcal{N}(\mu, \sigma^2/n)

인데(''n''은 표본 크기), 기본 모집단이 정규 분포이기 때문이다. 그러나 표본 분포는 모집단 분포가 정규 분포가 아닌 경우에도 종종 정규 분포에 가까울 수 있다( 중심 극한 정리 참조). 표본 평균의 대안은 표본 중앙값이다. 동일한 모집단에서 계산할 때 평균의 표본 분포와 다른 표본 분포를 가지며 일반적으로 정규 분포가 아니다(하지만 표본 크기가 클 경우 가까울 수 있다).

정규 분포를 갖는 모집단에서 추출한 표본의 평균은 가장 간단한 통계적 모집단 중 하나에서 얻은 간단한 통계량의 예이다. 다른 통계량 및 다른 모집단의 경우 수식이 더 복잡하며, 종종 폐쇄형 수식으로 존재하지 않는다. 이러한 경우 표본 분포는 몬테카를로 시뮬레이션,^[1] 부트스트랩 방법 또는 점근 분포 이론을 통해 근사할 수 있다.

3. 표준 오차

표준 오차는 표본 분포의 표준 편차를 의미하며, 추정의 정확도를 나타내는 지표이다. 모집단에서 여러 개의 표본을 추출하여 표본 평균을 계산하면, 이 표본 평균들은 확률 분포를 이루게 되는데, 이를 표집 분포라고 한다. 중심 극한 정리에 따라 표집 분포의 평균은 모집단의 평균과 근사하게 된다. 표집 오차(sampling error)는 모집단의 표준편차에 근사한다.

: $\mu_{\overline{X}} = \mu$

: $\sigma_{\overline{X}} =$

3. 1. 표준 오차 공식

정규 분포를 따르는 모집단에서 크기가

n

인 표본을 추출했을 때, 표본 평균(

\bar X

)의 분포는

\bar X \sim \mathcal{N}\Big(\mu,\, \frac{\sigma^2}{n} \Big)

를 따른다. 여기서

\operatorname{E}(\bar X) = \mu

이고,

V(\bar X) = \frac{\sigma^2}{n}

이다. 모집단이 정규 분포를 따르지 않더라도, 표본 크기

n

이 충분히 크면 이 결과는 근사적으로 성립한다. 이는 중심 극한 정리의 핵심 내용이며, 이 분포의 표준 편차를 표준 오차라고 한다.

표본 평균의 표준 오차는 다음과 같이 계산한다.

:

\sigma_{\bar x} = \frac{\sigma}{\sqrt{n}}

여기서

\sigma

는 모집단의 표준 편차이고,

n

은 표본의 크기이다. 이 공식은 측정 오차를 절반으로 줄이려면 표본 크기를 4배로 늘려야 함을 의미한다.

표본 합계의 표준 오차는 다음과 같다.

:

\sigma_{\Sigma x} = \sigma\sqrt{n}

여기서도

\sigma

는 모집단의 표준 편차이고,

n

은 표본의 크기이다.

3. 2. 표준 오차의 의미

표본 분포의 통계량에 대한 표준 편차는 해당 양의 표준 오차라고 한다. 통계량이 표본 평균이고 표본이 상관관계가 없는 경우, 표준 오차는 다음과 같다.

:

\sigma_{\bar x} = \frac{\sigma}{\sqrt{n}}

여기서

\sigma

는 해당 양의 모집단 분포의 표준 편차이고,

n

은 표본 크기(표본 내 항목 수)이다.

이 공식의 중요한 의미는 측정 오차를 절반(1/2)으로 줄이려면 표본 크기를 4배(4를 곱함)로 늘려야 한다는 것이다. 비용이 중요한 요소인 통계 연구를 설계할 때, 이는 비용-편익 트레이드오프를 이해하는 데 중요한 역할을 할 수 있다.

4. 다양한 분포에서의 표본 분포

$\mathcal{N}(\mu_1, \sigma_1^2)$ 및 $\mathcal{N}(\mu_2, \sigma_2^2)$표본 평균의 차이, $\bar X_1 - \bar X_2$$\bar X_1 - \bar X_2 \sim \mathcal{N}\! \left(\mu_1 - \mu_2,\, \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} \right)$밀도 f를 가진 임의의 절대 연속 분포 F크기 n = 2k − 1인 표본에서 중앙값 $X_{(k)}$, 여기서 표본은 $X_{(1)}$에서 $X_{(n)}$까지 정렬됨$f_{X_{(k)}}(x) = \frac{(2k-1)!}{(k-1)!^2}f(x)\Big(F(x)(1-F(x))\Big)^{k-1}$분포 함수 F를 갖는 모든 분포크기 n의 임의 표본에서 최댓값 $M=\max\ X_k$$F_M(x) = P(M\le x) = \prod P(X_k\le x)= \left(F(x)\right)^n$

표본 분포
개요
유형	확률 분포
분야	확률론, 통계학
정의
정의	표본 통계량의 확률 분포
다른 이름	유한 표본 분포
속성
모수	표본의 크기, 모집단의 모수
지지	표본 통계량의 가능한 값
누적 분포 함수	표본 통계량이 특정 값보다 작거나 같을 확률
확률 밀도 함수 (연속)	표본 통계량의 특정 값일 확률의 상대적 가능성
확률 질량 함수 (이산)	표본 통계량이 특정 값일 확률
예시
예시	표본 평균의 표본 분포 표본 분산의 표본 분포
관련 개념
관련 개념	중심 극한 정리 통계적 추론 부트스트랩 잭나이프

모집단	통계량	표본 분포
정규: \(\mathcal{N}(\mu, \sigma^2)\)	크기 n의 표본에서 표본 평균 \(\bar X\)	\(\bar X \sim \mathcal{N}\Big(\mu,\, \frac{\sigma^2}{n} \Big)\)
표준 편차 \(\sigma\)를 알 수 없는 경우, \(T = \left(\bar{X} - \mu\right) \frac{\sqrt{n}}{S} \)를 고려할 수 있는데, 이는 \(\nu = n - 1\) 자유도를 갖는 스튜던트 t-분포를 따릅니다. 여기서 \(S^2\)는 표본 분산이고, \(T\)는 \(\sigma\)에 의존하지 않는 분포를 가진 피벗 양입니다.
두 개의 독립적인 정규 모집단: \(\mathcal{N}(\mu_1, \sigma_1^2)\) 및 \(\mathcal{N}(\mu_2, \sigma_2^2)\)	표본 평균의 차이, \(\bar X_1 - \bar X_2\)	\(\bar X_1 - \bar X_2 \sim \mathcal{N}\! \left(\mu_1 - \mu_2,\, \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} \right)\)