중심 극한 정리
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
중심 극한 정리는 확률론 및 통계학의 핵심 정리로, 독립적인 확률 변수들의 합이 특정 조건 하에서 정규 분포에 가까워지는 현상을 설명한다. 이 정리는 통계적 추론, 가설 검정, 데이터 분석, 예측 모델링 등 다양한 분야에서 활용된다. 가장 널리 사용되는 린데베르그-레비 중심극한정리는 동일한 분포를 가지는 독립 확률 변수들에 적용되며, 랴푸노프, 린데베르그 중심극한정리는 조건을 완화한 것이다. 마팅게일 중심 극한 정리는 마팅게일 수열에 적용된다. 중심 극한 정리는 표본 크기가 커질수록 표본 평균이 정규 분포에 가까워진다는 것을 보장하며, 여론 조사, 금융 시장 분석, 자연 과학 실험 등에서 활용된다. 일반화된 중심 극한 정리는 독립적이고 동일하게 분포된 확률 변수열에 대해 안정 분포로의 수렴을 설명하며, 독립 변수가 아닌 종속 변수에도 적용될 수 있다.
더 읽어볼만한 페이지
- 확률과 통계 - 경우의 수
경우의 수는 어떤 사건이 일어날 수 있는 모든 가능한 경우의 가짓수를 의미하며, 합의 법칙과 곱의 법칙을 통해 계산하고, 다양한 유형의 문제와 일상생활의 예시를 통해 설명한다. - 통계학 정리 - 베이즈 정리
베이즈 정리는 조건부 확률을 계산하는 방법으로, 사건 A가 일어났을 때 사건 B가 일어날 확률과 사건 B가 일어났을 때 사건 A가 일어날 확률 사이의 관계를 나타내며 사전 확률과 가능도를 이용하여 사후 확률을 계산하고 다양한 분야에서 활용된다. - 통계학 정리 - 가우스-마르코프 정리
가우스-마르코프 정리는 선형 회귀 모형에서 오차항이 특정 조건을 만족할 경우 최소제곱 추정량이 최량 선형 불편 추정량임을 나타낸다. - 확률론 정리 - 베이즈 정리
베이즈 정리는 조건부 확률을 계산하는 방법으로, 사건 A가 일어났을 때 사건 B가 일어날 확률과 사건 B가 일어났을 때 사건 A가 일어날 확률 사이의 관계를 나타내며 사전 확률과 가능도를 이용하여 사후 확률을 계산하고 다양한 분야에서 활용된다. - 확률론 정리 - 전체 확률의 법칙
전체 확률의 법칙은 사건 A의 확률을 계산하기 위해 사용되는 정리로, 상호 배타적이고 전체를 포괄하는 사건들의 집합 B에 대해, A의 확률은 각 B의 조건부 A의 확률과 B의 확률의 곱의 합과 같으며, 가중 평균으로 해석되기도 한다.
중심 극한 정리 | |
---|---|
개요 | |
분야 | 확률론 |
유형 | 정리 |
설명 | 독립적인 확률 변수들의 합의 극한 분포 |
관련 개념 | 대수의 법칙 |
일반화 | 린데베르그 중심 극한 정리 |
2. 정의 및 기본 정리
중심 극한 정리(中心極限定理, central limit theorem)는 동일한 확률 분포를 가진 독립 확률 변수 n개의 평균의 분포가 n이 커짐에 따라 정규 분포에 가까워지는 현상을 설명하는 정리이다.
'''린데베르그–레비 중심 극한 정리'''는 가장 널리 사용되는 형태로, 다음 조건을 만족하는 확률 변수 에 대해 적용된다.[40]
- 서로 독립적이다.
- 같은 확률 분포를 가진다.
- 확률 분포의 기댓값 ''μ''와 표준편차 ''σ''가 유한하다.
이 경우, 평균 의 분포는 기댓값 μ, 표준편차 인 정규분포 N(''μ,σ''2/''n'')에 분포수렴한다.
'''랴푸노프 중심 극한 정리'''는 린데베르그-레비 정리의 조건을 완화한 버전이다. 이 정리는 각 확률 변수 가 다음 조건을 만족하면 성립한다.
- 서로 독립적이다.
- 각각 유한한 평균과 분산 를 가진다.
- 일 때, 특정 양의 실수 에 대해 랴푸노프 조건이 성립한다.
이 경우, 의 분포는 n이 커질수록 표준정규분포에 분포수렴한다.
'''린데베르그 중심 극한 정리'''는 랴푸노프 정리의 조건을 더 완화한 형태로, 랴푸노프 조건 대신 린데베르그 조건이 성립하면 같은 결론을 얻을 수 있다.
'''마팅게일 중심 극한 정리'''는 마팅게일 수열에 대한 정리로, 각 들이 독립 변수가 아니어도 적용 가능하다. 이 정리는 다음 조건을 만족하는 확률 변수 에 대해 성립한다.
- 마팅게일을 이룬다.
- 일 때, 조건부 분산의 평균이 1로 수렴한다.
- 모든 에 대해, 특정 조건을 만족하는 제한 기댓값이 0으로 수렴한다.
이 경우, 은 인 극한에서 표준정규분포로 분포수렴한다.
3. 독립 확률 변수열
기댓값 와 분산 를 갖는 독립 동일 분포 ("i.i.d.")를 따르는 확률 변수열 에 대해 라고 하면,
:
즉, 독립 동일 분포를 따르는 확률 변수열의 부분 합을 표준화하면, 기댓값 0, 분산 1의 정규 분포 에 분포 수렴한다.[40]
이는 이 충분히 클 때 근사적으로, 부분 합 은 평균 , 분산 의 정규 분포 를 따르며, 표본 평균 은 평균 , 분산 의 정규 분포 를 따른다는 것을 의미한다.
중심 극한 정리는 특성 함수 (및 레비의 연속성 정리)를 사용하여 증명할 수 있다. 을 독립 동일 분포를 따르는 확률 변수라고 하고, 그 분포의 평균을 , 분산을 라고 하자. 부분 합 의 평균과 분산은 각각 , 가 된다. 을 표준화한 확률 변수 은 다음과 같다.
:
여기서 는 를 표준화한 확률 변수이다. 의 특성 함수는 독립성으로 인해 다음과 같이 나타낼 수 있다.
:
마지막 등식은 모든 가 동일한 분포를 따르므로 같은 특성 함수를 갖는다는 점에서 유도되었다. 를 매클로린 전개하면 다음과 같다.
:
따라서,
:
여기서 는 란다우 표기법이다. 이 식과 지수 함수의 정의
:
를 이용하면, 의 에서의 극한은 다음과 같다.
:
마지막 함수는 표준 정규 분포 의 특성 함수이다. 특성 함수와 확률 분포의 대응은 일대일이므로, 의 확률 분포가 의 극한에서 표준 정규 분포 로 수렴한다.
결과적으로, 부분 합 은 정규 분포 로 수렴하고, 표본 평균 은 정규 분포 로 수렴한다.
3. 1. 고전적 중심 극한 정리 (린데베르크-레비 정리)
확률 변수 들이 서로 독립적이고, 같은 확률 분포를 가지며, 그 확률 분포의 기댓값 ''μ''와 표준편차''σ''가 유한하다면, 평균 의 분포는 기댓값 μ, 표준편차 인 정규분포 N(''μ,σ''2/''n'')에 분포수렴한다.좀 더 자세히 설명하면, 를 기댓값이 이고 유한 분산이 인 분포를 갖는 독립 동일 분포 확률 변수의 수열이라고 할 때, 표본 평균
을 생각해 보자.
대수의 법칙에 의해 표본 평균은 일 때 기댓값 로 확률 1 수렴하고 (따라서 확률 수렴)한다.
고전적 중심 극한 정리는 이 수렴 과정에서 결정적 수 주변의 확률적 변동의 크기와 분포 형태를 설명한다. 이 커질수록 정규화된 평균 , 즉 표본 평균 과 그 극한 의 차이를 으로 스케일링한 분포가 평균 이고 분산이 인 정규 분포에 접근한다. 충분히 큰 에 대해 의 분포는 평균 와 분산 인 정규 분포에 임의로 가까워진다.
이 정리의 유용성은 의 분포가 개별 의 분포 모양에 관계없이 정규성에 접근한다는 것이다.
린데베르크-레비 CLT는 다음과 같이 나타낼 수 있다.
가 이고 인 독립 동일 분포 확률 변수 수열이라고 가정하자. 그러면 이 무한대에 접근함에 따라 확률 변수 는 분포 수렴하여 정규 분포 에 수렴한다.
인 경우, 모든 실수 에 대해,
여기서 는 에서 평가된 표준 정규 cdf이다.
린데베르크(1922)는 다음과 같은 정리를 제시했다.[40]
기댓값 μ와 분산 σ2를 갖는 독립 동일 분포 ("i.i.d.")를 따르는 확률 변수열 에 대해 라고 하면,
:
즉, 독립 동일 분포를 따르는 확률 변수열의 부분 합을 표준화하면, 기댓값 0, 분산 1의 정규 분포 N(0, 1)에 분포 수렴한다.
이로 인해 n이 충분히 클 때 근사적으로, 부분 합 은 평균 , 분산 의 정규 분포 N(nμ, nσ2)를 따르며, 표본 평균 은 평균 μ, 분산 의 정규 분포 N(μ, σ2/n)를 따른다.
중심 극한 정리는 특성 함수 (및 레비의 연속성 정리)를 사용하여 증명할 수 있다.
3. 2. 랴푸노프 중심 극한 정리
알렉산드르 랴푸노프가 증명한 '''랴푸노프 중심극한정리'''(Lyapunov central limit theorem영어)는 기본 정리에서 확률변수들이 같은 분포를 가질 필요는 없도록 조건을 완화하였다.각 확률변수 가 다음 조건을 만족하면,
# 서로 독립적이고,
# 각각 유한한 평균과 분산 를 가지며,
# ('''랴푸노프 조건''') 를 정의하면 어떤 양의 실수 에 대하여
:가 성립할 때,
의 분포는 n이 커질수록 표준정규분포에 분포수렴한다.
:
이 중심 극한 정리에서 확률 변수 는 독립적이어야 하지만, 동일한 분포를 가질 필요는 없다. 또한 이 정리는 확률 변수 가 어떤 차수의 적률 를 가지고, 이러한 적률의 증가율이 랴푸노프 조건에 의해 제한되어야 한다.
실제로는 보통 에 대해 랴푸노프 조건을 확인하는 것이 가장 쉽다.
만약 확률 변수 수열이 랴푸노프 조건을 만족한다면, 린데베르크 조건도 만족한다. 하지만, 역은 성립하지 않는다.
3. 3. 린데베르그(-펠러) 중심 극한 정리
'''린데베르그 중심극한정리'''(Lindeberg central limit theorem영어)는 랴푸노프 중심극한정리의 조건을 조금 더 완화한 것이다.이 경우, 만약 각 확률변수 가 다음 조건을 만족하면 랴푸노프 중심극한정리와 같은 결론을 내릴 수 있다.
# 서로 독립적이고,
# 각각 유한한 평균과 분산 를 가지며,
# ('''린데베르그 조건''') 다음 공식이 성립한다.
:
여기에서 는 지시 함수이다.
린데베르그 조건은 린데베르그에 의해 제시되었으며, 리야푸노프 조건보다 약한 조건이다.[40] 모든 에 대해 다음이 성립한다고 가정한다.
여기서 는 지시 함수이다. 그러면 표준화된 합의 분포
는 표준 정규 분포 로 수렴한다.
만약 확률 변수 수열이 Lyapunov 조건을 만족한다면, Lindeberg 조건도 만족한다. 하지만, 역은 성립하지 않는다.
3. 4. 확률 변수의 무작위 개수의 합에 대한 중심 극한 정리
로빈스 중심 극한 정리[3][4]에 따르면, 를 평균이 이고 분산이 인 독립적이고 동일하게 분포된 확률 변수라고 하고, 를 와 독립적인 음이 아닌 정수 값 확률 변수의 수열이라고 가정한다. 각 에 대해 이고, 다음이 성립한다.:
여기서 는 분포 수렴을 나타내고 는 평균 0, 분산 1인 정규 분포이다. 그러면 다음이 성립한다.
:
3. 5. 다변량 중심 극한 정리
특성 함수를 사용하는 증명은 각 개별 가 확률 벡터영어인 경우로 확장될 수 있으며, 평균 벡터 와 (벡터 구성 요소 간의) 공분산 행렬 을 가지며, 이러한 확률 벡터들은 독립적이고 동일한 분포를 갖는다. 다변량 중심 극한 정리는 스케일링 시 합이 다변량 정규 분포로 수렴한다고 명시한다.[5] 이러한 벡터들의 합은 성분별로 수행된다.에 대해, 를 독립 확률 벡터라고 하자. 확률 벡터 의 합은 다음과 같다.
:
그리고 그 평균은 다음과 같다.
:
따라서,
:
다변량 중심 극한 정리는 다음과 같다.
:
여기서 공분산 행렬 는 다음과 같다.
:
다변량 중심 극한 정리는 크라메르-월드 정리를 사용하여 증명할 수 있다.[5]
수렴 속도는 다음의 베리-에센 정리 유형의 결과로 주어진다.
을 평균이 0인 독립적인 값의 확률 벡터라고 하자. 라고 쓰고, 가 가역이라고 가정하자. 를 와 동일한 평균과 동일한 공분산 행렬을 갖는 차원 가우시안이라고 하자. 그러면 모든 볼록 집합에 대해 U \subseteq \R^d영어,
:
여기서 는 범용 상수이고, , 는 유클리드 노름영어을 나타낸다.[6]
요인 가 필요한지는 알려져 있지 않다.[7]
4. 일반화된 중심 극한 정리
일반화된 중심 극한 정리(GCLT)는 독립적이고 동일하게 분포된 확률 변수들의 합이 특정 분포로 수렴할 때, 그 극한 분포는 안정 분포여야 함을 설명한다. 이 정리는 1920년부터 1937년까지 베른슈타인, 린데베르그, 레비, 펠러, 콜모고로프 등 여러 수학자들의 연구 결과이다.[8] 1937년 폴 레비가 프랑스어로 GCLT의 첫 번째 완전한 증명을 발표했다.[9] 영어 버전은 그네덴코와 콜모고로프의 1954년 저서 번역본에서 확인할 수 있다.[10]
GCLT에 따르면, 비퇴화 확률 변수 ''Z''가 어떤 0 < ''α'' ≤ 2 에 대해 ''α''-안정이면, 독립적이고 동일하게 분포된 확률 변수 열 ''X''1, ''X''2, ''X''3, ... 와 상수 ''a''''n'' > 0, ''b''''n'' ∈ ℝ 에 대해 다음이 성립한다.[11]
:''a''''n'' (''X''1 + ... + ''X''''n'') − ''b''''n'' → ''Z''.
여기서 →는 확률 변수 합의 열이 분포 수렴함을 의미한다. 즉, 해당 분포는 ''F''''n''(''y'') → ''F''(''y'') 를 ''F''의 모든 연속점에서 만족한다.
다시 말해, 독립적이고 동일하게 분포된 확률 변수의 합이 어떤 ''Z''로 분포 수렴한다면, ''Z''는 반드시 안정 분포여야 한다.
더 일반화된 확률 이론(확률의 공리)에서 중심 극한 정리는 약수렴 이론의 일부가 된다. 이에 따르면, 독립 동일 분포 (i.i.d.)를 따르는 확률 변수의 분산(2차 모멘트)이 유한한 경우에는 "확률 변수 합의 확률 분포"는 변수의 수가 많아짐에 따라 정규 분포로 수렴하지만, 확률 변수가 따르는 분포의 꼬리가 (단, 0 < ''α'' < 2)의 거듭제곱으로 감쇠하는 경우 (분포의 꼬리가 두꺼워지고 분산은 무한대로 발산하여) 정규 분포에는 수렴하지 않고 특성 지수 ''α''의 안정 분포로 수렴한다.[41]
5. 종속 과정
중심 극한 정리는 확률 변수들이 독립적이지 않은 경우에도 적용될 수 있다.
확률 변수 가 독립적이지만 동일한 분포를 가질 필요는 없는 경우, 랴푸노프 조건을 만족하면 중심 극한 정리가 성립한다. 랴푸노프 조건은 확률 변수 의 적률이 특정 조건을 만족해야 함을 의미한다.
린데베르그는 랴푸노프 조건보다 약한 조건인 린데베르그 조건을 제시했다. 린데베르그 조건은 모든 에 대해 특정 식이 0으로 수렴해야 한다는 조건이다.
이러한 조건들을 만족하면, 의 합은 분포상 표준 정규 확률 변수로 수렴한다. 즉, 이 무한대로 갈 때, 의 합은 평균이 0이고 분산이 1인 정규 분포에 가까워진다.[1] 여기서 는 의 기댓값, 는 의 합으로, 는 의 분산이다.
5. 1. 약한 의존성 하에서의 중심 극한 정리
독립적이고 동일하게 분포된 확률 변수열을 일반화하면 이산 시간에서 혼합 확률 과정을 얻을 수 있다. "혼합"은 대략적으로 시간적으로 서로 멀리 떨어진 확률 변수가 거의 독립적임을 의미한다. 에르고딕 이론과 확률 이론에서는 여러 종류의 혼합이 사용된다. 특히 으로 정의된 강한 혼합(α-혼합)을 들 수 있는데, 여기서 은 강한 혼합 계수이다.강한 혼합 하에서의 중심 극한 정리를 단순화하면 다음과 같다.
:가 정상적이고 -혼합이며, 이고, 이며 라고 가정하자. 으로 표기하면, 다음과 같은 극한
:
:이 존재하고, 이면 는 분포 수렴으로 에 수렴한다.
사실,
:
여기서 급수는 절대 수렴한다.
가정은 생략될 수 없는데, 인 경우, 여기서 은 또 다른 정상 확률 과정일 때 점근적 정규성이 실패하기 때문이다.
이 정리의 더 강력한 버전에서는 가정 를 로 대체하고, 가정 는 다음으로 대체된다.
:
그러한 의 존재는 결론을 보장한다.
5. 2. 마팅게일 차분 중심 극한 정리
마팅게일의 경우, 각 들이 독립 변수가 아니므로 위 정리들은 성립하지 않는다. 다만, 이 경우에도 다음과 같은 '''마팅게일 중심극한정리'''(martingale central limit theorem영어)가 성립한다. 만약 각 확률변수 가# 마팅게일을 이루며,
# 인 극한에서 다음이 성립하고,
::
# 모든 에 대하여 인 극한에서 다음이 성립할 경우,
::
은 인 극한에서 표준정규분포로 분포수렴한다.
:
여기서 는 조건부 기댓값, 는 제한 기댓값(restricted expectation영어)이다.
6. 이항 분포의 예
사건이 일어날 확률을 , 일어나지 않을 확률을 라 할 때, 번의 시행 중 사건이 번 일어날 확률은 다음과 같이 나타낼 수 있다.
:
이 식은 이항 분포를 나타낸다. 이 충분히 커지면, 이 확률분포는 거의 연속적인 분포로 간주할 수 있다.
연속적인 분포에서 에서 확률밀도함수가 극댓값을 가지면, 다음 식이 성립한다.
:
로그 함수는 단조증가 함수이므로 다음 식도 만족한다.
:
충분히 작은 에 대하여 라 정의하고, 근처에서 에 대하여 테일러 전개를 하면 다음과 같다.
:
여기서 이므로, 0이 된다. 또한 가 충분히 작으므로, 에 대한 2차식으로 근사할 수 있다.
:
양변에 로그를 풀면 다음과 같다.
:
스털링 근사를 이용하여 을 구하면,
:
:
:
은 평균이 된다.
를 구하면,
:
:
따라서 확률밀도함수는 다음과 같다.
:
이 확률밀도 함수를 표준화시키면 최종적인 확률밀도 함수를 얻는다.
:
결과적으로 이항 분포 는 이 충분히 커질 때 (보통 Np>5, Nq>5일 때), 정규 분포 로 근사할 수 있다. 이는 드 무아브르-라플라스 정리로 알려져 있으며, 중심 극한 정리의 특수한 경우이다.
7. 추가 설명
중심 극한 정리는 점근 분포만을 제공한다. 유한한 수의 관측값에 대한 근사치로는 정규 분포의 정점 근처에서만 합리적인 근사치를 제공하며, 꼬리 부분까지 확장하려면 매우 많은 수의 관측값이 필요하다.
중심 극한 정리의 수렴은 극한 누적 분포 함수가 연속이므로 균등 수렴이다. 만약 셋째 중심 모멘트 가 존재하고 유한하다면, 수렴 속도는 적어도 정도이다 (베리-에센 정리 참조). 슈타인 방법[13]은 중심 극한 정리를 증명할 뿐만 아니라 선택된 지표에 대한 수렴 속도에 대한 경계를 제공하는 데에도 사용될 수 있다.[14]
정규 분포로의 수렴은 의 정보 엔트로피가 정규 분포의 엔트로피로 단조 함수적으로 증가한다는 의미에서 단조적이다.[32]
중심 극한 정리는 특히 독립적이고 동일하게 분포된 이산 확률 변수의 합에 적용된다. 이산 확률 변수의 합은 여전히 이산 확률 변수이므로, 누적 확률 분포 함수가 연속 변수(즉, 정규 분포의)에 해당하는 누적 확률 분포 함수로 수렴하는 일련의 이산 확률 변수에 직면하게 된다. 이는 만약 n개의 독립적이고 동일한 이산 변수의 합의 실현값에 대한 히스토그램을 만들면, 히스토그램을 형성하는 직사각형의 윗면 중심을 연결하는 구간별 선형 곡선이 n이 무한대로 접근함에 따라 가우시안 곡선으로 수렴한다는 것을 의미하며, 이 관계는 드 무아브르-라플라스 정리로 알려져 있다. 이항 분포 문서는 두 개의 가능한 값만 취하는 이산 변수의 간단한 경우에 대한 중심 극한 정리의 이러한 응용을 자세히 설명한다.
7. 1. 고전적 중심 극한 정리의 증명
특성 함수를 이용한 고전적 중심 극한 정리의 증명은 다음과 같다.[12] 이는 대수의 약한 법칙 증명과 유사하다.이 각각 평균 와 유한 분산 을 갖는 독립 동일 분포 확률 변수라고 가정한다. 합 은 평균 와 분산 를 갖는다. 다음 확률 변수를 생각하자.
:
여기서 마지막 단계에서 새로운 확률 변수 를 정의했는데, 각 변수는 평균이 0이고 분산이 1이다 (). 의 특성 함수는 다음과 같다.
:
여기서 마지막 단계에서는 모든 가 동일하게 분포되어 있다는 사실을 사용했다. 의 특성 함수는 테일러 정리에 의해
:
여기서 는 보다 더 빠르게 0으로 수렴하는 의 함수에 대한 "작은 o 표기법"이다. 지수 함수의 극한 ()에 의해 의 특성 함수는 다음과 같다.
:
모든 고차항은 극한 에서 소멸된다. 우변은 표준 정규 분포 의 특성 함수와 같으며, 이는 Lévy의 연속성 정리를 통해 의 분포가 일 때 에 접근함을 의미한다. 따라서, 표본 평균
:
는 다음과 같아서
:
정규 분포 로 수렴하며, 여기서 중심 극한 정리가 유도된다.
7. 2. 극한으로의 수렴
Classical central limit theorem영어은 이 수렴 과정에서 결정적 수 주변의 확률적 변동의 크기와 분포 형태를 설명한다. 더 정확하게는, 이 커질수록 정규화된 평균 , 즉 표본 평균 과 그 극한 의 차이를 으로 스케일링한 분포가 평균 이고 분산이 인 정규 분포에 접근한다는 것을 나타낸다. 충분히 큰 에 대해 의 분포는 평균 와 분산 인 정규 분포에 임의로 가까워진다.[2]이 정리의 유용성은 의 분포가 개별 의 분포 모양에 관계없이 정규성에 접근한다는 것이다.
인 경우, 분포 수렴은 의 누적 분포 함수가 분포의 누적 분포 함수에 점별로 수렴함을 의미한다.
중심 극한 정리는 단지 점근 분포만을 제공한다. 유한한 수의 관측값에 대한 근사치로는 정규 분포의 정점 근처에서만 합리적인 근사치를 제공하며, 꼬리 부분까지 확장하려면 매우 많은 수의 관측값이 필요하다.
중심 극한 정리의 수렴은 극한 누적 분포 함수가 연속이므로 균등 수렴이다. 만약 셋째 중심 모멘트 가 존재하고 유한하다면, 수렴 속도는 적어도 정도이다. (베리-에센 정리 참조)
7. 3. 흔한 오해
중심 극한 정리는 몇 가지 흔하지만 심각한 오해를 받기 쉽다.[15][16][17] 이러한 오해는 다음과 같다.- 이 정리가 모집단에서 반복적인 추출을 통해 얻은 독립 동일 분포(iid) 확률 변수의 평균값(또는 합)이 아닌, 모든 변수의 임의 표본 추출에 적용된다는 오해. 즉, 이 정리는 임의 표본 추출이 이러한 확률 변수의 평균값(또는 합)의 서로 다른 값으로 구성된 표본 분포를 생성한다고 가정한다.
- 이 정리가 모집단 분포에 관계없이 충분히 큰 크기의 모든 확률 변수 표본에 대해 임의 표본 추출이 정규 분포의 출현을 보장한다는 오해. 실제로는, 이러한 표본 추출은 글리벤코-칸텔리 정리에 의해 뒷받침되는 직관적인 결과인 모집단의 특성을 점근적으로 재현한다.
- 표본 크기가 약 30보다 크면 이 정리가 정규 분포에 대한 좋은 근사치를 제공하여, 모집단의 특성과 관계없이 신뢰할 수 있는 추론이 가능하다는 오해.[18] 실제로는, 이 경험적인 규칙은 타당한 근거가 없으며 심각한 결함이 있는 추론으로 이어질 수 있다. 근사가 유효한 경우는 Z-검정을 참조한다.
7. 4. 대수의 법칙과의 관계
대수의 법칙과 중심 극한 정리는 "확률 변수 합의 극한 행동이 n이 무한대로 접근할 때 어떻게 되는가?"라는 일반적인 문제에 대한 부분적인 해법을 제공한다. 대수의 법칙은 표본 평균이 기댓값으로 수렴한다는 것을 보여주고, 중심 극한 정리는 표본 평균과 그 극한값의 차이를 √n으로 스케일링한 분포가 정규 분포에 접근한다는 것을 보여준다.[19]독립적이고 동일하게 분포된 확률 변수 X₁, ..., Xₙ의 합 Sₙ을 연구할 때, 각 Xᵢ가 유한한 평균 μ을 갖는다면 대수의 법칙에 의해 Sₙ/n → μ 이다. 또한 각 Xᵢ가 유한한 분산 σ²을 갖는다면, 중심 극한 정리에 의해 (Sₙ - nμ) / √n → ξ 이다. 여기서 ξ는 N(0, σ²)로 분포된다. 이는 비공식적 전개에서 처음 두 개의 상수를 제공한다.
Sₙ ≈ μn + ξ√n
Xᵢ가 유한한 평균 또는 분산을 갖지 않는 경우에도, 이동 및 스케일링된 합의 수렴이 발생할 수 있다.
7. 4. 1. 밀도 함수
둘 이상의 독립 변수의 합의 밀도는 해당 밀도의 합성곱이다(이 밀도가 존재하는 경우). 따라서 중심 극한 정리는 합성곱에 따른 밀도 함수의 속성에 대한 진술로 해석될 수 있다. 즉, 여러 밀도 함수의 합성곱은 밀도 함수의 수가 무한대로 증가함에 따라 정규 밀도로 수렴한다. 이러한 정리는 위에 제시된 중심 극한 정리의 형태보다 더 강력한 가설을 필요로 한다. 이러한 유형의 정리를 흔히 국소 극한 정리라고 한다. 독립적이고 동일하게 분포된 확률 변수의 합에 대한 특정 국소 극한 정리는 Petrov[23]를 참조하라.7. 4. 2. 특성 함수
특성 함수의 컨볼루션은 관련된 밀도 함수의 특성 함수의 곱이므로, 중심 극한 정리는 또 다른 방식으로 표현할 수 있다. 즉, 명시된 조건 하에서 여러 밀도 함수의 특성 함수의 곱은 밀도 함수의 수가 무한대로 증가함에 따라 정규 밀도 함수의 특성 함수에 가까워진다. 이때 특성 함수의 인수에 적절한 스케일링 인자를 적용해야 한다.[40]특성 함수는 본질적으로 푸리에 변환이기 때문에, 푸리에 변환에 대해서도 동일한 표현을 사용할 수 있다.[40]
중심 극한 정리는 특성 함수 (및 레비의 연속성 정리)를 사용하여 증명할 수 있다.
독립 동등 분포를 따르는 확률 변수 의 분포의 평균을 , 분산을 라고 하자. 부분 합 을 고려하면, 그 평균과 분산은 각각 , 가 된다. 을 표준화한 확률 변수를 이라고 하면, 다음과 같다.
:
마지막 식에서는 를 표준화한 확률 변수 를 사용했다. 의 특성 함수는 독립성에 의해 곱의 기댓값은 기댓값의 곱이 되므로 다음과 같이 표현된다.
:
마지막 등식은 모든 가 동일한 분포를 따르므로 같은 특성 함수를 갖는다는 점에서 유도되었다. 여기서, 를 매클로린 전개하면 다음과 같다.
:
따라서,
:
가 된다. 여기서, 는 란다우 표기법이다. 이 식과 지수 함수의 정의
:
를 이용하면, 의 에서의 극한을 다음과 같이 구할 수 있다.
:
마지막 함수는 표준 정규 분포 의 특성 함수이다. 특성 함수와 확률 분포의 대응은 일대일이므로, 이 결과는 의 확률 분포가 의 극한에서 표준 정규 분포 로 수렴한다는 것을 의미한다.
7. 5. 분산 계산
기댓값한국어 μ와 분산 를 갖는 독립 동일 분포 ("i.i.d.")를 따르는 확률 변수열 에 대해 라고 하면, 부분 합 은 근사적으로 평균 , 분산 의 정규 분포 를 따른다.[40] 표본 평균 은 평균 , 분산 의 정규 분포 를 따른다.부분 합 의 평균과 분산은 각각 , 가 된다. 을 표준화한 확률 변수를 이라고 하면 다음과 같다.
:
여기서, 는 를 표준화한 확률 변수이다.
8. 확장
중심 극한 정리는 여러 방면으로 확장될 수 있다.
- '''살렘-지그문트 정리''': 살렘·지그문트 정리에 따르면, U영어를 (0, 2π)에서 균등하게 분포하는 확률 변수라 하고, Xk = rk cos(nkU + ak)영어라 하자. 여기서
- nk영어는 모든 k영어에 대해 nk+1 ≥ qnk영어를 만족하는 q > 1영어가 존재하는 공극 조건을 만족한다.
- rk영어는 다음을 만족한다.
:
- 0 ≤ ak < 2π영어.
그러면[39]
:는 분포 수렴하여 가 된다.
- '''가우스 랜덤 다면체''': A1, ..., An영어을 각각 2차원 표준 정규 분포를 따르는 평면 '''R'''2영어 위의 독립적인 랜덤 점이라고 하자. Kn영어을 이 점들의 볼록 껍질이라고 하고, Xn영어을 Kn영어의 면적이라고 하면,
:
:n영어이 무한대로 갈 때 분포 수렴은 이 된다. 이는 2차원보다 큰 모든 차원에서도 성립한다. 볼록 다면체 Kn영어는 가우스 랜덤 다면체라고 불린다. 비슷한 결과는 (가우스 다면체의) 꼭짓점의 수, 모서리의 수, 그리고 실제로 모든 차원의 면에 대해서도 성립한다.
- '''무작위 직교 행렬''': 무작위 직교 행렬은 균등하게 분포되었다고 하며, 그 분포는 직교군 O(n, '''R''')영어에 대한 정규화된 하르 측도이다. 무작위 직교 n × n영어 행렬 '''M'''영어이 균등하게 분포되어 있고, tr('''AA'''*) = n영어인 고정된 n × n영어 행렬 '''A'''영어가 있으며, X = tr('''AM''')영어라고 하면, X영어의 분포는 총 변동 거리에서 에 근접한다.
- '''약한 수렴''': 확률 변수 X1, X2, ... ∈ L2(Ω)영어가 존재하여 Xn → 0영어 L2(Ω)에서 약하게 그리고 X L1(Ω)영어에서 약하게 수렴한다면, 정수 n1 < n2 < ⋯영어가 존재하여
:
:k영어가 무한대로 갈 때 분포 수렴하여 이 된다.
- '''결정 격자 위의 임의 보행''': 결정 격자 위의 간단한 random walk/임의 보행에 대해 중심 극한 정리가 성립할 수 있으며, 결정 구조 설계에 사용된다.[25][26]
8. 1. 양의 확률 변수들의 곱
곱의 로그는 단순히 인자들의 로그의 합이다. 그러므로 양수 값만 가지는 확률 변수들의 곱의 로그가 정규 분포에 접근하면, 곱 자체는 로그 정규 분포에 접근한다. 많은 물리량(특히 질량이나 길이와 같이 척도의 문제이며 음수가 될 수 없는 것들)은 서로 다른 확률적 요인들의 곱이므로 로그 정규 분포를 따른다. 이러한 곱셈 형태의 중심 극한 정리는 때때로 지브라 법칙이라고 불린다.[37]확률 변수들의 합에 대한 중심 극한 정리가 유한한 분산 조건을 필요로 하는 반면, 곱에 대한 해당 정리는 밀도 함수가 제곱 적분 가능해야 한다는 조건을 필요로 한다.
9. 고전적 틀 너머
고전적 틀에서 벗어나, 독립적인 확률 변수들의 합보다 더 일반적인 경우에도 점근적 정규성이 나타나는 다양한 현상들이 존재한다.
살렘–지그문트 정리는 특정 조건을 만족하는 삼각 급수에 대해 중심 극한 정리가 성립함을 보여준다.[39] 가우스 랜덤 다면체의 면적, 꼭짓점, 모서리의 수 등도 비슷한 결과를 따른다.[39]
직교 행렬의 선형 함수 역시 특정 조건에서 정규 분포에 근접하는 성질을 가진다.[36]
특정 조건을 만족하는 확률 변수열의 부분 수열에 대해서도 중심 극한 정리가 성립할 수 있다.[39]
결정 격자 위의 랜덤 워크에도 중심 극한 정리가 적용될 수 있으며, 이는 결정 구조 설계에 응용된다.[25][26]
9. 1. 볼록체
A영어, ..., A영어을 각각 2차원 표준 정규 분포를 따르는 평면 '''R'''2영어 위의 독립적인 랜덤 점이라고 하자. K영어을 이 점들의 볼록 껍질이라고 하고, X영어을 K영어의 면적이라고 하면,n영어이 무한대로 갈 때 분포 수렴은 이 된다.
이는 2차원보다 큰 모든 차원에서도 성립한다.
볼록 다면체 K영어는 가우스 랜덤 다면체라고 불린다.
비슷한 결과는 (가우스 다면체의) 꼭짓점의 수, 모서리의 수, 그리고 실제로 모든 차원의 면에 대해서도 성립한다.[39]
9. 2. 라쿠나 삼각 급수
살렘–지그문트 정리에 따르면, 다음 조건들을 만족하는 확률 변수 에 대해 중심 극한 정리가 성립한다.[39]- 는 에서 균등하게 분포하는 확률 변수이다.
- 이다.
- 는 공극 조건을 만족한다. 즉, 모든 에 대해 를 만족하는 가 존재한다.
- 는 다음을 만족한다.
- .
이때, 다음 식이 성립한다.
는 분포 수렴하여 가 된다.
9. 3. 가우스 폴리토프
A영어, ..., A영어을 각각 2차원 표준 정규 분포를 따르는 평면 '''R'''2 위의 독립적인 랜덤 점이라고 하자. K영어을 이 점들의 볼록 껍질이라고 하고, X영어을 K영어의 면적이라고 하면[39]n영어이 무한대로 갈 때 분포 수렴은 이 된다.
이는 2차원보다 큰 모든 차원에서도 성립한다.
볼록 다면체 K영어는 가우스 랜덤 다면체라고 불린다.
비슷한 결과는 (가우스 다면체의) 꼭짓점의 수, 모서리의 수, 그리고 실제로 모든 차원의 면에 대해서도 성립한다.[39]
9. 4. 직교 행렬의 선형 함수
직교 행렬의 선형 함수에 대한 중심 극한 정리는 다음과 같다.[36]무작위 직교 행렬 이 균등하게 분포되어 있고, 인 고정된 행렬 가 있으며, 라고 하자. 그러면 의 분포는 총 변동 거리에서 에 까지 근접한다.
여기서,
- 무작위 직교 행렬은 균등하게 분포되었다고 하며, 그 분포는 직교군 에 대한 정규화된 하르 측도이다. (회전 행렬#균등 무작위 회전 행렬을 참조.)
- 행렬 의 선형 함수는 행렬 요소의 선형 결합이며 (주어진 계수로), ↦ tr('''AM''')}}로 표시된다. 여기서 는 계수 행렬이다. (대각합 (선형대수학)#내적을 참조.)
9. 5. 부분 수열
확률 변수 가 존재하여 L2(Ω)에서 약하게 수렴하고 L1(Ω)에서 약하게 수렴한다면, 정수 가 존재하여가 무한대로 갈 때 분포 수렴하여 이 된다.[39]
9. 6. 결정 격자 위의 랜덤 워크
결정 격자 위의 간단한 랜덤 워크에 대해 중심 극한 정리가 성립하며, 이는 결정 구조 설계에 사용된다.[25][26]10. 활용 및 예시
중심 극한 정리는 여러 개의 동일하고 공정한 주사위를 던지는 상황을 예로 들어 설명할 수 있다. 주사위를 던져 나온 숫자들의 합 또는 평균은 정규 분포에 가까운 분포를 보인다. 이는 현실 세계의 많은 현상들이 수많은 독립적인 무작위 사건들의 합으로 나타나기 때문에, 중심 극한 정리가 정규 분포가 왜 그렇게 자주 나타나는지를 설명해준다. 또한, 큰 표본을 대상으로 하는 실험에서 통계량을 정규 분포로 근사하여 분석하는 것을 가능하게 한다.[27]
회귀 분석, 특히 최소제곱법에서 종속 변수는 독립 변수들의 함수와 오차 항의 합으로 표현된다. 이때 오차 항이 정규 분포를 따른다고 가정하는데, 이는 중심 극한 정리에 의해 여러 독립적인 오차 항들의 합이 정규 분포에 가까워진다는 점을 통해 뒷받침된다.
11. 역사
아브라함 드 무아브르는 1733년에 발표된 논문에서 정규 분포를 사용하여 공정한 동전을 여러 번 던져 나오는 앞면의 수의 분포를 근사했습니다. 이 발견은 시대를 매우 앞섰으며, 피에르시몽 라플라스가 1812년 자신의 저서 《확률의 해석적 이론》에서 드 무아브르의 발견을 확장하여 이항 분포를 정규 분포로 근사하기 전까지 거의 잊혀졌습니다.[38] 그러나 드 무아브르와 라플라스의 발견은 그 당시에는 거의 주목받지 못했습니다.
19세기 말에 이르러서야 중심 극한 정리의 중요성이 인식되었는데, 1901년에 러시아 수학자 알렉산드르 랴푸노프가 이를 일반적인 용어로 정의하고 그 작동 방식을 정확하게 증명했습니다.[38]
"중심 극한 정리"라는 실제 용어(독일어: "zentraler Grenzwertsatz")는 1920년 죄르지 폴리아가 논문 제목에서 처음 사용했습니다.[29][34] 폴리아는 확률 이론에서 그 중요성 때문에 이 정리를 "중심"이라고 불렀습니다.[34]
1922년 린데베르크 CLT와 유사한 결과의 증명이 앨런 튜링의 1934년 케임브리지 대학교 킹스 칼리지의 펠로우십 논문의 주제였으나, 튜링은 제출 후 이미 증명되었음을 알게 되어 출판되지 않았습니다.[30]
12. 정규 분포로 수렴하지 않는 경우
확률 변수가 따르는 분포의 꼬리가 (단, )의 거듭제곱으로 감쇠하는 경우 (분포의 꼬리가 두꺼워지고 분산은 무한대로 발산하여) 정규 분포에는 수렴하지 않고 특성 지수 의 안정 분포로 수렴한다[41]。
안정 분포는 특성 지수가 일 때 분산은 무한대가 되며, 분포의 꼬리가 멱법칙을 따르는 팻 꼬리를 가진다.
참조
[1]
서적
Applied Statistics and Probability for Engineers
Wiley
[2]
서적
Probability, Statistics and Estimation
http://www.incertitu[...]
[3]
논문
The asymptotic distribution of the sum of a random number of random variables
https://projecteucli[...]
1948
[4]
서적
Normal Approximation by Stein’s Method
Springer-Verlag
2011
[5]
서적
Asymptotic statistics
Cambridge University Press
[6]
웹사이트
Theorem 5.38
http://www.contrib.a[...]
2017-10-18
[7]
논문
A Lyapunov-type bound in
[8]
논문
The Central Limit Theorem around 1935
1986-02
[9]
서적
Theorie de l'addition des variables aleatoires [Combination theory of unpredictable variables]
Gauthier-Villars
1937
[10]
서적
Limit distributions for sums of independent random variables
Addison-wesley
1968
[11]
서적
Univariate stable distributions, Models for Heavy Tailed Data
https://doi.org/10.1[...]
Springer
2020
[12]
서적
An Introduction to Stochastic Processes in Physics
https://jhupbooks.pr[...]
Johns Hopkins University Press
2016-08-11
[13]
논문
A bound for the error in the normal approximation to the distribution of a sum of dependent random variables
http://projecteuclid[...]
[14]
서적
Normal approximation by Stein's method
Springer
[15]
논문
Behavioral statistics textbooks: Source of myths and misconceptions?
1985
[16]
간행물
Identification of Misconception in the Central Limit Theorem and Related Concepts
1995-04-19
[17]
논문
Students' misconceptions of statistical inference: A review of the empirical evidence from research on statistics education
https://lirias.kuleu[...]
2007
[18]
웹사이트
Sampling distribution of the sample mean (video) {{!}} Khan Academy
https://www.khanacad[...]
2023-10-08
[19]
서적
A First Look at Rigorous Probability Theory
World Scientific
2000
[20]
서적
Information Theory and the Central Limit Theorem
Imperial College Press
2004
[21]
서적
Chance and Stability: Stable distributions and their applications
VSP
[22]
서적
Limit Theorems for Functionals of Random Walks
AMS Bookstore
1995
[23]
서적
Sums of Independent Random Variables
https://books.google[...]
Springer-Verlag
[24]
논문
Asymptotic distribution of rewards accumulated by alternating renewal processes
2017
[25]
서적
Spectral geometry of crystal lattices
Contemporary Math
2003
[26]
서적
Topological Crystallography – With a View Towards Discrete Geometric Analysis
Springer
2012
[27]
간행물
Using graphics and simulation to teach statistical concepts
1994-08
[28]
서적
Natural Inheritance
http://galton.org/cg[...]
1889
[29]
논문
Über den zentralen Grenzwertsatz der Wahrscheinlichkeitsrechnung und das Momentenproblem
http://www-gdz.sub.u[...]
[30]
논문
Alan Turing and the Central Limit Theorem
[31]
서적
The Theory of Dispersion Models
Chapman & Hall
[32]
논문
Solution of Shannon's Problem on the Monotonicity of Entropy
[33]
서적
Nauchnoe Nasledie P. L. Chebysheva. Vypusk Pervyi: Matematika
Academiya Nauk SSSR
1945
[34]
논문
The central limit theorem around 1935
http://projecteuclid[...]
[35]
서적
A History of Mathematical Statistics from 1750 to 1930
http://www.gbv.de/dm[...]
Wiley
1998-04-22
[36]
논문
Linear functions on the classical matrix groups
[37]
논문
Asymptotics of products of sums and ''U''-statistics
https://projecteucli[...]
[38]
서적
Understanding Probability: Chance Rules in Everyday Life
Cambridge University Press
[39]
서적
Trigonometric Series
Cambridge University Press
2003
[40]
문서
Feller, 1968, p=244 あるいは フェラー, 1961, p=314
[41]
서적
The Statistical Mechanics of Financial Markets
Springer-Verlag
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com