맨위로가기

경험적 누적 분포 함수

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

경험적 누적 분포 함수는 확률 공간에서 정의된, 표본 데이터를 기반으로 누적 분포 함수를 추정하는 방법이다. 표본의 원소 수를 통해 계산되며, 지시 함수를 사용하여 정의할 수 있다. 경험적 누적 분포 함수는 강한 대수의 법칙과 글리벤코-칸텔리 정리에 의해 참 누적 분포 함수로 수렴하며, 중심 극한 정리를 따른다. 또한, 드보레츠키-키퍼-울로위츠 부등식을 통해 경험적 누적 분포 함수와 참 누적 분포 함수 사이의 차이에 대한 확률 경계를 제공한다. 다양한 통계 소프트웨어에서 구현되어 시각화 및 분석에 활용되며, 글리벤코-칸텔리의 이름을 따서 명명되었다.

더 읽어볼만한 페이지

  • 확률론 - 확률 밀도 함수
    확률 밀도 함수는 연속 확률 변수의 확률 분포를 나타내는 함수로, 특정 구간에서 확률 변수가 값을 가질 확률은 해당 구간에 대한 함수의 적분으로 계산되며, 통계적 특성 계산 및 변수 변환 등에 활용되어 불확실성 모델링 및 분석에 중요한 역할을 한다.
  • 확률론 - 체비쇼프 부등식
    체비쇼프 부등식은 확률 변수가 평균에서 얼마나 멀리 떨어져 있는지에 대한 확률의 상한을 제공하는 부등식으로, 이레네-쥘 비네메가 처음 공식화하고 체비쇼프와 안드레이 마르코프에 의해 일반화 및 증명되었으며, 확률론적 표현 외에도 측도 공간에 대한 명제로 확장될 수 있다.
  • 통계학 - 확률
    확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다.
  • 통계학 - 사분위수
    사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.
경험적 누적 분포 함수
개요
유형통계
분야수학 통계학
정의
정의표본의 경험적 측정과 관련된 분포 함수
속성
속성비모수적
수렴글리벤코-칸텔리 정리
계산
계산식1/n
표본 크기n
관련 항목
관련 항목빈도 분포

2. 정의

확률 공간 $(\Omega,\mathcal F,\operatorname{Pr})$ 위의 $n$개의 동일 분포 확률 변수 $X_1, X_2, \dots, X_n\colon\Omega\to(\mathbb R,\mathcal B(\mathbb R))$의 '''경험적 누적 분포 함수'''는 다음과 같이 정의된다.

:$F_n\colon\Omega\times\mathbb R\to[0,1]$

:$F_n\colon(\omega,x)\mapsto n^{-1}\sum_{k=1}^n1_{(-\infty,x]}(X_k(\omega))$

''X''1, …, ''X''''n''영어를 공통 누적 분포 함수 $F(t)$를 갖는 독립적이고 동일하게 분포된 실수형 확률 변수라고 할 때, '''경험적 분포 함수'''는 다음과 같이 정의된다.[2]

:$\widehat F_n(t) = \frac{\mbox{표본의 원소 수} \leq t}{n} = \frac{1}{n} \sum_{i=1}^n \mathbf{1}_{X_i \le t}$

여기서 $\mathbf{1}_{A}$는 지시 함수이며 사건 $A$에 대한 지시 함수이다. 고정된 $t$에 대해, 지시 함수 $\mathbf{1}_{X_i \le t}$는 모수 $p = F(t)$를 갖는 베르누이 분포 확률 변수이므로, $n \widehat F_n(t)$는 평균 $nF(t)$ 및 분산 $nF(t)(1 - F(t))$를 갖는 이항 분포 확률 변수이다. 이는 $\widehat F_n(t)$가 $F(t)$에 대한 비편향 추정량임을 의미한다.

일부 교과서에서는 다음과 같이 정의하기도 한다.

:$\widehat F_n(t) = \frac{1}{n+1} \sum_{i=1}^n \mathbf{1}_{X_i \le t}$[3][4]

3. 성질

강한 대수의 법칙에 의해, 추정량 \scriptstyle\widehat{F}_n(t)은 모든 t 값에 대해 F(t)n이 무한대로 갈 때 거의 확실히 수렴한다.[2] 따라서 \scriptstyle\widehat{F}_n(t)는 일치추정량이다.

글리벤코-칸텔리 정리는 경험적 분포 함수가 참 누적 분포 함수로 점별 수렴할 뿐만 아니라, t에 대해 균일하게 수렴한다고 설명한다.[5]

반복 로그 법칙에 따른 결과는 다음과 같다.[6]

:

\limsup_{n\to\infty} \frac{\sqrt{n}\|\widehat{F}_n-F\|_\infty}{\sqrt{2\ln\ln n}} \leq \frac12, \quad \text{a.s.}



:

\liminf_{n\to\infty} \sqrt{2n\ln\ln n} \|\widehat{F}_n-F\|_\infty = \frac{\pi}{2}, \quad \text{a.s.}


3. 1. 점근적 성질

글리벤코-칸텔리 정리에 따르면, 경험적 누적 분포 함수는 표본 크기가 무한대로 갈 때 모집단의 누적 분포 함수로 균등 수렴한다.[8][9] 이는 거의 확실하게 수렴함을 의미한다.

큰 수의 강법칙에 의해, 경험적 누적 분포 함수 \scriptstyle\widehat{F}_n(t)는 모든 t 값에 대해 실제 누적 분포 함수 F(t)로 거의 확실히 수렴하며, 이는 일치추정량임을 나타낸다.[2]

콜모고로프-스미르노프 검정은 경험적 분포 함수와 실제 누적 분포 함수 간의 적합도를 평가하는 데 사용되며, 크라메르-폰 미제스 기준은 L2-노름을 사용하여 유사한 측정을 제공한다.

중심 극한 정리에 따르면, 경험적 누적 분포 함수는 점별로 정규 분포로 수렴하며, 이 때 수렴 속도는 \sqrt{n}이다.[2]

동스커의 정리는 경험적 과정이 스코로호드 공간에서 평균이 0인 가우시안 과정으로 분포 수렴함을 보여준다.[5] 이 가우시안 과정의 공분산은 다음과 같이 주어진다.

:

\operatorname{E}[\,G_F(t_1)G_F(t_2)\,] = F(t_1\wedge t_2) - F(t_1)F(t_2).



드보레츠키-키퍼-울로위츠 부등식은 경험적 누적 분포 함수와 모집단 누적 분포 함수 사이의 차이에 대한 확률 경계를 제공한다.[6]

:

\Pr\!\Big( \sqrt{n}\|\widehat{F}_n-F\|_\infty > z \Big) \leq 2e^{-2z^2}.


4. 신뢰 구간

다양한 표본 크기의 정규 분포에 대한 경험적 CDF, CDF 및 신뢰 구간 그래프


다양한 표본 크기의 코시 분포에 대한 경험적 CDF, CDF 및 신뢰 구간 그래프


다양한 표본 크기의 삼각 분포에 대한 경험적 CDF, CDF 및 신뢰 구간 그래프


드보레츠키-키퍼-볼포위츠 부등식에 따르면, 참 CDF F(x)를 포함하는 구간은 확률 1-\alpha로 다음과 같이 주어진다.

:F_n(x) - \varepsilon \le F(x) \le F_n(x) + \varepsilon \; \text{ 여기서 } \varepsilon = \sqrt{\frac{\ln{\frac{2}{\alpha}}}{2n}}.

위의 경계에 따라, 여러 통계 프로그램들을 사용하여 다양한 분포에 대한 경험적 CDF, CDF 및 신뢰 구간을 도식화할 수 있다.

5. 통계적 구현

경험적 누적 분포 함수 구현 소프트웨어
소프트웨어설명
R 소프트웨어"ecdf" 객체를 사용하여 플로팅, 인쇄 및 계산[7]
MATLAB경험적 누적 분포 함수(CDF) 플롯 사용[7]
SASJMPCDF 플롯 생성[7]
Minitab경험적 CDF 생성[7]
Scipyscipy.stats.ecdf 사용[7]
Statsmodelsstatsmodels.distributions.empirical_distribution.ECDF 사용[7]
Matplotlibmatplotlib.pyplot.ecdf 함수 사용 (버전 3.8.0부터)[7]
Seabornseaborn.ecdfplot 함수 사용[7]
Plotlyplotly.express.ecdf 함수 사용[7]
Excel경험적 CDF 플롯 생성[7]


6. 역사

글리벤코-칸텔리 정리는 Вале́рий Ива́нович Гливе́нко|발레리 이바노비치 글리벤코ru와 Francesco Paolo Cantelli|프란체스코 파올로 칸텔리it의 이름을 땄다.

참조

[1] 서적 A modern introduction to probability and statistics: Understanding why and how https://www.worldcat[...] Springer 2005
[2] 서적 Asymptotic statistics https://archive.org/[...] Cambridge University Press
[3] 서적 An Introduction to Statistical Modeling of Extreme Values Springer 2001
[4] 서적 Methods of Structural Safety Dover Publications 2006
[5] 서적 Asymptotic statistics https://archive.org/[...] Cambridge University Press
[6] 서적 Asymptotic statistics https://archive.org/[...] Cambridge University Press
[7] 웹사이트 What's new in Matplotlib 3.8.0 (Sept 13, 2023) — Matplotlib 3.8.3 documentation https://matplotlib.o[...]
[8] 간행물 A Generalization of the Glivenko-Cantelli Theorem https://archive.org/[...] 1959-09
[9] 서적 Probability: Theory and Examples https://services.mat[...] Cambridge University Press 2019



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com