누적 분포 함수
1. 개요
누적 분포 함수(CDF)는 확률 변수의 확률 분포를 나타내는 함수로, 주어진 값보다 작거나 같은 값을 가질 확률을 의미한다. 실수 값 확률 변수의 경우, CDF는 확률 변수가 특정 값 이하일 확률을, 확률 벡터의 경우 각 변수가 특정 값 이하일 확률을 나타낸다. CDF는 확률 변수 또는 확률 벡터의 확률 분포를 유일하게 결정하며, 이산, 연속, 특이 확률 변수의 특성을 나타낸다. CDF는 여(상보) 누적 분포 함수, 분위 함수, 접힌 누적 분포 함수, 경험적 분포 함수 등 다양한 파생 함수를 가지며, 통계적 분석에서 누적 빈도 분석, 콜모고로프-스미르노프 검정, 카이퍼 검정 등에 활용된다.
-
확률론 -
확률 밀도 함수
확률 밀도 함수는 연속 확률 변수의 확률 분포를 나타내는 함수로, 특정 구간에서 확률 변수가 값을 가질 확률은 해당 구간에 대한 함수의 적분으로 계산되며, 통계적 특성 계산 및 변수 변환 등에 활용되어 불확실성 모델링 및 분석에 중요한 역할을 한다. -
확률론 -
체비쇼프 부등식
체비쇼프 부등식은 확률 변수가 평균에서 얼마나 멀리 떨어져 있는지에 대한 확률의 상한을 제공하는 부등식으로, 이레네-쥘 비네메가 처음 공식화하고 체비쇼프와 안드레이 마르코프에 의해 일반화 및 증명되었으며, 확률론적 표현 외에도 측도 공간에 대한 명제로 확장될 수 있다.
2. 정의
확률 공간 위의 실수 값을 갖는 확률 변수 의 (우연속) 누적 분포 함수(Cumulative Distribution Function, CDF) 는 확률 변수 가 특정 값 보다 작거나 같은 값을 가질 확률로 정의된다. 수학적으로는 다음과 같이 표현한다.
:
보다 일반적으로, 확률 공간 위의 차원 실수값 확률 벡터 의 (우연속) 누적 분포 함수 는 각 성분 가 해당 값 보다 작거나 같을 확률로 정의된다.
:
위 정의에서 확률을 계산하는 구간 (또는 ) 대신 열린구간 (또는 )를 사용하면, 즉 (또는 각 성분에 대해 )를 사용하면 좌연속 누적 분포 함수가 정의된다. 일반적으로 통계학에서는 별다른 언급이 없으면 우연속 누적 분포 함수를 의미한다.
2.1. 확률 변수의 누적분포함수
확률 공간 위의 실수 값을 갖는 확률 변수 의 (우연속) 누적 분포 함수(Cumulative Distribution Function, CDF) 는 다음과 같이 정의된다.
:
여기서 우변은 확률 변수 가 실수 보다 작거나 같은 값을 가질 확률을 나타낸다. 이 확률은 하측 확률(lower-tail probability)이라고도 불린다.
누적 분포 함수를 이용하면 확률 변수 가 반닫힌 구간 ()에 속할 확률을 다음과 같이 계산할 수 있다.
:
위 정의에서 "≤" 기호를 사용하는 것이 일반적인 관례이지만, 모든 문헌에서 통용되는 것은 아니다 (예를 들어, 헝가리 문헌에서는 "<"를 사용하기도 한다). 이 구분은 특히 이산 분포에서 중요하다. 예를 들어 이항 분포나 푸아송 분포의 확률표를 올바르게 사용하려면 이 관례를 따라야 한다. 또한 폴 레비의 특성 함수에 대한 역 공식과 같은 중요한 공식들도 "이하(≤)" 형태의 정의에 기반한다.
여러 확률 변수 등을 다룰 때는 각 변수를 나타내는 문자를 아래 첨자로 사용하여 등으로 표기하고, 하나의 확률 변수만 다룰 때는 아래 첨자를 생략하기도 한다. 누적 분포 함수는 일반적으로 대문자 로 표기하며, 이는 확률 밀도 함수(PDF)나 확률 질량 함수(PMF)를 소문자 로 표기하는 것과 구별된다. 특정 분포는 자체적인 표기법을 가지기도 하는데, 예를 들어 정규 분포의 누적 분포 함수와 확률 밀도 함수는 각각 와 로 표기하는 경우가 많다.
연속 확률 변수 의 누적 분포 함수 는 확률 밀도 함수 가 존재할 경우, 이를 적분하여 표현할 수 있다.
:
반대로, 누적 분포 함수 가 미분 가능하면, 미적분학의 기본 정리에 따라 이를 미분하여 확률 밀도 함수 를 얻을 수 있다.
:
만약 확률 변수 의 분포가 특정 값 에서 이산적인 성분을 가진다면 (즉, 일 확률이 0보다 크다면), 이 확률은 누적 분포 함수의 좌극한과 함숫값의 차이로 계산할 수 있다.
:
만약 누적 분포 함수 가 에서 연속이라면, 이 값은 0이 되며, 이는 에서 이산적인 성분이 없음을 의미한다.
위 정의에서 반닫힌구간 대신 열린구간 를 사용하면 좌연속 누적 분포 함수가 정의된다. 일반적으로는 우연속 누적 분포 함수를 사용한다.
보다 일반적으로, 확률 공간 위의 차원 실수값 확률 벡터 의 (우연속) 누적 분포 함수 는 다음과 같이 정의된다.
:
2.2. 확률 벡터의 누적분포함수
확률 공간 위의 실숫값 확률 벡터 의 (우연속) 누적분포함수 는 다음과 같다.
:
위 정의에 등장하는 반닫힌구간들을 열린구간으로 대체하면 좌연속 누적분포함수의 정의를 얻는다.
2.3. 좌연속 및 우연속 누적분포함수
확률 변수 의 누적 분포 함수(Cumulative Distribution Function, CDF)는 일반적으로 확률 변수가 특정 값 보다 작거나 같을 확률, 즉 로 정의된다. 이 정의에 따른 누적 분포 함수는 우연속이다.
확률 공간 위의 실숫값 확률 변수 의 우연속 누적분포함수 는 다음과 같이 정의된다.
:
이 정의에서 사용된 부등호 "≤"는 일반적인 관례이지만, 모든 문헌에서 보편적으로 사용되는 것은 아니다. 예를 들어, 헝가리 문헌 등 일부에서는 "<" 기호, 즉 를 사용하여 누적 분포 함수를 정의하기도 한다. 이 경우 누적 분포 함수는 좌연속이 된다. 즉, 우연속 정의에 등장하는 반닫힌구간 를 열린구간 로 대체하면 좌연속 누적분포함수의 정의를 얻게 된다.
좌연속 정의와 우연속 정의의 차이는 이산 분포에서 특히 중요하다. 확률 변수 가 특정 값 를 가질 확률 는 우연속 누적분포함수 를 사용하여 다음과 같이 표현할 수 있다.
:
여기서 는 가 보다 작은 쪽에서 로 접근할 때의 좌극한을 의미하며, 이는 좌연속 누적분포함수의 에서의 값 와 동일하다. 만약 누적분포함수 가 에서 연속이라면, 우극한과 좌극한값이 함수값과 모두 같으므로 가 되어 이 된다. 이는 연속 확률 변수의 경우에 해당한다.
대부분의 확률론 및 통계학 분야에서는 우연속 정의()를 표준으로 채택하고 있다. 이항 분포나 푸아송 분포와 같은 이산 분포의 확률표나 폴 레비의 특성 함수에 대한 역 공식 등 많은 중요한 결과들이 이 우연속 정의를 기반으로 한다. 따라서 특정 문헌이나 자료를 참고할 때는 어떤 정의(좌연속 또는 우연속)를 사용하고 있는지 명확히 확인하는 것이 중요하다.
3. 성질
모든 누적 분포 함수(CDF) 는 기본적으로 몇 가지 중요한 성질을 공유한다. 첫째, 함수값이 감소하지 않는 [[단조 증가]] 함수이다. 둘째, 그래프가 오른쪽에서 이어지는 [[우연속 함수|우연속]] 함수이다. 이 두 성질 때문에 CDF는 càdlàg 함수의 한 종류가 된다. 셋째, 음의 무한대로 갈 때의 극한값은 0이고, 양의 무한대로 갈 때의 극한값은 1이다.
이 세 가지 기본 성질(단조 증가, 우연속성, 특정 극한값)을 만족하는 모든 함수는 어떤 확률 변수의 누적 분포 함수가 될 수 있다.
확률 변수 의 종류에 따라 누적 분포 함수의 형태가 달라진다. 예를 들어, 가 순수하게 이산 확률 변수라면, 누적 분포 함수 는 특정 값들()에서 불연속적인 계단 형태를 보일 수 있다. 반면, 의 누적 분포 함수 가 연속 함수라면, 는 연속 확률 변수이다. 만약 가 절대 연속이라면, 확률 밀도 함수 가 존재하며, 누적 분포 함수는 이 밀도 함수의 르베그 적분으로 표현될 수 있다.
누적 분포 함수는 확률 변수의 기댓값과도 밀접한 관련이 있다. 만약 확률 변수 가 유한한 L1-노름을 가진다면 (즉, 의 기댓값이 유한하다면), 기댓값 는 리만-스틸티어스 적분을 사용하여 다음과 같이 계산할 수 있다.
또한, 누적 분포 함수와 기댓값 사이에는 다음과 같은 유용한 부등식이 성립한다.
모든 에 대해,
그리고,
이러한 관계는 오른쪽 그림에서 시각적으로 확인할 수 있다. 이 부등식들로부터 다음과 같은 극한 관계도 유도된다.
3.1. 함수로서의 성질
임의의 함수 가 어떤 확률 변수의 누적분포함수(CDF)가 되기 위한 필요충분조건은 다음 세 가지 성질을 만족하는 것이다.
1. [[증가 함수|단조 증가]]: 함수값이 감소하지 않는다. 즉, 모든 실수 에 대해 이면 이다.
2. [[우연속 함수|우연속성]]: 함수의 그래프에서 오른쪽으로 접근할 때 극한값이 함숫값과 같다. 즉, 모든 실수 에 대해 이다. 단조 증가와 우연속성 때문에 누적 분포 함수는 càdlàg 함수이다.
3. 극한값: 음의 무한대로 갈 때 극한값은 0이고, 양의 무한대로 갈 때 극한값은 1이다.
이 세 가지 성질을 만족하는 모든 함수 에 대해, 를 누적 분포 함수로 가지는 확률 변수를 정의할 수 있다.
확률 변수의 종류에 따라 누적 분포 함수의 형태가 달라진다.
* 만약 가 순수하게 이산 확률 변수이고, 값 를 각각 확률 로 가진다면, 의 누적 분포 함수 는 각 지점에서 불연속이며, 그 지점에서 위로 점프한다. 이 경우 누적 분포 함수는 다음과 같이 계산된다.
즉, 보다 작거나 같은 모든 값들에 대한 확률의 합이다.
* 만약 실수 값을 가지는 확률 변수 의 누적 분포 함수 가 연속 함수라면, 는 연속 확률 변수이다. 더 나아가 가 절대 연속이면, 르베그 적분이 가능한 함수 가 존재하여 모든 실수 ()에 대해 다음이 성립한다.
이 함수 는 분포의 확률 밀도 함수라고 불리며, 거의 어디서나 의 미분과 같다.
이러한 성질을 통해 누적 분포 함수는 확률 변수의 분포를 완전히 나타낼 수 있다.
더 나아가, 다차원 확률 변수, 즉 확률 벡터의 누적 분포 함수도 유사한 성질을 만족한다. 임의의 함수 가 어떤 확률 벡터의 누적분포함수이기 위한 필요충분조건은 다음과 같다.
* 증가 조건: 만약 이며 모든 에 대해 이라면, 다음 부등식이 성립해야 한다.