확률 밀도 함수
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
확률 밀도 함수(PDF)는 연속 확률 변수의 확률 분포를 나타내는 함수이다. 확률 밀도 함수는 변수가 특정 값과 같을 확률을 직접 제공하지 않고, 변수가 주어진 값의 범위 내에 있을 확률을 제공한다. 확률 밀도 함수는 음이 아닌 르베그 적분 가능 함수이며, 특정 구간에 대한 적분 값은 해당 구간에서 변수가 존재할 확률을 나타낸다. 확률 밀도 함수는 누적 분포 함수의 도함수로 정의되며, 확률 변수의 기댓값, 분산 등 다양한 통계적 특성을 계산하는 데 사용된다. 또한, 여러 변수 간의 관계를 나타내는 결합 확률 밀도 함수, 주변 확률 밀도 함수, 독립 확률 변수의 합과 곱의 확률 밀도 함수 등을 계산하는 데에도 활용된다. 확률 밀도 함수는 변수 변환, 통계적 독립성, 데이터 분석 등 다양한 분야에서 응용된다.
더 읽어볼만한 페이지
- 확률론 - 체비쇼프 부등식
체비쇼프 부등식은 확률 변수가 평균에서 얼마나 멀리 떨어져 있는지에 대한 확률의 상한을 제공하는 부등식으로, 이레네-쥘 비네메가 처음 공식화하고 체비쇼프와 안드레이 마르코프에 의해 일반화 및 증명되었으며, 확률론적 표현 외에도 측도 공간에 대한 명제로 확장될 수 있다. - 확률론 - 수형도
- 물리학 개념 - 절연체
절연체는 전기 전도성을 막아 전기의 흐름을 제어하고 안전을 확보하며, 밴드 이론에 따라 큰 띠틈을 가져 외부 전압이 띠틈을 넘어서면 절연 파괴가 발생하며, 유리에서 세라믹, 고분자 복합 재료 등으로 제작되어 전선, 케이블 등 다양한 분야에 사용된다. - 물리학 개념 - 전기 전도체
전기 전도체는 전기를 잘 통하는 물질로, 금속, 전해질, 초전도체, 반도체 등이 있으며, 구리, 은, 알루미늄 등 다양한 재료가 전선 등에 사용된다.
확률 밀도 함수 | |
---|---|
확률 밀도 함수 | |
정의 | 확률 변수의 확률 분포를 나타내는 함수 |
속성 | 함수값은 항상 0 이상 () 전체 범위에서 적분값은 1 () 특정 범위에서 적분값은 해당 범위 확률 값 () |
정규 분포 | 기호: )}} 또는 )}} 평균: 0 표준 편차: σ |
추가 정보 | |
밀도 곡선 | 확률 밀도 함수 그래프 |
연속 확률 변수 | 확률 밀도 함수는 연속 확률 변수에서 사용 |
조건부 확률 | 조건부 확률 분포를 나타낼 때 사용 |
균등 분포 | 실수 전체에서 균등 분포를 정의하는 것은 불가능 (균등 분포의 확률 밀도 함수는 실수 전체에서 0이 아니어야 하는데, 적분값이 무한대가 되기 때문) |
확률 값 | 확률 밀도 함수의 특정 값 자체는 확률이 아님, 함수 값은 적분 값으로 확률을 계산하는데 활용됨 |
특이한 케이스 | 확률 변수의 확률 분포가 함수로 표현 불가능할 수도 있음 (이산 확률 변수와 같이) |
관련 개념 | 확률 변수 확률 분포 누적 분포 함수 확률 질량 함수 |
2. 정의
어떤 종의 박테리아가 일반적으로 20시간에서 30시간 동안 생존한다고 가정할 때, 이 박테리아가 정확히 5시간 동안 생존할 확률은 0이다. 왜냐하면 수많은 박테리아가 약 5시간 동안 생존하지만, 특정 박테리아가 정확히 5.00...시간에 죽을 확률은 없기 때문이다. 그러나 박테리아가 5시간과 5.01시간 사이에 죽을 확률은 2%처럼 정량화할 수 있다. 이와 유사하게, 박테리아가 5시간과 5.001시간 사이에 죽을 확률은 약 0.002가 되는데, 이는 이전 시간 간격의 1/10이기 때문이다.
이 예에서 (구간 동안 생존할 확률) / (구간의 지속 시간)의 비율은 시간당 2(또는 2 hour−1)로 거의 일정하다. 예를 들어, 5시간과 5.01시간 사이의 0.01시간 구간에서 죽을 확률은 0.02이고, (0.02 확률 / 0.01시간) = 2 hour−1이다. 이 값 2 hour−1을 5시간경에 죽을 확률 밀도라고 한다. 따라서 박테리아가 5시간에 죽을 확률은 (2 hour−1) ''dt''로 표현할 수 있다. 이것은 ''dt''가 이 창의 지속 시간인 5시간 부근의 미소한 시간 창 내에서 박테리아가 죽을 확률을 의미한다.
''f''(5시간) = 2 hour−1인 확률 밀도 함수 ''f''가 있을 때, ''f''의 임의의 시간 창(미소한 창뿐만 아니라 큰 창도)에 대한 적분은 그 창에서 박테리아가 죽을 확률이 된다.
절대연속확률분포에서는 확률밀도함수가 존재한다. 확률변수 의 확률밀도함수 를 생각하고, 가 비음의 르베그 가적분인 함수라고 할 때, 다음이 성립한다.
:
만약 를 의 누적분포함수라고 하면,
:
:
가 된다. 직관적으로, 미소구간 에 포함되는 값을 가 취할 확률은 임을 알 수 있다.
확률 질량 함수와는 달리, 확률 밀도 함수는 1보다 큰 값을 가질 수 있다. 예를 들어, 구간 $[0, \frac{1}{2}]$의 연속 균일 분포의 확률 밀도 함수는 $0 \le x \le \frac{1}{2}$ 구간에서 $f(x) = 2$이고, 그 외 구간에서는 $f(x) = 0$이다.
정규 분포는 다음과 같은 확률 밀도 함수를 갖는다.
:
확률 변수 $X$와 그 확률 밀도 함수 $f$가 주어졌을 때, $X$의 기댓값은 (값이 존재하는 경우) 다음 식으로 구할 수 있다.
:
모든 확률 분포가 확률 밀도 함수를 갖는 것은 아니다. 이산형 확률 변수가 갖지 않는 경우도 있을 뿐만 아니라, 칸토어 분포는 연속 확률 분포임에도 불구하고, 구간 내 모든 점에서 양의 확률을 갖지 않기 때문에 확률 밀도 함수를 갖지 않는다.
두 확률 밀도 함수 $f$, $g$가 거의 모든 곳에서 같을 때, 두 함수는 정확히 같은 확률 분포에서 얻어졌다고 할 수 있다.
2. 1. 절대 연속 확률 분포
절대 연속 확률 분포는 확률 밀도 함수를 갖는 연속 확률 분포이다. 확률 변수 가 밀도 를 갖는다고 하면, 여기서 는 음이 아닌 르베그 적분 가능 함수이며 다음이 성립한다.따라서, 가 의 누적 분포 함수라면 다음이 성립한다.
그리고 (가 에서 연속이라면)
직관적으로, 는 가 무한히 작은 구간 에 속할 확률로 생각할 수 있다.
2. 2. 이산 확률 분포와의 관계
디랙 델타 함수를 이용하면, 이산 확률 변수도 확률 밀도 함수 형태로 표현하여 연속 확률 변수와 통합적으로 다룰 수 있다. 예를 들어, Rademacher distribution|라데마허 분포영어는 1/2의 확률로 -1 또는 1의 값을 가지는 이항 이산 확률 변수인데, 이 변수와 관련된 확률 밀도는 다음과 같다.:
일반적으로 이산 변수가 n개의 서로 다른 실수값을 가질 수 있는 경우, 관련된 확률 밀도 함수는 다음과 같다.
:
여기서 은 변수가 가질 수 있는 이산 값이고, 은 이 값들과 관련된 확률이다.
이를 통해 이산 확률 분포와 연속 확률 분포를 통합하여 처리할 수 있다. 위의 표현식을 사용하면 연속 확률 분포에 대해 주어진 공식을 바탕으로 이산 변수의 통계적 특성(평균, 분산, 첨도)을 계산할 수 있다.
3. 성질
확률 밀도 함수는 특정 구간 내에서 확률 변수가 값을 가질 확률을 나타내는 함수이다. 확률과 달리 확률 밀도 함수는 1보다 큰 값을 가질 수 있다. 예를 들어, 구간 [0, 1/2]에서 연속 균일 분포는 0 ≤ x ≤ 1/2 일 때, f(x) = 2 값을 가지며, 그 외에는 f(x) = 0 값을 가진다.
표준 정규 분포는 다음과 같은 확률 밀도 함수를 갖는다.
:
확률 변수 X의 분포가 확률 밀도 함수 f(x)를 가질 때, X의 기댓값은 (기댓값이 존재하는 경우) 다음과 같이 계산할 수 있다.
:
모든 확률 분포가 밀도 함수를 가지는 것은 아니다. 이산 확률 변수의 분포는 밀도 함수를 가지지 않으며, 칸토어 분포도 마찬가지이다. 칸토어 분포는 어떤 개별 점에도 양의 확률을 할당하지 않지만(즉, 이산 성분이 없지만) 밀도 함수를 가지지 않는다.
확률 분포는 누적 분포 함수 F(x)가 절대 연속인 경우에만 밀도 함수 f(x)를 갖는다. 이 경우, F(x)는 거의 모든 곳에서 미분 가능하며, 그 도함수를 확률 밀도 함수로 사용할 수 있다.
:
확률 분포가 밀도를 가진다면, 모든 단일점 집합 {a}의 확률은 0이다. 유한 집합과 가산 집합에 대해서도 마찬가지이다.
두 확률 밀도 f(x)와 g(x)는 르베그 측도가 영인 집합에서만 차이가 있는 경우에만 동일한 확률 분포를 나타낸다.
통계 역학 분야에서는 누적 분포 함수의 도함수와 확률 밀도 함수 사이의 위 관계에 대한 비형식적인 재구성이 일반적으로 확률 밀도 함수의 정의로 사용된다. 이 대체 정의는 다음과 같다.
dt가 무한히 작은 수라면, X가 구간 (t, t + dt)에 포함될 확률은 f(t)dt와 같다. 즉,
:
4. 예시
확률과 달리 확률밀도함수는 1보다 큰 값을 가질 수 있다. 예를 들어, 구간 [0, 1/2]의 연속 균등 분포는 0 ≤ x ≤ 1/2 구간에서 f(x)|에프엑스영어 = 2의 확률밀도를 가지며, 그 외에는 f(x)|에프엑스영어 = 0이다.
정규 분포는 다음과 같은 확률 밀도 함수를 갖는다.[4]
:$\qquad f(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2}$
4. 1. 박테리아 수명
어떤 종의 박테리아는 일반적으로 20시간에서 30시간 동안 생존한다고 가정할 때, 박테리아가 정확히 5시간 동안 생존할 확률은 0이다. 많은 박테리아가 약 5시간 동안 생존하지만, 주어진 박테리아가 정확히 5.00...시간에 죽을 확률은 없다. 그러나 박테리아가 5시간과 5.01시간 사이에 죽을 확률은 정량화할 수 있다. 그 값이 0.02(즉, 2%)라고 가정하자. 그러면 박테리아가 5시간과 5.001시간 사이에 죽을 확률은 이 시간 간격이 이전 시간 간격의 1/10이므로 약 0.002가 될 것이다. 박테리아가 5시간과 5.0001시간 사이에 죽을 확률은 약 0.0002가 될 것이고, 그렇게 계속된다.이 예에서 (구간 동안 생존할 확률) / (구간의 지속 시간)의 비율은 거의 일정하며, 시간당 2(2hour-1)와 같다. 예를 들어, 5시간과 5.01시간 사이의 0.01시간 구간에서 죽을 확률은 0.02이고, (0.02 확률 / 0.01시간) = 2hour-1이다. 이 값 2hour-1을 5시간경에 죽을 확률 밀도라고 한다. 따라서 박테리아가 5시간에 죽을 확률은 (2hour-1) ''dt''로 쓸 수 있다. 이것은 ''dt''가 이 창의 지속 시간인 5시간 부근의 미소한 시간 창 내에서 박테리아가 죽을 확률이다. 예를 들어, 5시간보다 길게, 하지만 (5시간 + 1나노초)보다 짧게 생존할 확률은 (2hour-1) × (1나노초) ≈ 6e-13이다 (단위 변환 3.6e12 나노초 = 1시간 사용).
''f''(5시간) = 2hour-1인 확률 밀도 함수 ''f''가 있다. ''f''의 임의의 시간 창(적분)은 그 창에서 박테리아가 죽을 확률이다.
4. 2. 정규 분포
정규 분포는 다음과 같은 확률 밀도 함수를 갖는다.[4]:$\qquad f(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2}$
4. 3. 균등 분포
확률과 달리 확률밀도함수는 1보다 큰 값을 가질 수 있다. 예를 들어, 구간 [0, 1/2]의 연속 균등 분포는 0 ≤ x ≤ 1/2 구간에서 f(x)|에프엑스영어 = 2의 확률밀도를 가지며, 그 외에는 f(x)|에프엑스영어 = 0이다.5. 여러 변수와 관련된 밀도
연속 확률 변수 에 대해, 집합 전체와 관련된 확률 밀도 함수를 정의할 수 있는데, 이를 결합 확률 밀도 함수라고 한다. 이 밀도 함수는 변수의 함수로 정의된다.
5. 1. 결합 확률 밀도 함수
연속 확률 변수 ''X''1, ..., ''X''n''에 대해, 집합 전체와 관련된 확률 밀도 함수를 정의할 수 있는데, 이를 결합 확률 밀도 함수라고 한다. 이 밀도 함수는 ''n'' 변수의 함수로 정의되며, 변수 ''X''1, ..., ''X''n'' 값의 ''n''차원 공간의 임의의 영역 ''D''에 대해, 변수 집합의 실현이 영역 ''D'' 내에 속할 확률은 다음과 같다.:
''F''(''x''1, ..., ''x''''n'') = Pr(''X''1 ≤ ''x''1, ..., ''X''''n'' ≤ ''x''''n'')이 벡터 (''X''1, ..., ''X''''n'')의 누적 분포 함수인 경우, 결합 확률 밀도 함수는 다음과 같은 편미분으로 계산할 수 있다.
:
좌표 (''X'', ''Y'')를 갖는 2차원 확률 벡터를 이라고 할 때, 양의 ''x''와 ''y''의 제1사분면에서 을 얻을 확률은 다음과 같다.
:
5. 2. 주변 확률 밀도 함수
연속 확률 변수 의 경우, 집합 전체와 관련된 확률 밀도 함수를 정의할 수 있는데, 이를 '''결합 확률 밀도 함수'''라고 한다. 에 대해, 를 변수 하나에만 관련된 확률 밀도 함수라고 하는데, 이를 주변 확률 밀도 함수라고 한다. 주변 확률 밀도 함수는 확률변수 에 관련된 확률 밀도에서 나머지 변수들의 모든 값에 대해 적분하여 구할 수 있다.:
5. 3. 독립 확률 변수
연속 확률 변수가 결합 확률 밀도 함수를 가질 때, 모든 변수가 서로 독립인 것은 다음 조건을 만족할 때이다.:
만약 n개의 확률 변수 벡터의 결합 확률 밀도 함수가 하나의 변수에 대한 n개 함수의 곱으로 인수분해될 수 있다면,
:
(여기서 각 는 반드시 밀도 함수일 필요는 없다) 그 집합의 n개 변수는 서로 독립이며, 각 변수의 주변 확률 밀도 함수는 다음과 같이 주어진다.
:
연속형 확률 변수 가 모두 독립일 때, 결합 확률 밀도 함수는 다음과 같다.
:
각 확률 변수의 주변 확률 밀도 함수는 다음과 같이 나타낼 수 있다.
:
6. 응용
확률 밀도 함수는 다양한 분야에 응용된다.
임의의 변수 ''X''의 확률 밀도 함수가 로 주어질 때, 다른 변수 의 확률 밀도 함수를 계산할 수 있다. 이를 "변수 변환"이라고 하며, 알려진 난수 생성기를 사용하여 임의의 형태 를 갖는 임의 변수를 생성하는 데 사용된다.[5]
만약 함수 가 단조 함수라면, 결과 확률 밀도 함수는 다음과 같다.[5]
:
여기서 는 역함수를 의미한다. 이는 미소 구간에 포함된 확률이 변수 변환에 대해 변하지 않아야 한다는 사실에서 유도된다.
두 개의 독립적인 확률 변수 U와 V의 합의 확률 밀도 함수는 각 밀도 함수의 합성곱으로 나타낼 수 있다.
:
독립 확률 변수의 몫에 대한 확률밀도함수는 변수 변환을 통해 계산할 수 있다. 두 독립 확률변수 U와 V의 몫 Y = U/V을 계산하기 위해 다음과 같은 변환을 정의한다.
:
6. 1. 변수 변환
임의의 변수 ''X''의 확률 밀도 함수가 로 주어질 때, 어떤 변수 의 확률 밀도 함수를 계산할 수 있다. 이를 "변수 변환"이라고 하며, 알려진 난수 생성기를 사용하여 임의의 형태 를 갖는 임의 변수를 생성하는 데 사용된다.[5]함수 가 단조 함수일 때, 결과 확률 밀도 함수는 다음과 같다.[5]
:
여기서 는 역함수를 나타낸다.
이는 미소 구간에 포함된 확률이 변수 변환에 대해 불변해야 한다는 사실에서 따온다. 즉,
:
또는
:
단조 함수가 아닌 함수의 경우, 에 대한 확률 밀도 함수는
:
이며, 여기서 는 방정식 에 대한 의 해의 개수이고, 는 이러한 해들을 나타낸다.
기댓값 을 구하기 위해서는 먼저 새로운 임의 변수 의 확률 밀도 를 구해야 한다고 생각하기 쉽지만, 다음 적분을 계산하는 대신,
:
다음 적분을 구할 수 있다.
:
두 적분값은 와 모두가 실제로 확률 밀도 함수를 가질 때 모두 동일하다. 가 일대일 함수일 필요는 없다. 어떤 경우에는 후자의 적분이 전자보다 훨씬 쉽게 계산된다. 무의식 통계학자의 법칙 참조.
가 결합 확률밀도함수 를 가지는 n차원 확률변수라고 하자. 만약 이고, 가 전단사이고 미분 가능한 함수라면, 의 확률밀도함수 는 다음과 같다.[6]
:
여기서 미분은 의 역함수의 야코비 행렬로, 에서 계산된 값이다.
예를 들어, 2차원 경우 이고 변환 가 , 로 주어지고 역변환이 , 라고 하자. 에 대한 결합분포의 확률밀도함수는[7] 다음과 같다.
:
가 미분 가능한 함수이고, 가 에서 값을 가지는 확률 벡터이며, 가 의 확률 밀도 함수이고, 가 디랙 델타 함수라 하자. 위 공식들을 사용하여 의 확률 밀도 함수인 를 다음과 같이 구할 수 있다.
:
이 결과는 무의식 통계학자의 법칙으로 이어진다.
:
''증명:''
확률 밀도 함수가 인 축약된 확률 변수 (즉, 0과 같은 상수)를 정의하자. 확률 벡터 와 변환 를 다음과 같이 정의하자.
:
는 전단사 사상임이 분명하며, 의 야코비 행렬은 다음과 같다.
:
이는 주대각선에 1이 있는 상삼각행렬이므로, 그 행렬식은 1이다. 이전 절의 변수 변환 정리를 적용하면 다음을 얻는다.
:
이는 에 대해 주변화하면 원하는 확률 밀도 함수를 얻게 된다.
6. 2. 독립 확률 변수의 합, 곱, 몫
각각 확률 밀도 함수를 갖는 두 개의 독립적인 확률 변수 U|U영어와 V|V영어의 합의 확률 밀도 함수는 각각의 밀도 함수의 합성곱이다.:
밀도 U1, ..., UN|U1, ..., UN영어를 갖는 N개의 독립적인 확률 변수의 합에 대한 이전 관계를 일반화할 수 있다.
:
이는 독립 확률 변수의 몫에 대한 예와 유사하게 Y = U + V|Y = U + V영어 및 Z = V|Z = V영어를 포함하는 2방향 변수 변경으로부터 유도될 수 있다.
확률 밀도 함수를 갖는 두 개의 독립적인 확률 변수 U|U영어와 V|V영어가 주어졌을 때, 곱 Y = UV|Y = UV영어과 몫 Y = U/V|Y = U/V영어의 밀도는 변수 변환을 통해 계산할 수 있다.
두 독립 확률변수 U|U영어와 V|V영어의 몫 Y = U/V|Y = U/V영어을 계산하기 위해 다음과 같은 변환을 정의한다.
:
그러면, 결합 확률밀도함수 p(y,z)|p(y,z)영어는 ''U'', ''V''에서 ''Y'', ''Z''로의 변수변환을 통해 계산할 수 있으며, Y|Y영어는 결합 확률밀도함수에서 Z|Z영어를 주변화하여 유도할 수 있다.
역변환은 다음과 같다.
:
이 변환의 야코비 행렬 행렬식 의 절댓값은 다음과 같다.
:
따라서,
:
그리고 Y|Y영어의 분포는 Z|Z영어를 주변화하여 계산할 수 있다.
:
이 방법은 ''U'', ''V''에서 ''Y'', ''Z''로의 변환이 전단사 함수일 것을 중요하게 요구한다. 위의 변환은 Z|Z영어를 V|V영어로 직접 매핑할 수 있고, 주어진 V|V영어에 대해 몫 U/V|U/V영어가 단조 함수이기 때문에 이 조건을 만족한다. U + V|U + V영어, U - V|U - V영어 및 UV|UV영어의 합, 차, 곱에 대해서도 마찬가지이다.
정확히 같은 방법을 사용하여 여러 독립 확률변수의 다른 함수의 분포를 계산할 수 있다.
두 개의 표준 정규 분포 변수 U|U영어와 V|V영어가 주어지면, 두 변수의 몫은 다음과 같이 계산할 수 있다. 먼저, 변수들은 다음과 같은 확률 밀도 함수를 가진다.
:
위에서 설명한 대로 변환하면 다음과 같다.
:
이것은 다음을 이끌어낸다.
:
이것은 코시 분포의 밀도 함수이다.
참조
[1]
웹사이트
AP Statistics Review - Density Curves and the Normal Distributions
https://web.archive.[...]
2015-03-16
[2]
서적
Grinstead & Snell's Introduction to Probability
Orange Grove Texts
2009-01-01
[3]
웹사이트
probability - Is a uniformly random number over the real line a valid distribution?
https://stats.stacke[...]
2021-10-06
[4]
서적
Families of Frequency Distributions
Griffin
1972-01-01
[5]
웹사이트
Transformations of Random Variables
https://stats.libret[...]
LibreTexts Statistics
2020-05-05
[6]
서적
Modern Mathematical Statistics with Applications
https://books.google[...]
Cengage
[7]
서적
Elementary Probability
Cambridge University Press
2007-01-01
[8]
웹사이트
Probability distribution function
http://planetmath.or[...]
[9]
웹사이트
Probability Function
http://mathworld.wol[...]
[10]
서적
Families of Frequency Distributions
Griffin
1972-01-01
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com