주변 분포
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
주변 분포는 결합 확률 분포 또는 조건부 확률 분포로부터 특정 확률 변수의 확률 분포를 의미한다. 이산 확률 변수의 경우, 주변 확률은 다른 변수의 값을 고려하지 않고 계산되며, 결합 확률 분포를 합산하여 구할 수 있다. 연속 확률 변수의 경우, 주변 확률 밀도 함수는 다른 변수에 대해 결합 확률 분포를 적분하여 계산한다. 주변 확률은 다른 사건의 발생 여부와 관계없이 단일 사건의 확률을 나타내는 반면, 조건부 확률은 특정 사건이 이미 발생했다는 전제하에 다른 사건이 발생할 확률을 의미한다. 다변량 분포에서도 주변 분포의 개념이 적용되며, 여러 변수 중 특정 변수의 주변 확률 질량 함수 또는 주변 확률 밀도 함수를 계산할 수 있다.
더 읽어볼만한 페이지
주변 분포 |
---|
2. 정의
주변 분포는 결합 확률 분포 나 조건부 확률 분포 를 사용하여 정의된다.
2. 1. 이산 확률 분포
두 확률 변수인 X|X영어와 Y|Y영어가 결합된 분포를 가질 때, X|X영어의 주변 분포는 Y|Y영어의 값을 고려하지 않고 X|X영어의 확률 분포를 나타낸다. 이는 Y|Y영어의 모든 값에 대한 결합 확률 분포를 합산하여 계산할 수 있다. 마찬가지로, X|X영어의 개별 값들을 합산하여 Y|Y영어에 대한 주변 분포를 얻을 수 있다.: 및
Y\X | x1 | x2 | x3 | x4 | pY(y) ↓ |
---|---|---|---|---|---|
y1 | 4/32 | 2/32 | 1/32 | 1/32 | 8/32 |
y2 | 3/32 | 6/32 | 3/32 | 3/32 | 15/32 |
y3 | 9/32 | 0 | 0 | 0 | 9/32 |
pX(x) → | 16/32 | 8/32 | 4/32 | 4/32 | 32/32 |
주변 확률은 항상 기댓값으로 표현할 수 있다.
직관적으로, ''X''의 주변 확률은 특정 ''Y'' 값에 주어진 ''X''의 조건부 확률을 검토한 다음, 모든 ''Y'' 값의 분포에 대해 이 조건부 확률을 평균하여 계산한다.
이는 기댓값의 정의에서 유도된다.
이산 확률 변수에서 에 대해 주변화된 의 주변 확률 질량 함수 는 다음과 같이 정의된다.
:
2. 2. 연속 확률 분포
두 개의 연속 확률 변수 ''X''와 ''Y''의 결합 분포가 알려져 있다면, 주변 확률 밀도 함수는 ''Y''에 대해 결합 확률 분포를 적분하여 구할 수 있으며, 반대의 경우도 마찬가지이다. 즉,:
:
여기서 이고 이다.
연속형 확률 변수에서 확률 밀도 함수가 존재하는 경우, 로 주변화된 의 주변 확률 밀도 함수 는 다음과 같이 정의된다.
:
3. 주변 확률과 조건부 확률의 비교
주변 확률은 다른 변수와 관계없이 특정 변수 하나의 확률 분포를 나타내는 반면, 조건부 확률 분포는 다른 변수의 값이 주어졌을 때 특정 변수의 확률 분포를 나타낸다.[2] 즉, 주변 확률은 단일 사건에 대한 확률을, 조건부 확률은 다른 사건이 이미 발생했다는 조건 하에 특정 사건의 확률을 나타낸다.
어떤 변수가 다른 변수일 때의 조건부 분포는 두 변수의 결합 분포를 다른 변수의 주변 분포로 나눈 것이다.[3]
- '''이산 확률 변수'''의 경우:
}
- '''연속 확률 변수'''의 경우:
}
예를 들어, 200명의 학생이 있는 교실에서 학습 시간(''X'')과 정답 비율(''Y'')에 대한 데이터를 통해 주변 확률과 조건부 확률을 비교해 볼 수 있다.[4] 아래 표는 학습 시간과 정답률 간의 관계를 나타낸 이원 교차 표이다.
학습 시간(분) | |||||
---|---|---|---|---|---|
rowspan="6" | x1 (0-20) | x2 (21-40) | x3 (41-60) | x4(>60) | |
y1 (0-20) | 0 | 0 | |||
y2 (21-40) | 0 | ||||
y3 (41-59) | |||||
y4 (60-79) | 0 | ||||
y5 (80-100) | 0 | align="center" | | align="center" | | align="center" | |
- 주변 확률: 20점 이하를 받은 학생의 비율은 으로, 5%이다.
- 조건부 확률: 60분 이상 학습한 학생이 20점 이하를 받을 확률은 으로, 약 11%이다.
다른 예시로, 보행자가 신호등을 무시하고 횡단보도를 건널 때 차에 치일 확률을 생각해 보자. H(피해 여부)를 {Hit, Not Hit}, L(신호등)을 {Red, Yellow, Green}으로 나타내는 이산 확률 변수를 사용한다.
- 조건부 확률: 신호등 상태에 따라 보행자가 차에 치일 확률은 달라진다. 예를 들어, 신호등이 빨간색일 때보다 녹색일 때 보행자가 차에 치일 확률이 더 높다.
빨강 | 노랑 | 녹색 | |
---|---|---|---|
치이지 않음 | 0.99 | 0.9 | 0.2 |
치임 | 0.01 | 0.1 | 0.8 |
- 주변 확률: 신호등 상태(L)를 고려하지 않고 보행자가 차에 치일 확률(P(H = Hit))을 계산하려면, 가능한 모든 L 값에 대해 P(H | L)을 더하고 각 L 값의 발생 확률로 가중치를 부여해야 한다.
빨강 | 노랑 | 녹색 | 주변 확률 P(H) | |
---|---|---|---|---|
치이지 않음 | 0.198 | 0.09 | 0.14 | 0.428 |
치임 | 0.002 | 0.01 | 0.56 | 0.572 |
합계 | 0.2 | 0.1 | 0.7 | 1 |
P(L = 빨강) = 0.2, P(L = 노랑) = 0.1, P(L = 녹색) = 0.7이라고 가정하면, 주변 확률 P(H = Hit)는 0.572이다.
3. 1. 정의
두 이산 확률 변수인 X와 Y의 결합 분포가 알려져 있을 때, X와 같은 변수의 주변 분포는 Y의 값을 고려하지 않을 때 X의 확률 분포이다. 이것은 모든 Y 값에 대한 결합 확률 분포를 합산하여 계산할 수 있다. 물론, 반대도 마찬가지이다. X의 개별 값들을 합산하여 Y에 대한 주변 분포를 얻을 수 있다.: 및
x1 | x2 | x3 | x4 | pY(y) ↓ | |
---|---|---|---|---|---|
y1 | |||||
y2 | |||||
y3 | 0 | 0 | 0 | ||
pX(x) → |
'''주변 확률'''은 항상 기댓값으로 쓸 수 있다.
직관적으로, ''X''의 주변 확률은 특정 ''Y'' 값에 주어진 ''X''의 조건부 확률을 검토한 다음 모든 ''Y'' 값의 분포에 대해 이 조건부 확률을 평균하여 계산된다.
이것은 기댓값의 정의(무의식 통계학자의 법칙 적용 후)에서 따릅니다.
따라서 주변화는 확률 변수 ''Y''와 다른 확률 변수의 확률 분포 변환 규칙을 제공한다.
두 개의 '''연속''' 확률 변수 ''X''와 ''Y''의 결합 분포가 알려져 있다면, 주변 확률 밀도 함수는 ''Y''에 대해 결합 확률 분포를 적분하여 구할 수 있으며, 반대의 경우도 마찬가지이다. 즉,
:
:
여기서 , 그리고 이다.
'''주변 확률'''은 다른 사건과 무관하게 단일 사건이 발생할 확률이다. 반면에, '''조건부 확률 분포'''는 다른 특정 사건이 ''이미'' 발생했다는 전제하에 사건이 발생할 확률이다. 즉, 하나의 변수에 대한 계산은 다른 변수에 의존한다.[2]
어떤 변수가 다른 변수일 때의 조건부 분포는 두 변수의 결합 분포를 다른 변수의 주변 분포로 나눈 것이다.[3] 즉,
- '''이산 확률 변수'''의 경우,
- '''연속 확률 변수'''의 경우,
3. 2. 예시
200명의 학생이 있는 교실에서 학습 시간(''X'')과 정답 비율(''Y'')에 대한 데이터가 있다고 가정해 보자.[4] ''X''와 ''Y''가 이산 확률 변수라고 가정하면, ''p''(''xi'',''yj'')의 모든 가능한 값을 나열하여 ''X''와 ''Y''의 결합 분포를 설명할 수 있다.학습 시간(분) | |||||
---|---|---|---|---|---|
정답률(%) | x1 (0-20) | x2 (21-40) | x3 (41-60) | x4 (>60) | |
y1 (0-20) | 2/200 | 0 | 0 | 8/200 | |
y2 (21-40) | 10/200 | 2/200 | 8/200 | 0 | |
y3 (41-59) | 2/200 | 4/200 | 32/200 | 32/200 | |
y4 (60-79) | 0 | 20/200 | 30/200 | 10/200 | |
y5 (80-100) | 0 | 4/200 | 16/200 | 20/200 |
주변 분포는 20점 이하를 받은 학생 수를 결정하는 데 사용할 수 있는데, 10명의 학생 또는 5%를 의미한다.
조건부 분포는 60분 이상 학습한 학생이 20점 이하를 받을 확률을 결정하는 데 사용할 수 있다. 60분 이상 학습한 후 20점 이하를 받을 확률은 약 11%이다.
4. 현실 세계의 예시
보행자가 신호등을 무시하고 횡단보도를 건널 때 차에 치일 확률을 예시로 들어보자. H를 차에 치이거나(Hit) 치이지 않는(Not Hit) 사건을 나타내는 이산 확률 변수로, L을 신호등의 상태(빨강, 노랑, 녹색)를 나타내는 이산 확률 변수로 정의한다.
현실적으로 H는 L에 따라 달라진다. 예를 들어, 보행자는 신호등이 녹색일 때보다 빨간색일 때 차에 치일 가능성이 훨씬 높다. H와 L의 가능한 모든 조합에 대해, 보행자가 신호등을 무시했을 때 동시에 발생할 확률을 알기 위해서는 H와 L의 결합 확률 분포를 고려해야 한다.
그러나 '''주변 확률''' P(H = Hit)는 L의 상태와 관계없이 보행자가 차에 치일 확률을 의미한다. 즉, 신호등이 빨간색, 노란색, 녹색인 모든 경우를 고려하여 계산해야 한다.
다음 표는 신호등 상태에 따른 조건부 확률 P(H|L)을 나타낸다.
빨강 | 노랑 | 녹색 | |
---|---|---|---|
치이지 않음 | 0.99 | 0.9 | 0.2 |
치임 | 0.01 | 0.1 | 0.8 |
결합 확률 분포를 구하기 위해 P(L = 빨강) = 0.2, P(L = 노랑) = 0.1, P(L = 녹색) = 0.7이라고 가정하자. 조건부 분포 표의 각 열에 해당 확률을 곱하면 아래와 같이 H와 L의 결합 확률 분포를 얻을 수 있다.
빨강 | 노랑 | 녹색 | 주변 확률 P(H) | |
---|---|---|---|---|
치이지 않음 | 0.198 | 0.09 | 0.14 | 0.428 |
치임 | 0.002 | 0.01 | 0.56 | 0.572 |
합계 | 0.2 | 0.1 | 0.7 | 1 |
주변 확률 P(H = Hit)는 결합 분포 표에서 H = Hit 행의 값을 모두 더한 0.572이다. 이는 신호등 상태와 관계없이 보행자가 차에 치일 확률을 의미한다.
5. 다변량 분포
다변량 분포의 경우, 주변 확률은 특정 변수(또는 변수들의 집합)를 제외한 나머지 변수들에 대해 적분 또는 합산을 수행하여 계산한다.[5]
5. 1. 이산 확률 변수
''X''1, ''X''2, …, ''X''n이 이산 확률 변수인 경우, 주변 확률 질량 함수는 다음과 같다.[5]:
이산 확률 변수에서 에 대해 주변화된 의 주변 확률 질량 함수 는 다음과 같이 정의된다.
:
5. 2. 연속 확률 변수
''X''1, ''X''2, …, ''X''n이 연속 확률 변수인 경우, 주변 확률 밀도 함수는 다음과 같다.[5]:
연속형 확률 변수에서 확률 밀도 함수가 존재하는 경우, 로 주변화된 의 주변 확률 밀도 함수 는 다음과 같이 정의된다.
:
참조
[1]
서적
Statistical Astronomy
Dover Publications
[2]
웹사이트
Marginal & Conditional Probability Distributions: Definition & Examples
https://study.com/ac[...]
2019-11-16
[3]
웹사이트
Exam P [FSU Math]
https://www.math.fsu[...]
2019-11-16
[4]
간행물
Marginal and conditional distributions
https://www.khanacad[...]
2019-11-16
[5]
서적
A modern introduction to probability and statistics : understanding why and how
Springer
2005
[6]
서적
Statistical Astronomy
Dover Publications
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com