맨위로가기

주변 분포

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

주변 분포는 결합 확률 분포 또는 조건부 확률 분포로부터 특정 확률 변수의 확률 분포를 의미한다. 이산 확률 변수의 경우, 주변 확률은 다른 변수의 값을 고려하지 않고 계산되며, 결합 확률 분포를 합산하여 구할 수 있다. 연속 확률 변수의 경우, 주변 확률 밀도 함수는 다른 변수에 대해 결합 확률 분포를 적분하여 계산한다. 주변 확률은 다른 사건의 발생 여부와 관계없이 단일 사건의 확률을 나타내는 반면, 조건부 확률은 특정 사건이 이미 발생했다는 전제하에 다른 사건이 발생할 확률을 의미한다. 다변량 분포에서도 주변 분포의 개념이 적용되며, 여러 변수 중 특정 변수의 주변 확률 질량 함수 또는 주변 확률 밀도 함수를 계산할 수 있다.

더 읽어볼만한 페이지

  • 확률분포 - 베르누이 분포
    베르누이 분포는 성공 확률 p를 가지며, 단 한 번의 시행에서 성공 또는 실패 두 가지 결과를 나타내는 이산 확률 분포로, 기댓값은 p, 분산은 p(1-p)이며 다른 여러 확률 분포와 관련되어 불확실성과 정보량을 측정할 수 있다.
  • 확률분포 - 로그 정규 분포
    로그 정규 분포는 확률 변수 X의 로그가 정규 분포를 따르며, 양의 실수 값을 갖고 평균 μ와 표준 편차 σ를 매개변수로 갖는 확률 분포이다.
주변 분포

2. 정의

주변 분포는 결합 확률 분포 P(X, Y)나 조건부 확률 분포 P(X | Y)를 사용하여 정의된다.

2. 1. 이산 확률 분포

확률 변수인 X|X영어와 Y|Y영어가 결합된 분포를 가질 때, X|X영어의 주변 분포는 Y|Y영어의 값을 고려하지 않고 X|X영어확률 분포를 나타낸다. 이는 Y|Y영어의 모든 값에 대한 결합 확률 분포를 합산하여 계산할 수 있다. 마찬가지로, X|X영어의 개별 값들을 합산하여 Y|Y영어에 대한 주변 분포를 얻을 수 있다.

:p_X(x_i)=\sum_{j}p(x_i,y_j) p_Y(y_j)=\sum_{i}p(x_i,y_j)

Y\Xx1x2x3x4pY(y) ↓
y14/322/321/321/328/32
y23/326/323/323/3215/32
y39/320009/32
pX(x) →16/328/324/324/3232/32
이산 확률 변수 쌍 ''X''와 ''Y''의 결합 및 주변 분포는 서로 의존적이므로 0이 아닌 상호 정보를 갖는다. 결합 분포의 값은 3×4 직사각형에 있고, 주변 분포의 값은 오른쪽과 아래쪽 여백을 따라 있다.



주변 확률은 항상 기댓값으로 표현할 수 있다.

p_X(x) = \int_y p_{X \mid Y}(x \mid y) \, p_Y(y) \, \mathrm{d}y = \operatorname{E}_{Y} [p_{X \mid Y}(x \mid Y)]\;.

직관적으로, ''X''의 주변 확률은 특정 ''Y'' 값에 주어진 ''X''의 조건부 확률을 검토한 다음, 모든 ''Y'' 값의 분포에 대해 이 조건부 확률을 평균하여 계산한다.

이는 기댓값의 정의에서 유도된다.

\operatorname{E}_Y [f(Y)] = \int_y f(y) p_Y(y) \, \mathrm{d}y.

이산 확률 변수에서 Y에 대해 주변화된 X의 주변 확률 질량 함수 P_X(X)는 다음과 같이 정의된다.

: P_X(X)

= \sum_{y \in Y} P_{XY}(X,y)

= \sum_{y \in Y} P_{X|Y}(X|y) P_Y(y)

= \mathbb{E}_{P_Y}[P_{X|Y}(X|Y)]

2. 2. 연속 확률 분포

두 개의 연속 확률 변수 ''X''와 ''Y''의 결합 분포가 알려져 있다면, 주변 확률 밀도 함수는 ''Y''에 대해 결합 확률 분포를 적분하여 구할 수 있으며, 반대의 경우도 마찬가지이다. 즉,

:f_X(x) = \int_{c}^{d} f(x,y) \, dy

:f_Y(y) = \int_{a}^{b} f(x,y) \, dx

여기서 x\in[a,b]이고 y\in[c,d]이다.

연속형 확률 변수에서 확률 밀도 함수가 존재하는 경우, Y로 주변화된 X의 주변 확률 밀도 함수 P_X(X)는 다음과 같이 정의된다.

:P_X(X)

= \int_y P_{X,Y}(X,y) \, \mathrm{d}y

= \int_y P_{X|Y}(X|y) \, P_Y(y) \, \mathrm{d}y

= \mathbb{E}_{P_Y}[P_{X|Y}(X|Y)]

3. 주변 확률과 조건부 확률의 비교

주변 확률은 다른 변수와 관계없이 특정 변수 하나의 확률 분포를 나타내는 반면, 조건부 확률 분포는 다른 변수의 값이 주어졌을 때 특정 변수의 확률 분포를 나타낸다.[2] 즉, 주변 확률은 단일 사건에 대한 확률을, 조건부 확률은 다른 사건이 이미 발생했다는 조건 하에 특정 사건의 확률을 나타낸다.

어떤 변수가 다른 변수일 때의 조건부 분포는 두 변수의 결합 분포를 다른 변수의 주변 분포로 나눈 것이다.[3]


  • '''이산 확률 변수'''의 경우:

}

  • '''연속 확률 변수'''의 경우:

}

예를 들어, 200명의 학생이 있는 교실에서 학습 시간(''X'')과 정답 비율(''Y'')에 대한 데이터를 통해 주변 확률과 조건부 확률을 비교해 볼 수 있다.[4] 아래 표는 학습 시간과 정답률 간의 관계를 나타낸 이원 교차 표이다.

200명의 학생의 교실에서 학습 시간과 정답률 간의 관계
학습 시간(분)
rowspan="6"x1 (0-20)x2 (21-40)x3 (41-60)x4(>60)
y1 (0-20)00
y2 (21-40)0
y3 (41-59)
y4 (60-79)0
y5 (80-100)0align="center" |align="center" |align="center" |


  • 주변 확률: 20점 이하를 받은 학생의 비율은 p_Y(y_1) = P_Y(Y=y_1) = \sum_{i=1}^4 P(x_i,y_1) = \frac{2}{200} + \frac{8}{200} = \frac{10}{200}으로, 5%이다.
  • 조건부 확률: 60분 이상 학습한 학생이 20점 이하를 받을 확률은 p_{Y|X}(y_1|x_4) = P(Y=y_1|X=x_4) = \frac{P(X=x_4,Y=y_1)}{P(X=x_4)} = \frac{8/200}{70/200} = \frac{8}{70} = \frac{4}{35}으로, 약 11%이다.


다른 예시로, 보행자가 신호등을 무시하고 횡단보도를 건널 때 차에 치일 확률을 생각해 보자. H(피해 여부)를 {Hit, Not Hit}, L(신호등)을 {Red, Yellow, Green}으로 나타내는 이산 확률 변수를 사용한다.

  • 조건부 확률: 신호등 상태에 따라 보행자가 차에 치일 확률은 달라진다. 예를 들어, 신호등이 빨간색일 때보다 녹색일 때 보행자가 차에 치일 확률이 더 높다.


조건부 분포: P(H\mid L)|P(H\mid L)영어
빨강노랑녹색
치이지 않음0.990.90.2
치임0.010.10.8


  • 주변 확률: 신호등 상태(L)를 고려하지 않고 보행자가 차에 치일 확률(P(H = Hit))을 계산하려면, 가능한 모든 L 값에 대해 P(H | L)을 더하고 각 L 값의 발생 확률로 가중치를 부여해야 한다.


결합 분포:
빨강노랑녹색주변 확률 P(H)
치이지 않음0.1980.090.140.428
치임0.0020.010.560.572
합계0.20.10.71



P(L = 빨강) = 0.2, P(L = 노랑) = 0.1, P(L = 녹색) = 0.7이라고 가정하면, 주변 확률 P(H = Hit)는 0.572이다.

3. 1. 정의

이산 확률 변수인 X와 Y의 결합 분포가 알려져 있을 때, X와 같은 변수의 주변 분포는 Y의 값을 고려하지 않을 때 X의 확률 분포이다. 이것은 모든 Y 값에 대한 결합 확률 분포를 합산하여 계산할 수 있다. 물론, 반대도 마찬가지이다. X의 개별 값들을 합산하여 Y에 대한 주변 분포를 얻을 수 있다.

:p_X(x_i)=\sum_{j}p(x_i,y_j) p_Y(y_j)=\sum_{i}p(x_i,y_j)

x1x2x3x4pY(y) ↓
y1
y2
y3000
pX(x) →



'''주변 확률'''은 항상 기댓값으로 쓸 수 있다.

p_X(x) = \int_y p_{X \mid Y}(x \mid y) \, p_Y(y) \, \mathrm{d}y = \operatorname{E}_{Y} [p_{X \mid Y}(x \mid Y)]\;.

직관적으로, ''X''의 주변 확률은 특정 ''Y'' 값에 주어진 ''X''의 조건부 확률을 검토한 다음 모든 ''Y'' 값의 분포에 대해 이 조건부 확률을 평균하여 계산된다.

이것은 기댓값의 정의(무의식 통계학자의 법칙 적용 후)에서 따릅니다.

\operatorname{E}_Y [f(Y)] = \int_y f(y) p_Y(y) \, \mathrm{d}y.

따라서 주변화는 확률 변수 ''Y''와 다른 확률 변수의 확률 분포 변환 규칙을 제공한다.

p_X(x) = \int_y p_{X \mid Y}(x \mid y) \, p_Y(y) \, \mathrm{d}y = \int_y \delta\big(x - g(y)\big) \, p_Y(y) \, \mathrm{d}y.

두 개의 '''연속''' 확률 변수 ''X''와 ''Y''의 결합 분포가 알려져 있다면, 주변 확률 밀도 함수는 ''Y''에 대해 결합 확률 분포를 적분하여 구할 수 있으며, 반대의 경우도 마찬가지이다. 즉,

:f_X(x) = \int_{c}^{d} f(x,y) \, dy

:f_Y(y) = \int_{a}^{b} f(x,y) \, dx

여기서 x\in[a,b], 그리고 y\in[c,d]이다.

'''주변 확률'''은 다른 사건과 무관하게 단일 사건이 발생할 확률이다. 반면에, '''조건부 확률 분포'''는 다른 특정 사건이 ''이미'' 발생했다는 전제하에 사건이 발생할 확률이다. 즉, 하나의 변수에 대한 계산은 다른 변수에 의존한다.[2]

어떤 변수가 다른 변수일 때의 조건부 분포는 두 변수의 결합 분포를 다른 변수의 주변 분포로 나눈 것이다.[3] 즉,


  • '''이산 확률 변수'''의 경우, p_{Y|X}(y|x) = P(Y=y \mid X=x) = \frac{P(X=x,Y=y)}{P_X(x)}
  • '''연속 확률 변수'''의 경우, f_{Y|X}(y|x)=\frac{f_{X,Y}(x,y)}{f_X(x)}

3. 2. 예시

200명의 학생이 있는 교실에서 학습 시간(''X'')과 정답 비율(''Y'')에 대한 데이터가 있다고 가정해 보자.[4] ''X''와 ''Y''가 이산 확률 변수라고 가정하면, ''p''(''xi'',''yj'')의 모든 가능한 값을 나열하여 ''X''와 ''Y''의 결합 분포를 설명할 수 있다.

200명의 학생의 교실에서 학습 시간과 정답률 간의 관계에 대한 데이터 집합의 이원 교차 표
학습 시간(분)
정답률(%)x1 (0-20)x2 (21-40)x3 (41-60)x4 (>60)
y1 (0-20)2/200008/200
y2 (21-40)10/2002/2008/2000
y3 (41-59)2/2004/20032/20032/200
y4 (60-79)020/20030/20010/200
y5 (80-100)04/20016/20020/200



주변 분포는 20점 이하를 받은 학생 수를 결정하는 데 사용할 수 있는데, 10명의 학생 또는 5%를 의미한다.

조건부 분포는 60분 이상 학습한 학생이 20점 이하를 받을 확률을 결정하는 데 사용할 수 있다. 60분 이상 학습한 후 20점 이하를 받을 확률은 약 11%이다.

4. 현실 세계의 예시

보행자가 신호등을 무시하고 횡단보도를 건널 때 차에 치일 확률을 예시로 들어보자. H를 차에 치이거나(Hit) 치이지 않는(Not Hit) 사건을 나타내는 이산 확률 변수로, L을 신호등의 상태(빨강, 노랑, 녹색)를 나타내는 이산 확률 변수로 정의한다.

현실적으로 H는 L에 따라 달라진다. 예를 들어, 보행자는 신호등이 녹색일 때보다 빨간색일 때 차에 치일 가능성이 훨씬 높다. H와 L의 가능한 모든 조합에 대해, 보행자가 신호등을 무시했을 때 동시에 발생할 확률을 알기 위해서는 H와 L의 결합 확률 분포를 고려해야 한다.

그러나 '''주변 확률''' P(H = Hit)는 L의 상태와 관계없이 보행자가 차에 치일 확률을 의미한다. 즉, 신호등이 빨간색, 노란색, 녹색인 모든 경우를 고려하여 계산해야 한다.

다음 표는 신호등 상태에 따른 조건부 확률 P(H|L)을 나타낸다.

조건부 분포: P(H|L)
빨강노랑녹색
치이지 않음0.990.90.2
치임0.010.10.8



결합 확률 분포를 구하기 위해 P(L = 빨강) = 0.2, P(L = 노랑) = 0.1, P(L = 녹색) = 0.7이라고 가정하자. 조건부 분포 표의 각 열에 해당 확률을 곱하면 아래와 같이 H와 L의 결합 확률 분포를 얻을 수 있다.

결합 분포: P(H, L)
빨강노랑녹색주변 확률 P(H)
치이지 않음0.1980.090.140.428
치임0.0020.010.560.572
합계0.20.10.71



주변 확률 P(H = Hit)는 결합 분포 표에서 H = Hit 행의 값을 모두 더한 0.572이다. 이는 신호등 상태와 관계없이 보행자가 차에 치일 확률을 의미한다.

5. 다변량 분포

이변량 정규 분포에서 얻은 많은 표본. 주변 분포는 빨간색과 파란색으로 표시됩니다. X의 주변 분포는 Y 좌표를 고려하지 않고 X 좌표의 히스토그램을 생성하여 근사화됩니다.


다변량 분포의 경우, 주변 확률은 특정 변수(또는 변수들의 집합)를 제외한 나머지 변수들에 대해 적분 또는 합산을 수행하여 계산한다.[5]

5. 1. 이산 확률 변수

''X''1, ''X''2, …, ''X''n이 이산 확률 변수인 경우, 주변 확률 질량 함수는 다음과 같다.[5]

:p_{X_i}(k)=\sum p(x_1,x_2,\dots,x_{i-1},k,x_{i+1},\dots,x_n);

이산 확률 변수에서 Y에 대해 주변화된 X의 주변 확률 질량 함수 P_X(X)는 다음과 같이 정의된다.

:P_X(X)

= \sum_{y \in Y} P_{XY}(X,y)

= \sum_{y \in Y} P_{X|Y}(X|y) P_Y(y)

= \mathbb{E}_{P_Y}[P_{X|Y}(X|Y)]

5. 2. 연속 확률 변수

''X''1, ''X''2, …, ''X''n이 연속 확률 변수인 경우, 주변 확률 밀도 함수는 다음과 같다.[5]

:f_{X_i}(x_i)=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} f(x_1,x_2,\dots,x_n) dx_1 dx_2 \cdots dx_{i-1} dx_{i+1} \cdots dx_n .

연속형 확률 변수에서 확률 밀도 함수가 존재하는 경우, Y로 주변화된 X의 주변 확률 밀도 함수 P_X(X)는 다음과 같이 정의된다.

:P_X(X)

= \int_y P_{X,Y}(X,y) \, \mathrm{d}y

= \int_y P_{X|Y}(X|y) \, P_Y(y) \, \mathrm{d}y

= \mathbb{E}_{P_Y}[P_{X|Y}(X|Y)]

참조

[1] 서적 Statistical Astronomy Dover Publications
[2] 웹사이트 Marginal & Conditional Probability Distributions: Definition & Examples https://study.com/ac[...] 2019-11-16
[3] 웹사이트 Exam P [FSU Math] https://www.math.fsu[...] 2019-11-16
[4] 간행물 Marginal and conditional distributions https://www.khanacad[...] 2019-11-16
[5] 서적 A modern introduction to probability and statistics : understanding why and how Springer 2005
[6] 서적 Statistical Astronomy Dover Publications



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com