맨위로가기

푸아송 분포

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

푸아송 분포는 주어진 시간 안에 특정 사건이 일어날 횟수를 나타내는 이산 확률 분포이다. 1837년 시메옹 드니 푸아송에 의해 처음 소개되었으며, 정해진 시간 동안 사건이 일어날 횟수의 기댓값을 λ라고 할 때, 사건이 k회 일어날 확률은 ${\displaystyle f(k;\lambda )={\frac {\lambda ^{k}e^{-\lambda }}{k!}}}$로 표현된다. 푸아송 분포는 사건 발생 횟수가 많고 각 사건이 드문 시스템에 적용되며, 이항 분포의 극한 사례로 볼 수 있다. 통신, 천문학, 생물학, 경영학 등 다양한 분야에서 활용되며, 푸아송 과정으로 모델링될 수 있다.

더 읽어볼만한 페이지

  • 이산분포 - 베르누이 시행
    베르누이 시행은 '성공' 또는 '실패' 두 가지 결과만 존재하는 독립적인 시행을 반복하는 실험으로, 각 시행의 성공 확률 p와 실패 확률 q의 합은 1이며, 확률 변수와 이항 분포, 음이항 분포, 포아송 분포 등 다른 확률 분포와 관련된다.
  • 이산분포 - 이항 분포
    이항 분포는 독립적인 시행에서 성공 확률을 가질 때 성공 횟수가 따르는 확률 분포로, 시행 횟수가 많을 경우 정규 분포나 푸아송 분포로 근사할 수 있다.
  • 확률분포 - 베르누이 분포
    베르누이 분포는 성공 확률 p를 가지며, 단 한 번의 시행에서 성공 또는 실패 두 가지 결과를 나타내는 이산 확률 분포로, 기댓값은 p, 분산은 p(1-p)이며 다른 여러 확률 분포와 관련되어 불확실성과 정보량을 측정할 수 있다.
  • 확률분포 - 로그 정규 분포
    로그 정규 분포는 확률 변수 X의 로그가 정규 분포를 따르며, 양의 실수 값을 갖고 평균 μ와 표준 편차 σ를 매개변수로 갖는 확률 분포이다.
  • 계승과 이항식 주제 - 이항 정리
    이항 정리는 이변수 다항식 (x + y)ⁿ을 전개하는 공식으로, 이항 계수를 사용하며, 조합론적 증명과 수학적 귀납법을 통해 증명할 수 있고, 다양한 분야에 응용되며, 이항 급수, 다항 정리 등 일반화된 형태가 존재한다.
  • 계승과 이항식 주제 - 감마 분포
    감마 분포는 형상 모수와 척도 모수로 정의되는 연속 확률 분포로, 확률 밀도 함수가 감마 함수로 표현되며, 베이즈 통계학에서 켤레 사전 분포로 활용되고, 형상 모수가 양의 정수일 때는 얼랑 분포를 나타낸다.
푸아송 분포
분포 정보
종류질량 확률 분포
다양한 λ에 대한 푸아송 분포의 모습
다양한 λ에 대한 푸아송 분포의 확률 질량 함수
푸아송 분포의 누적 분포 함수
푸아송 분포의 누적 분포 함수
기호Pois(λ), Poisson(λ)
모수
모수λ > 0
정의역
정의역0 이상의 정수
확률 질량 함수
확률 질량 함수(λ^k / k!) * e^(-λ)
누적 분포 함수
누적 분포 함수e^(-λ) * Σ(i=0 to ⌊k⌋) (λ^i / i!) = Γ(⌊k+1⌋, λ) / ⌊k⌋! (이때 Γ(x,y)는 불완전 감마 함수, ⌊x⌋는 바닥 함수)
통계량
기대값λ
분산λ
중앙값≈ ⌊λ + (1/3) - (0.02/λ)⌋
최빈값⌊λ⌋ 또는 ⌈λ⌉ - 1
왜도λ^(-1/2)
첨도λ^(-1)
모멘트 생성 함수
모멘트 생성 함수exp(λ(e^t - 1))
특성 함수
특성 함수exp(λ(e^(it) - 1))
엔트로피
엔트로피λ [ 1 - log(λ) ] + e^(-λ) Σ(k=0 to ∞) (λ^k log(k!) / k!) (큰 λ에 대해서는 (1/2) log(2πeλ) - (1/12λ) - (1/24λ^2) - (19/360λ^3) + O(1/λ^4))

2. 역사

시메옹 드니 푸아송이 1837년 저서 《형사 및 민사 사건에서의 판단 확률에 관한 연구》(Recherches sur la Probabilité des Jugements en Matière Criminelle et en Matière Civile)에서 푸아송 분포를 처음 소개했다.[77] 이보다 앞서 1711년 아브라함 드 무아브르가 저서 ''De Mensura Sortis seu; de Probabilitate Eventuum in Ludis a Casu Fortuito Pendentibus''에서 푸아송 분포와 관련된 결과를 제시한 바 있다.

이후 푸아송 분포는 여러 분야에 응용되었다.


  • 1860년 사이먼 뉴컴은 단위 공간에서 발견된 별의 수에 푸아송 분포를 적용했다.
  • 1898년 라디슬라우스 보르트키에비치는 프로이센 군대의 군인들이 말에 채여 우발적으로 사망하는 빈도가 푸아송 분포에 의해 잘 모델링될 수 있음을 보여주었다.
  • 윌리엄 실리 고셋기네스 맥주를 양조할 때 사용되는 효모 세포를 분석하는 데 푸아송 분포를 활용하였다.
  • 아그너 크라루프 에를랑은 콜센터에 도착하는 전화 통화 빈도를 분석하는 데 푸아송 분포를 사용했다.
  • 1946년 R. D. Clarke는 제2차 세계 대전 중 런던에 V-1 비행 폭탄이 착륙한 사건을 푸아송 분포를 이용해 조사했다.

3. 정의

정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값\lambda라고 했을 때, 그 사건이 k회 일어날 확률은 다음과 같다.

:f(k; \lambda)=\frac{\lambda^k e^{-\lambda}}{k!},\,\!

여기서 e는 자연상수이다.

이산 확률 변수 X는 모수 \lambda>0를 갖는 푸아송 분포를 따르며, 확률 질량 함수는 다음과 같다.[2]

:f(k; \lambda) = \Pr(X{=}k)= \frac{\lambda^k e^{-\lambda}}{k!},


  • k는 발생 횟수(k = 0, 1, 2, \ldots)
  • e는 오일러 수(e = 2.71828\ldots)
  • k! = k(k–1) \cdots (3)(2)(1)는 계승이다.


양의 실수 \lambda는 X의 기댓값과 같으며 분산과도 같다.[2]

:\lambda = \operatorname{E}(X) = \operatorname{Var}(X).

푸아송 분포는 가능한 사건의 수가 많고 각각의 사건이 드문 시스템에 적용될 수 있다. 고정된 시간 간격 동안 발생하는 그러한 사건의 수는, 적절한 상황에서, 푸아송 분포를 따르는 임의의 숫자이다.

평균 사건 수 \lambda 대신 사건이 발생하는 평균 속도 r이 주어지는 경우, \lambda = rt 이고, 다음과 같다.[3]

:P(k \text{ events in interval } t) = \frac{(rt)^k e^{-rt}}{k!}.

상수 \lambda > 0에 대해, 0 이상의 정수를 값으로 갖는 확률 변수 X가

:P(X=k)=\frac{\lambda^k e^{-\lambda}}{k!}

를 만족할 때, 확률 변수 X는 모수 \lambda의 푸아송 분포를 따른다고 한다.

여기서, e는 자연 상수(e = 2.71828\ldots)이며, k!k의 계승을 나타낸다. 또한, \lambda는 주어진 구간 내에서 발생하는 사건의 기대 발생 횟수와 같다.

P(X=k)는 "주어진 시간 동안 평균 \lambda번 발생하는 사건이 정확히 k번(k는 음이 아닌 정수) 발생할 확률"에 해당한다. 예를 들어, 사건이 평균 10분 동안 5번 발생하는 경우, 10분 동안 사건이 발생하는 횟수는 \lambda = 5인 푸아송 분포 모델을 사용하여 구할 수 있다.

4. 성질

푸아송 분포는 다음의 성질을 갖는다.


  • 어떤 단위 구간(예: 1일)을 더 짧은 작은 단위의 구간(예: 1시간)으로 나눌 수 있고, 이러한 더 짧은 단위 구간 중에 어떤 사건이 발생할 확률은 전체 척도 중에서 항상 일정해야 한다.
  • 두 개 이상의 사건이 동시에 발생할 확률은 0에 가깝다.
  • 어떤 단위 구간의 사건 발생은 다른 단위 구간의 발생으로부터 독립적이다.
  • 특정 구간에서의 사건 발생 확률은 그 구간의 크기에 비례한다.
  • P=\operatorname{Pois}(\lambda)에서 P_0=\operatorname{Pois}(\lambda_0)로의 방향성 쿨백-라이블러 발산은 다음과 같다.

::\operatorname{D}_{\text{KL}}(P\parallel P_0) = \lambda_0 - \lambda + \lambda \log \frac{\lambda}{\lambda_0}.

  • 푸아송 확률 변수 X \sim \operatorname{Pois}(\lambda)의 꼬리 확률에 대한 경계는 체르노프 경계 논증을 사용하여 유도할 수 있다.

::P(X \geq x) \leq \frac{(e \lambda)^x e^{-\lambda}}{x^x}, \text{ for } x > \lambda,

::P(X \leq x) \leq \frac{(e \lambda)^x e^{-\lambda} }{x^x}, \text{ for } x < \lambda.

  • \lambda \geq 1이 정수이면, Y\sim \operatorname{Pois}(\lambda)\Pr(Y \geq E[Y]) \geq \frac{1}{2}\Pr(Y \leq E[Y]) \geq \frac{1}{2}를 만족한다.[7]
  • 상위 꼬리 확률은 다음과 같이 더 좁힐 수 있다(최소한 두 배).[8]

:P(X \geq x) \leq \frac{e^{-\operatorname{D}_{\text{KL}}(Q\parallel P)}}{\max{(2, \sqrt{4\pi\operatorname{D}_{\text{KL}}(Q\parallel P)}})}, \text{ for } x > \lambda,

:여기서 \operatorname{D}_{\text{KL}}(Q\parallel P)Q=\operatorname{Pois}(x)에서 P=\operatorname{Pois}(\lambda)로의 쿨백-라이블러 발산이다.

  • 푸아송 확률 변수 X \sim \operatorname{Pois}(\lambda)의 분포 함수를 표준 정규 분포 함수 \Phi(x) 와 관련된 부등식은 다음과 같다.[9]

: \Phi\left(\operatorname{sign}(k-\lambda)\sqrt{2\operatorname{D}_{\text{KL}}(Q_-\parallel P)}\right) < P(X \leq k) < \Phi\left(\operatorname{sign}(k+1-\lambda)\sqrt{2\operatorname{D}_{\text{KL}}(Q_+\parallel P)}\right), \text{ for } k > 0,

:여기서 \operatorname{D}_{\text{KL}}(Q_-\parallel P)Q_-=\operatorname{Pois}(k)에서 P=\operatorname{Pois}(\lambda)로의 쿨백-라이블러 발산이고 \operatorname{D}_{\text{KL}}(Q_+\parallel P)Q_+=\operatorname{Pois}(k+1)에서 P로의 쿨백-라이블러 발산이다.

4. 1. 기술 통계량

푸아송 분포의 기댓값과 분산은 모두 \lambda이다.[73] 즉, 다음과 같다.

:\operatorname{E} [X] = \lambda ,

:\operatorname{V} [X] = \lambda .

푸아송 분포의 최빈값\lambda 이하의 최댓값인 정수이다.

n차 계승 적률은 \operatorname{E} [X(X-1) \dotsm (X-n+1)]=\lambda^n이다.

n차 큐뮬런트 \kappa_n는 모두 평균 \lambda와 같다.

:\kappa_n = \left. \frac{\partial^n}{\partial t^n} \log \bigl( M_X(t) \bigr) \right\vert_{t=0} =\lambda.

고차 적률은 \lambda에 대한 투샤르 다항식으로 표현된다.

:m_k = \sum_{i=0}^k \lambda^i \begin{Bmatrix} k \\ i \end{Bmatrix},

여기서 중괄호 { }는 제2종 스털링 수를 나타낸다.

간단히 표현하면 다음과 같다.

:E[X] = \lambda, \quad E[X(X-1)] = \lambda^2, \quad E[X(X-1)(X-2)] = \lambda^3, \cdots

4. 2. 기타 성질

푸아송 분포는 무한 분할 가능한 확률 분포이다. 푸아송 분포는 재생성을 가진다. 즉, 서로 독립인 두 확률 변수 X와 Y가 각각 매개변수 λ, μ의 푸아송 분포를 따르면, 확률 변수의 합 X + Y는 매개변수 λ + μ의 푸아송 분포를 따른다.[2]

5. 다른 분포와의 관계


  • 독립적인 두 푸아송 확률변수 X_1 \sim \mathrm{Pois}(\lambda_1)\,X_2 \sim \mathrm{Pois}(\lambda_2)\,의 차이는 스켈람 분포를 따른다.
  • X_1 \sim \mathrm{Pois}(\lambda_1)\,이고 X_2 \sim \mathrm{Pois}(\lambda_2)\,가 독립적일 때, X_1+X_2=k이면 X_1의 조건부 분포는 이항 분포 X_1| X_1+X_2=k\sim \mathrm{Binom}(k, \lambda_1/(\lambda_1+\lambda_2))이다.
  • X \sim \mathrm{Pois}(\lambda)\,이고 X=k일 때 Y의 조건부 분포가 이항 분포 Y \mid (X = k) \sim \mathrm{Binom}(k, p)라면, Y는 푸아송 분포 Y \sim \mathrm{Pois}(\lambda \cdot p)를 따른다.
  • 푸아송 분포는 단변량 다항 분포의 극한 분포에서 유도 가능한 이산 복합 푸아송 분포(또는 말더듬이 푸아송 분포)의 특수한 경우이며, 복합 푸아송 분포의 특수한 경우이기도 하다.
  • \lambda가 충분히 크면(예: 1000 초과), 평균 \lambda 및 분산 \lambda (표준 편차 \sqrt{\lambda})을 갖는 정규 분포는 푸아송 분포의 좋은 근사이다. \lambda가 약 10보다 크면, 연속성 수정을 통해 정규 분포 근사가 가능하다.
  • 분산 안정 변환: X \sim \mathrm{Pois}(\lambda)이면 Y = 2 \sqrt{X} \approx \mathcal{N}(2\sqrt{\lambda};1)이고 Y = \sqrt{X} \approx \mathcal{N}(\sqrt{\lambda};1/4)이다. 이 변환은 정규성 수렴을 빠르게 한다. Anscombe 변환 등 다른 분산 안정 변환도 사용 가능하다.
  • 시간 간격 [0, ''t'']에서 도착 수가 평균 ''λt''인 푸아송 분포를 따르면, 도착 간 시간은 평균 1/''λ''인 독립적이고 동일하게 분포된 지수 분포를 따른다.
  • 푸아송 분포와 카이제곱 분포누적 분포 함수는 다음과 같이 관련된다.
  • F_\text{Poisson}(k;\lambda) = 1-F_{\chi^2}(2\lambda;2(k+1)) \quad\quad \text{ 정수 } k,
  • P(X=k)=F_{\chi^2}(2\lambda;2(k+1)) -F_{\chi^2}(2\lambda;2k)

5. 1. 이항 분포

푸아송 분포는 시행 횟수가 무한히 많아지고 예상 성공 횟수가 고정되어 있으므로 이항 분포의 극한 사례라고 볼 수 있다. n이 충분히 크고 p가 충분히 작으면 이항 분포의 정규 근사로 이끌어 낼 수 있다. F_BF_P를 각각 베르누이 분포와 푸아송 분포의 확률 질량 함수라고 하면, 다음과 같은 관계가 나타난다.

:F_B(k; n,p)\approx F_P(k; \lambda=np )

이 식을 도출하는 데에는 확률 생성 함수를 사용한다. 베르누이 시도에서 한 번의 성공 확률을 \lambda \leq 1이라고 가정하고 각 간격을 n으로 하여 이항 분포로 나타낼 수 있다.

:P_k^{(n)}=\binom{n}{k}\left ( \frac{\lambda}{n} \right )^k\left ( 1- \frac{\lambda}{n} \right )^{n-k}

이 함수의 생성 함수는 다음과 같다.

:P^{(n)}(x)=\sum_{k=0}^n p_k^{(n)}x^k=\sum_{k=0}^n\binom{n}{k}\left ( \frac{\lambda}{n} \right )^k\left ( 1- \frac{\lambda}{n} \right )^{n-k}x^k=\sum_{k=0}^n\binom{n}{k}\left ( x \frac{\lambda}{n} \right )^k\left ( 1- \frac{\lambda}{n} \right )^{n-k}=(1-\frac{\lambda}{n}+ \frac{\lambda}{n}x)^n

여기에서 n\infty로 보내고 곱셈의 극한 정의를 지수 함수로 바꾸면 푸아송 분포의 생성함수로 바뀌게 된다.

:\lim_{n \to \infty}P^{(n)}(x)=\lim_{n \to \infty} \left ( 1+ \frac{\lambda(x-1)}{n} \right )^n =e^{\lambda(x-1)} =\sum_{k=0}^\infty \frac{e^{-\lambda}\lambda^k}{k! }x^k

모수가 np = \lambda / n이항 분포에서, \lambda를 일정하게 유지하면서 n을 무한대로 접근시키면, 그 분포는 평균 \lambda인 푸아송 분포에 접근한다. 즉,

:\lim_{\lambda=np,~n\to\infty} \binom{n}{k} p^k (1-p)^{n-k} = \frac{\lambda^k e^{-\lambda}}{k!}

가 성립한다. 이것을 '''푸아송의 극한 정리'''라고 한다. 이 정리는 수학자 시메옹 드니 푸아송이 1837년에 저서 « Recherches sur la probabilite des jugements »|프랑스어: Recherches sur la probabilite des jugements프랑스어 (Researches on the Probabilities|영어: Researches on the Probabilities영어)[76]에서 결과를 제시한 데에서 유래한다. 이 책에서 이항 분포의 극한으로서 푸아송 분포가 처음으로 유도되었다.

유도 과정의 자세한 내용은 다음과 같다. 계산에는 다음 관계식을 사용한다.

:\lim_{n\to\infty} \left( 1-\frac{\lambda}{n} \right)^n =e^{-\lambda} .

여기서 p = \lambda / n라고 하면,

:\begin{align}

\lim_{n\to\infty} P(X=k) &=\lim_{n\to\infty} \binom{n}{k} p^k (1-p)^{n-k} \\

&=\lim_{n\to\infty} \frac{n!}{(n-k)! \, k!} \left( \frac{\lambda}{n} \right)^k \left( 1 - \frac{\lambda}{n} \right)^{n-k} \\

&=\lim_{n\to\infty} \underbrace{

\left( \frac{n}{n} \right)

\left( \frac{n-1}{n} \right)

\left( \frac{n-2}{n} \right)

\dotsm

\left( \frac{n-k+1}{n} \right)

}

\underbrace{\left( \frac{\lambda^k}{k!} \right)}

\underbrace{\left( 1 - \frac{\lambda}{n} \right)^n}

\underbrace{\left( 1 - \frac{\lambda}{n} \right)^{-k}}.

\end{align}

n을 무한대로 접근시키면, 4개의 밑줄 부분 중 첫 번째 밑줄 부분은 1에 접근한다. 두 번째 밑줄 부분에는 n이 나타나지 않으므로 그대로이다. 세 번째 밑줄 부분은 e^{-\lambda}에 접근한다. 마지막 밑줄 부분은 1에 접근한다.

따라서 극한은 존재하며,

:\frac{\lambda^k e^{-\lambda}}{k!}

가 된다.

5. 2. 일반적 사항

푸아송 분포의 일반적인 특성은 다음과 같다:

  • 두 개의 독립적인 푸아송 확률변수 X_1, X_2의 차이는 스켈람 분포를 따른다.
  • X_1, X_2가 독립이고 푸아송 분포를 따를 때, X_1 + X_2 = k라는 조건이 주어지면 X_1의 조건부 분포는 이항 분포를 따른다: X_1|X_1+X_2=k \sim Binomial\left ( k, \frac{\lambda_1}{\lambda_1+\lambda_2} \right ).
  • 일반화하면, 독립적인 푸아송 확률변수 X_1, X_2, ..., X_n (각각 매개변수 \lambda_1, \lambda_2,..., \lambda_n를 가짐)에 대해, X_i|\sum_{j=i}^n X_j=k\sim Binom \left ( k,\frac{\lambda_i}{\sum_{j=1}^n\lambda_j} \right )가 성립한다.
  • 더 나아가, 조건부분포는 다항 분포로 표현될 수 있다: X_i \sim Multinom\left ( k,\frac{\lambda_i}{\sum_{j=1}^n\lambda_j} \right ).
  • X \sim Pois(\lambda)이고 X=k일 때, Y의 조건부 분포가 Y| (X=k) \sim B(k,p)이면, Y는 푸아송 분포 Y \sim Pois(\lambda p)를 따른다.
  • \{X = k\}에 대해 조건부로 \{Y_i\}다항 분포 \{Y_i\} \mid (X = k) \sim \mathrm{Multinom}\left(k, p_i\right),를 따르면, 각 Y_i는 독립적인 푸아송 분포 Y_i \sim \mathrm{Pois}(\lambda \cdot p_i), \rho(Y_i, Y_j) = 0.를 따른다.
  • 제곱근 변환: X \sim Pois(\lambda)인 경우, Y=2 \sqrt{X} \approx N(2\sqrt{\lambda} ,1) 또는 Y=\sqrt{X} \approx N(\sqrt{X};1/4)로 근사할 수 있다. 이 변환은 변환 전보다 정규성에 더 빠르게 수렴한다. 앤스컴 변환을 포함한 다른 분산 안정화 변환도 사용 가능하다.
  • 시간 간격 [0,t] 내의 도착 횟수가 평균 \lambda t인 푸아송 분포를 따르면, 도착 간 시간 간격은 평균 1/\lambda인 독립적이고 동일한 지수 분포를 따른다.
  • 푸아송 분포와 카이제곱 분포의 누적 분포 함수는 다음과 같은 관계를 가진다:
  • F_{poisson}(k;\lambda )=1-F_{x^2}(2 \lambda ;2(k+1)) (k는 정수)
  • P(X=k)=F_{x^2}(2 \lambda;2(k+1))-F_{x^2}(2 \lambda;2k)
  • 이산 확률 변수 X는 모수 \lambda>0를 갖는 푸아송 분포를 따르며, 확률 질량 함수는 다음과 같다:

:f(k; \lambda) = \Pr(X{=}k)= \frac{\lambda^k e^{-\lambda}}{k!},

  • 여기서
  • k는 발생 횟수 (k = 0, 1, 2, \ldots)
  • e는 오일러 수 (e = 2.71828\ldots)
  • k! = k(k–1) \cdots (3)(2)(1)는 계승
  • 양의 실수 \lambdaX기댓값분산과 같다:

:\lambda = \operatorname{E}(X) = \operatorname{Var}(X).

  • 푸아송 분포는 사건의 수가 많고 각 사건이 드문 경우에 적용할 수 있다.
  • 평균 사건 수 \lambda 대신 사건 발생 평균 속도 r이 주어지면, \lambda = rt 이고,

:P(k \text{ events in interval } t) = \frac{(rt)^k e^{-rt}}{k!}.

  • 푸아송 확률 변수의 기댓값과 분산은 모두 \lambda이다.
  • 변동 계수 \lambda^{-1/2},이며, 산포 지수는 1이다.
  • 평균에 대한 평균 절대 편차\operatorname{E}[\ |X-\lambda|\ ]= \frac{2 \lambda^{\lfloor\lambda\rfloor + 1} e^{-\lambda}}{\lfloor\lambda\rfloor!}.
  • 정수가 아닌 \lambda를 갖는 푸아송 분포 확률 변수의 최빈값\lfloor \lambda \rfloor (바닥 함수)이다. \lambda가 양의 정수이면 최빈값은 \lambda\lambda - 1이다.
  • 푸아송 분포의 모든 큐뮬런트는 기댓값 \lambda와 같다. n번째 계승 적률은 \lambda^n이다.
  • 푸아송 과정의 기댓값은 "강도"와 "노출"의 곱으로 표현되기도 한다.
  • 평균 \lambda를 갖는 일반화된 이항 분포 집합 B_n(\lambda) 중에서 최대 엔트로피 분포이다.
  • 푸아송 분포는 단변량 다항 분포의 극한 분포로부터 유도될 수 있는 이산 복합 푸아송 분포(또는 말더듬이 푸아송 분포)의 특수한 경우이다. 또한 복합 푸아송 분포의 특수한 경우이기도 하다.
  • \lambda가 충분히 크면(>1000), 평균과 분산이 \lambda정규 분포가 푸아송 분포의 좋은 근사이다. \lambda가 10보다 크면, 연속성 수정을 통해 정규 분포 근사가 가능하다.

5. 3. 정규 분포

가 충분히 클 경우(예: )에는 평균 와 표준 편차 를 갖는 정규 분포가 푸아송 분포의 근사값으로 사용될 수 있다. 대략 정도일 경우, 적절한 연속 분포에 대한 수정이 이루어진다면 정규 분포는 이 푸아송 분포에 대한 좋은 근사값을 제공한다. 예를 들어, 에 대해, 가 음이 아닌 정수라면, 로 대체할 수 있다.

6. 응용

푸아송 분포는 다음과 같은 다양한 현상들을 모델링하는 데 사용된다.[4]


  • 주어진 일정 시간 동안에 도착한 고객의 수
  • 1킬로미터 도로에 있는 흠집의 수
  • 주어진 일정 생산시간 동안 발생하는 불량 수
  • 하룻동안 발생하는 출생자 수
  • 어떤 시간 동안 톨게이트를 통과하는 차량의 수
  • 어떤 페이지 하나를 완성하는 데 발생하는 오타의 발생률
  • 어떤 특정 량의 방사선을 DNA에 쬐였을 때 발생하는 돌연변이의 수
  • 어떤 특정 면적의 다양한 종류의 나무가 섞여 자라는 삼림에서 소나무의 수
  • 어떤 특정 진도 이상의 지진이 발생하는 수
  • 1년 동안 지구에 떨어지는 지름 1미터 이상의 유성 개수
  • 특정 시간 간격 동안 검출기에 도달하는 레이저 광자 수
  • 시험에서 낮은 점수와 높은 점수를 얻는 학생 수
  • 재료 내 결함 및 전위의 위치


공간에서 임의의 점이 발생하는 예로는 지구에 대한 소행성 충돌 위치(2차원), 재료의 불완전성 위치(3차원), 숲 속 나무의 위치(2차원) 등이 있다.

푸아송 분포는 다음과 같은 계수 데이터 (사건의 수)에도 적용될 수 있다.

  • 통신공학: 시스템에 도착하는 전화 통화
  • 천문학: 망원경에 도달하는 광자
  • 화학: 리빙 중합의 몰 질량 분포
  • 생물학: 단위 길이당 DNA 가닥의 돌연변이 수
  • 경영학: 카운터 또는 콜센터에 도착하는 고객
  • 금융 및 보험: 특정 기간 동안 발생하는 손실 또는 청구 건수
  • 지진학: 대형 지진에 대한 위험의 점근적 푸아송 모델
  • 방사능: 방사성 샘플에서 주어진 시간 간격 동안의 붕괴
  • 광학: 단일 레이저 펄스에서 방출되는 광자 수 (양자 암호 분배 프로토콜의 주요 취약점, 광자 수 분할로 알려짐)


푸아송 과정으로 모델링될 수 있는 추가적인 예시는 다음과 같다.

  • 프로이센 기병대의 각 군단에서 매년 말에 말 발굽에 맞아 죽은 병사 ( Ladislaus Bortkiewicz의 책에서 사용)
  • 기네스 맥주를 양조할 때 사용되는 효모 세포 ( 윌리엄 실리 고셋이 사용)
  • 1분 안에 콜센터에 도착하는 전화 통화 (아그너 크라루프 에를랑이 설명)
  • 두 개의 경쟁 팀이 참여하는 스포츠에서의 골
  • 특정 연령대의 연간 사망자 수
  • 특정 시간 간격 동안 주가 변동
  • 웹 서버가 분당 접속되는 횟수 (균질성을 가정할 경우)
  • 특정량의 방사선 조사 후 DNA의 특정 부분에서 발생하는 돌연변이
  • 특정 감염 배수에서 감염된 세포
  • 특정 양의 액체에 있는 박테리아
  • 특정 기간 동안 특정 조명에서 픽셀 회로에 도달하는 광자
  • 제2차 세계 대전 중 런던에 V-1 비행 폭탄이 착륙한 사건 (1946년 R. D. Clarke가 조사)


푸아송 분포는 이산적인 자연 현상(주어진 영역 또는 시간 내에 0회, 1회, 2회, 3회… 와 같이 발생하는 현상)과 관련되며, 현상 발생 확률은 시간 또는 공간 내에서 일정하다. 또한, 시간 또는 공간에서의 발생 간격은 지수 분포를 따른다.

푸아송 분포가 적용되는 구체적인 예시는 다음과 같다.

  • 1시간 동안 특정 교차로를 통과하는 차량의 대수
  • 1밀리리터의 희석된 물 시료에 포함된 특정 세균의 수[74] (세균 수 검사에서의 최확법)
  • 단위 면적당의 빗방울 수
  • 1페이지의 문장을 입력할 때 오타를 내는 횟수
  • 하루 동안 수신하는 전자 메일의 건수
  • 1시간당 걸려오는 전화의 건수
  • 일정 시간 동안의 가게 방문객 수
  • 1분당 웹 서버로의 접속 횟수
  • * 예를 들어, 1시간당 위키백과의 최근 바뀐 문서의 편집 횟수도 대체로 푸아송 분포를 따른다.
  • 1킬로미터당의 특정 거리의 레스토랑의 수
  • 1헥타르당의 가문비나무의 수
  • 1입방 광년당의 항성의 수
  • 단위 시간당 방사선의 계측치인 분당 카운트나 초당 카운트 (반감기에 의한 감쇠나 외부로부터의 방사능 등에 의한 변동이 없다고 가정)

7. 푸아송 가정에 어긋나는 사례

1분마다 학생회관에 도착할 학생들의 수는 푸아송 분포를 따르지 않을 수 있다. 왜냐하면, 그 비율이 일정하지 않기 때문이다. (수업 중에는 그 비율이 낮고, 쉬는 시간에는 그 비율이 높을 것이다.) 또, 각 학생들의 도착 사건이 독립적이지 않다. (학생들은 보통 그룹지어서 이동하는 경향이 있다) 매년 캘리포니아에서 진도 5의 지진 발생 수는 푸아송 분포를 따르지 않을 것이다. 왜냐하면 한 번의 지진이 그 다음 일어날 지진의 가능성에 영향을 끼치기 때문이다.[1]

8. 푸아송 과정

는 단위 시간당 사건의 평균 발생 횟수 등 비율로 간주될 수 있으며, '''도착률'''이라고 불린다. 이때, 를 시각 이전에 발생한 사건의 횟수라고 하면,

:P(N_t=k)=\frac{e^{-\lambda t} (\lambda t)^k}{k!}

을 만족하는 확률 과정을 '''푸아송 과정'''이라고 한다. 첫 번째 사건이 발생하기까지의 대기 시간 는 지수 분포에 따른 연속 확률 변수이다. 이 확률 분포는 다음과 같이 유도할 수 있다.

:P(T>t)=P(N_t =0).

시간을 포함하는 경우, 즉 1차원 푸아송 과정에서는 각 시간 내에 사건이 발생하는 횟수를 확률 변수로 하는 이산 푸아송 분포와 대기 시간을 확률 변수로 하는 연속 얼랑 분포를 모두 포함한다. 1보다 높은 차원의 푸아송 과정에 대해서도 마찬가지이다.

참조

[1] 서적 Introduction to Probability Models Academic Press
[2] 웹사이트 Proof wiki: expectation proofwiki:Expectatio[...]
[2] 웹사이트 Proof wiki: variance proofwiki:Variance o[...]
[3] 서적 Statistical Physics of Particles Cambridge University Press
[4] 서적 A Modern Introduction to Probability and Statistics https://doi.org/10.1[...] 2005
[5] 학술지 Sharp and simple bounds for the raw moments of the Binomial and Poisson distributions
[6] 학술지 Binomial and Poisson distributions as maximum entropy distributions 2001-07-01
[7] 서적 Probability and computing: Randomization and probabilistic techniques in algorithms and data analysis 2017
[8] 학술지 Improved Inequalities for the Poisson and Binomial Distribution and Upper Tail Quantile Functions
[9] 학술지 Improved Inequalities for the Poisson and Binomial Distribution and Upper Tail Quantile Functions
[10] 서적 An Introduction to Probability Theory and its Applications
[11] 웹사이트 1.7.7 – Relationship between the Multinomial and Poisson | STAT 504 https://newonlinecou[...] 2019-08-06
[12] 서적 Free Random Variables American Mathematical Society
[13] 서적 Lectures on the Combinatorics of Free Probability https://rolandspeich[...] Cambridge University Press
[14] 서적 Lectures on the Combinatorics of Free Probability http://rolandspeiche[...] Cambridge Univ. Press
[15] 웹사이트 Maximum likelihood estimation – examples http://cnx.org/conte[...]
[16] 서적 Detection estimation and modulation theory. https://www.worldcat[...] 2013
[17] 학술지 Estimation in Poisson noise: Properties of the conditional mean estimator 2020
[18] 학술지 The statistical nature of the acetylcholine potential and its molecular components http://dx.doi.org/10[...] 1972-08-01
[19] 서적 Physical models of living systems https://www.worldcat[...] W.H. Freeman & Company, a Macmillan Education Imprint 2015
[20] 간행물 DNA Repair, Part B Academic Press 2006-01-01
[21] 웹사이트 Wolfram Language: PoissonDistribution reference page http://reference.wol[...] 2016-04-08
[22] 웹사이트 Wolfram Language: MultivariatePoissonDistribution reference page http://reference.wol[...] 2016-04-08
[23] 서적 Handbook of the Poisson Distribution John Wiley & Sons
[24] 서적 Probabilité des jugements en matière criminelle et en matière civile, précédées des règles générales du calcul des probabilités https://gallica.bnf.[...] Bachelier
[25] 서적 Probability and Statistics with R CRC Press
[26] 학술지 De mensura sortis, seu, de probabilitate eventuum in ludis a casu fortuito pendentibus
[27] 서적 The Doctrine of Chances: Or, A Method of Calculating the Probability of Events in Play https://books.google[...] W. Pearson
[28] 서적 The Philosophical Transactions from the Year MDCC (where Mr. Lowthorp Ends) to the Year MDCCXX. Abridg'd, and Dispos'd Under General Heads R. Wilkin, R. Robinson, S. Ballard, W. and J. Innys, and J. Osborn
[29] 서적 Univariate Discrete Distributions John Wiley & Sons, Inc.
[30] 학술지 KFAS: Exponential Family State Space Models in R 2017
[31] 학술지 Poisson on the Poisson Distribution
[32] 학술지 A. de Moivre: 'De Mensura Sortis' or 'On the Measurement of Chance'
[33] 학술지 Notes on the theory of probabilities https://babel.hathit[...]
[34] 서적 Das Gesetz der kleinen Zahlen https://digibus.ub.u[...] B.G. Teubner
[35] 서적 Testing Statistical Hypotheses Springer Verlag
[36] 서적 Probability and Stochastic Processes: A Friendly Introduction for Electrical and Computer Engineers Wiley
[37] 논문 On the medians of gamma distributions and an equation of Ramanujan
[38] 논문 Moment Recurrence Relations for Binomial, Poisson and Hypergeometric Frequency Distributions https://projecteucli[...]
[39] 논문 On the decomposition of Poisson laws
[40] 서적 Mathematical Theory of Probability and Statistics Academic Press
[41] 학회발표 Optimal haplotype assembly from high-throughput mate-pair reads 2015-06-14
[42] 서적 Probability Theory John Wiley & Sons
[43] 서적 Probability and Computing: Randomized Algorithms and Probabilistic Analysis Cambridge University Press
[44] 서적 e-Handbook of Statistical Methods NIST/SEMATECH 2019-09-20
[45] 논문 Notes on discrete compound Poisson model with applications to risk theory
[46] 논문 Characterizations of discrete compound Poisson distributions
[47] 서적 Generalized Linear Models Chapman and Hall
[48] 논문 The transformation of Poisson, binomial and negative binomial data
[49] 서적 Introduction to Probability Models Academic Press
[50] 학회발표 The Poisson Process as a Model for a Diversity of Behavioural Phenomena http://www.rasch.org[...] American Psychological Association
[51] 논문 Molecular Size Distribution in Ethylene Oxide Polymers
[52] 서적 Fundamentals of Earthquake Prediction John Wiley & Sons
[53] 논문 On the error of counting with a haemacytometer https://zenodo.org/r[...]
[54] 논문 A biographical glimpse of William Sealy Gosset
[55] 논문 Sandsynlighedsregning og Telefonsamtaler
[56] 웹사이트 Football Prediction Model: Poisson Distribution http://www.sportsbet[...] Sports Betting Online 2014-09-19
[57] 논문 Do bacterial cell numbers follow a theoretical Poisson distribution? Comparison of experimentally obtained numbers of single cells with random number generation via computer simulation
[58] 논문 An application of the Poisson distribution https://www.actuarie[...]
[59] 논문 On the distribution of primes in short intervals
[60] 논문 On some problems of "partitio numerorum" III: On the expression of a number as a sum of primes
[61] 서적 Regression Analysis of Count Data https://books.google[...] Cambridge University Press
[62] 논문 On the use of the theory of probabilities in statistics relating to society https://zenodo.org/r[...]
[63] 서적 Seminumerical Algorithms Addison Wesley
[64] 서적 Non-Uniform Random Variate Generation http://luc.devroye.o[...] Springer-Verlag
[65] 논문 Fiducial Limits for the Poisson Distribution
[66] 서적 Statistical Methods in Cancer Research http://www.iarc.fr/e[...] International Agency for Research on Cancer 2012-03-11
[67] 서적 A Compendium of Conjugate Priors
[68] 서적 Bayesian Data Analysis Chapman & Hall/CRC
[69] 논문 Simultaneous estimation of the means of independent Poisson laws
[70] 서적 Statistical Decision Theory and Bayesian Analysis Springer-Verlag
[71] 논문 The Index of Dispersion Test for the Bivariate Poisson Distribution
[72] 웹사이트 指数分布とポアソン分布のいけない関係 https://www.slidesha[...] SlideShare 2012-01-28
[73] 보고서 二項分布と Poisson 分布の平均・分散 https://web.archive.[...]
[74] 논문 Do bacterial cell numbers follow a theoretical Poisson distribution? Comparison of experimentally obtained numbers of single cells with random number generation via computer simulation https://www.scienced[...] 2016-12-01
[75] 서적 Das Gesetz der kleinen Zahlen http://ia600201.us.a[...] Leipzig Druck und Verlag von B.G.Teubner
[76] 서적 Recherches sur la probabilité des Jugements http://ia600404.us.a[...] Bacheliar, Impremeur-Libraire.
[77] 서적 Probabilité des jugements en matière criminelle et en matière civile, précédées des règles générales du calcul des probabilitiés Bachelier 1837



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com