굼벨 분포

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

굼벨 분포는 극치 분포의 유형 I에 해당하는 확률 분포로, 누적 분포 함수와 확률 밀도 함수를 통해 정의된다. 최빈값, 중앙값, 평균, 표준 편차 등의 성질을 가지며, 오일러-마스케로니 상수와 관련이 있다. 표준 굼벨 분포는 μ = 0, β = 1인 경우를 말하며, 관련 분포로 곰페르츠 분포, 지수 분포, 로지스틱 분포 등이 있다. 수문학, 정수론, 기계 학습 등 다양한 분야에서 응용되며, 난수 생성에도 활용된다.

굼벨 분포

📚 더 읽어볼만한 페이지

연속분포 - 로그 정규 분포
로그 정규 분포는 확률 변수 X의 로그가 정규 분포를 따르며, 양의 실수 값을 갖고 평균 μ와 표준 편차 σ를 매개변수로 갖는 확률 분포이다.
연속분포 - 연속균등분포
특정 구간 내 모든 값이 동일한 확률을 갖는 연속 균등 분포는 통계학, 금융, 물리 등에서 활용되며 난수 생성과 표본 추출에 유용하다.

1. 개요
2. 정의
- 2.1. 표준 굼벨 분포
3. 성질
- 3.1. 모멘트 생성 함수 및 특성 함수
- 3.2. iid 굼벨 확률 변수의 극값
4. 관련 분포
5. 응용
6. 난수 생성

2. 정의

굼벨 분포의 누적 분포 함수는 다음과 같다.

: $F(x;\mu,\beta) = e^{-e^{-(x-\mu)/\beta}}\,$

상수 와 양의 상수 에 대해, 확률 변수 의 분포 함수 가
: $F(x)=\exp \left[ -\exp \left\{ -\left( \frac{x-\mu}{\eta} \right) \right\} \right] ,\quad -\infty$
로 주어질 때, 확률 변수 는 굼벨 분포를 따른다고 한다. 이때, 대응하는 확률 밀도 함수 는
: $f(x)=\frac{1}{\eta} \exp \left\{ -\left( \frac{x-\mu}{\eta} \right) \right\} \exp \left[ -\exp \left\{ -\left( \frac{x-\mu}{\eta} \right) \right\} \right] ,\quad -\infty$
이다. 굼벨 분포는 극치 분포의 유형 I에 해당한다.

2.1. 표준 굼벨 분포

표준 굼벨 분포는 위치 매개변수 $\mu = 0$ 이고 척도 매개변수 $\beta = 1$ 인 경우이다. 이때 누적 분포 함수는 다음과 같다.

: $F(x) = e^{-e^{(-x)}}\,$

확률 밀도 함수는 다음과 같다.

: $f(x) = e^{-(x+e^{-x})}.$

표준 굼벨 분포의 최빈값은 0, 중앙값은 $-\ln(\ln(2)) \approx 0.3665$ , 평균은 $\gamma\approx 0.5772$ (오일러-마스케로니 상수), 표준 편차는 $\pi/\sqrt{6} \approx 1.2825$ 이다.

n > 1일 때 큐뮬런트는 다음과 같다.

: $\kappa_n = (n-1)! \zeta(n).$

3. 성질

굼벨 분포의 최빈값은 μ이고, 중앙값은 $\mu-\beta \ln\left(\ln 2\right)$ 이며, 평균은 $\mu+\gamma\beta$ 이다. 여기서 $\gamma$ 는 오일러-마스케로니 상수이다. 표준 편차 $\sigma$ 는 $\beta \pi/\sqrt{6}$ 이며, 따라서 $\beta = \sigma \sqrt{6} / \pi \approx 0.78 \sigma$ 이다.

최빈값( $x = \mu$ )에서 $F(x;\mu,\beta)$ 의 값은 $e^{-1} \approx 0.37$ 로, $\beta$ 값에 관계없이 일정하다.

만약 $G_1, G_2,...$ 가 모든 자연수 $k$ 에 대해 $\max\{G_1,...,G_k\}-\beta\ln k$ 가 $G_1$ 과 동일한 분포를 갖는 독립 동일 분포(iid) 확률 변수라면, $G_1$ 은 반드시 척도 매개변수 $\beta$ 를 갖는 굼벨 분포를 따른다.

큐뮬런트는 n > 1에 대해 $\kappa_n = (n-1)! \zeta(n)$ 이다. (ζ(n)는 리만 제타 함수)

3.1. 모멘트 생성 함수 및 특성 함수

확률 변수를 $X$ 라고 할 때, 모멘트 생성 함수 $M_X (t)$ 는 다음과 같이 주어진다.

: $M_X (t)=e^{\mu t} \Gamma (1-\eta t)\quad \biggl( t<\frac{1}{\eta} \biggr)$

여기서 $\Gamma (x)$ 는 감마 함수를 나타낸다.

또한, 특성 함수 $\phi_X (t)$ 는 다음과 같이 주어진다.

: $\phi_X (t)=M_X (it)=e^{i\mu t} \Gamma (1-i\eta t)$

3.2. iid 굼벨 확률 변수의 극값

$G_1, ..., G_k$ 가 매개변수 $(\mu, \beta)$ 를 갖는 독립 동일 분포(iid) 굼벨 확률 변수라면, $\max\{G_1, ..., G_k\}$ 역시 매개변수 $(\mu + \beta \ln k, \beta)$ 를 갖는 굼벨 확률 변수이다.

4. 관련 분포

* 만약 $X$ 가 굼벨 분포를 따른다면, Y = −X가 양수라는 조건, 또는 동등하게 X가 음수라는 조건 하에서의 조건부 분포는 곰페르츠 분포를 따른다. Y의 누적 분포 함수(cdf) G는 X의 cdf F와 다음 공식으로 관련된다. $G(y) = P(Y \le y) = P(X \ge -y \mid X \le 0) = (F(0)-F(-y))/F(0)$ , 여기서 y > 0이다. 결과적으로, 확률 밀도 함수는 $g(y) = f(-y)/F(0)$ 로 관련된다. 즉, 곰페르츠 밀도 함수는 양의 반직선으로 제한된 반사된 굼벨 밀도 함수에 비례한다.
* 만약 X가 평균이 1인 지수 분포를 따르는 변수라면, −log(X)는 표준 굼벨 분포를 따른다.
* 만약 $X \sim \mathrm{Gumbel}(\alpha_X, \beta)$ 이고 $Y \sim \mathrm{Gumbel}(\alpha_Y, \beta)$ 가 독립적이라면, $X-Y \sim \mathrm{Logistic}(\alpha_X-\alpha_Y,\beta) \,$ (로지스틱 분포 참조).
* 독립적인 굼벨 확률 변수의 선형 결합 분포는 GNIG 및 GIG 분포로 근사될 수 있다.
* 일반화된 다변량 로그 감마 분포와 관련된 이론은 굼벨 분포의 다변량 버전을 제공한다.
* 다항 로짓 모델(이산 선택 이론에서 일반적)의 잠재 변수의 공식화에서는, 잠재 변수의 오차는 굼벨 분포를 따르며, 굼벨 분포를 갖는 두 확률 변수의 차이는 로지스틱 분포가 된다.

5. 응용

수문학에서 굼벨 분포는 일일 강우량과 하천 방류량의 월별 및 연간 최대값과 같은 변수를 분석하고, 가뭄을 설명하는 데에도 사용된다. 굼벨은 또한 사건의 확률에 대한 추정량이 분포의 최빈값 주변 누적 확률의 무편향 추정량임을 보여주었다.

정수론에서 굼벨 분포는 임의 정수 분할의 항 수, 최대 소수 간격 및 소수 별자리 간의 최대 간격의 추세 조정 크기를 근사한다. 쿠폰 수집가 문제에도 굼벨 분포가 나타난다.

기계 학습에서 굼벨 분포는 범주형 분포로부터 표본을 생성하기 위한 "굼벨-맥스 트릭"이라는 재매개변수화 기법에 사용된다.

굼벨 분포는 특정 하천의 연간 최대 수위 데이터가 지난 10년간의 기록만 있다면, 내년의 최대 수위를 확률 분포 형태로 예측할 수 있게 돕는다. 또한 드물게 발생하는 지진이나 홍수 등의 자연 재해가 발생할 확률을 예측하는 데에도 사용된다. 샘플 데이터의 분포가 정규형 또는 지수형인 경우, 굼벨 분포는 극값 이론에서 이러한 예측에 유용하다.

6. 난수 생성

굼벨 분포의 분위수 함수(역 누적 분포 함수) $Q(p)$ 는 다음과 같다.

: $Q(p)=\mu-\beta\ln(-\ln(p)),$

구간 $(0,1)$ 에서 균등 분포로부터 추출된 난수 $U$ 에 대해, 변량 $Q(U)$ 는 매개변수 $\mu$ 와 $\beta$ 를 갖는 굼벨 분포를 따른다.