두터운 꼬리 분포
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
두터운 꼬리 분포는 확률 변수의 누적 분포 함수가 특정 조건을 만족하는 확률 분포를 의미한다. 긴 꼬리 분포, 부분 지수 분포와 같은 관련 개념들이 있으며, 모든 긴 꼬리 분포는 두터운 꼬리 분포에 속한다. 두터운 꼬리 분포의 예시로는 파레토 분포, 코시 분포 등이 있으며, 꼬리 지수 추정에는 모수적, 비모수적 접근 방식이 사용된다. 꼬리가 두꺼운 분포는 팻 테일 분포와 밀접한 관련이 있으며, C 언어를 이용한 꼬리 지수 추정 도구도 존재한다.
더 읽어볼만한 페이지
- 위험성 - 취약성
- 위험성 - 보안 취약점
보안 취약점은 시스템의 설계, 구현, 운영, 관리상 결함이나 약점으로, 위협에 의해 악용되어 시스템 보안 정책을 위반할 수 있는 요소이며, ISO 27005, IETF RFC 4949, NIST SP 800-30, ENISA 등 다양한 기관에서 정의하고 있다. - 보험계리학 - 회귀 분석
회귀 분석은 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링하고 분석하는 통계적 기법으로, 최소 제곱법 개발 이후 골턴의 연구로 '회귀' 용어가 도입되어 다양한 분야에서 예측 및 인과 관계 분석에 활용된다. - 보험계리학 - 예측 분석
예측 분석은 통계학, 기계 학습 등의 분석 기법을 활용하여 과거 및 현재 데이터를 토대로 미래의 사건이나 결과를 예측하는 방법론으로, 다양한 분야에서 의사 결정 지원 및 위험 관리 등에 활용되지만, 인간 행동의 복잡성으로 인한 예측 불가능성에 대한 비판도 존재한다.
| 두터운 꼬리 분포 | |
|---|---|
| 분포 정보 | |
| 유형 | 확률 분포 |
| 밀도 함수 | '다음을 만족하는 확률 변수 X에 대해 꼬리가 두꺼운 분포를 갖는다: lim sup x→∞ x^(α)P(X>x) = C > 0, 여기서 C는 양의 상수이다.' |
| 누적 분포 함수 | 해당 사항 없음 |
| 모수 | 해당 사항 없음 |
| 지원 | 해당 사항 없음 |
| 특징 | |
| 꼬리 무게 | 무거운 꼬리 |
| 대칭 | 해당 사항 없음 |
| 첨도 | 해당 사항 없음 |
| 모멘트 | 일부 모멘트는 정의되지 않을 수 있음 |
| 응용 분야 | 금융 경제학 물리학 지질학 통신 네트워크 |
| 관련 분포 | |
| 특별한 경우 | 파레토 분포 코시 분포 레비 분포 스튜던트 t-분포 |
2. 정의
두터운 꼬리 분포는 여러 가지 방법으로 정의될 수 있다.
- 꼬리가 두꺼운 분포 (Heavy-tailed distribution): 확률 변수 ''X''의 누적 분포 함수 ''F''를 갖는 확률 분포에서 ''X''의 모멘트 생성 함수 ''MX''(''t'')가 모든 ''t'' > 0에 대해 무한대일 경우, 이 분포는 두터운 (우측) 꼬리를 갖는다고 한다.[2] 이는 꼬리 분포 함수를 사용하여 다음과 같이 표현할 수 있다.
:
:[3]
- 긴 꼬리 분포 (Long-tailed distribution): 확률 변수 ''X''의 누적 분포 함수 ''F''를 갖는 분포에서 모든 ''t'' > 0에 대해 다음이 성립하면, 이 분포는 오른쪽 꼬리가 길다고 한다.[1]
:
또는
:
이는 오른쪽 꼬리가 긴 분포를 갖는 양의 경우, 긴 꼬리 양이 어떤 높은 수준을 초과하면 다른 어떤 더 높은 수준도 초과할 확률이 1에 가까워진다는 의미이다. 모든 긴 꼬리 분포는 두꺼운 꼬리 분포이지만, 그 역은 성립하지 않으며 긴 꼬리 분포가 아닌 두꺼운 꼬리 분포도 존재한다.
- 부분 지수 분포 (Subexponential distribution): 이 분포는 확률 분포의 컨볼루션 관점에서 정의된다. 동일하게 분포된 두 독립적인 확률 변수 가 공통 분포 함수 를 가질 때, 의 컨볼루션 제곱(로 표기)은 르베그-스틸체스 적분을 사용하여 다음과 같이 정의된다.
:
''n''-겹 컨볼루션 은 다음 규칙에 따라 귀납적으로 정의된다.
:
꼬리 분포 함수 는 로 정의된다. 양의 반직선에 대한 분포 는 다음 조건을 만족하는 경우 부분 지수적이다.
:
이는 모든 에 대해 다음을 의미한다.
:
이에 대한 확률적 해석은 공통 분포 를 갖는 개의 독립적인 확률 변수 의 합에 대해 다음이 성립한다는 것이다.
:
이것은 종종 단일 큰 도약 원리 또는 재앙 원리로 알려져 있다.
전체 실수선에 대한 분포 는 분포 가 부분 지수적이면 부분 지수적이다. 여기서 는 양의 반직선의 지시 함수이다. 또는, 실수선에서 지원되는 확률 변수 는 가 부분 지수적인 경우에만 부분 지수적이다. 모든 부분 지수적 분포는 긴 꼬리를 가지지만, 부분 지수적이지 않은 긴 꼬리 분포의 예도 존재한다.
2. 1. 꼬리가 두꺼운 분포 (Heavy-tailed distribution)
확률 변수 ''X''의 누적 분포 함수 ''F''를 갖는 확률 분포는 ''X''의 모멘트 생성 함수 ''MX''(''t'')가 모든 ''t'' > 0에 대해 무한대일 경우 두터운 (우측) 꼬리를 갖는다고 한다.[2]이는 다음을 의미한다.
:[3]
이는 꼬리 분포 함수를 사용하여 다음과 같이 나타낼 수도 있다.
:
다음과 같다.
:
확률 변수 ''X''의 누적 확률 분포 함수 F 를
:
라고 표기했을 때, 다음을 만족하는 확률 분포는 (우) 꼬리가 두꺼운 분포이다.
:
2. 2. 긴 꼬리 분포 (Long-tailed distribution)
확률 변수 ''X''의 누적 분포 함수 ''F''를 갖는 분포는 모든 ''t'' > 0에 대해 다음과 같을 경우 오른쪽 꼬리가 길다고 한다.[1]:
또는 다음과 동등하게 나타낼 수 있다.
:
이는 오른쪽 꼬리가 긴 분포를 갖는 양의 경우, 긴 꼬리 양이 어떤 높은 수준을 초과하면, 다른 어떤 더 높은 수준도 초과할 확률이 1에 가까워진다는 직관적인 해석을 갖는다.
모든 긴 꼬리 분포는 두꺼운 꼬리 분포이지만, 그 역은 성립하지 않으며, 긴 꼬리 분포가 아닌 두꺼운 꼬리 분포를 구성하는 것도 가능하다.
2. 3. 부분 지수 분포 (Subexponential distribution)
부분 지수성은 확률 분포의 컨볼루션의 관점에서 정의된다. 동일하게 분포된 두 개의 독립적인 확률 변수 가 공통 분포 함수 를 갖는 경우, 를 자체적으로 컨볼루션한 것(로 표기하고 컨볼루션 제곱이라고 부름)은 르베그-스틸체스 적분을 사용하여 다음과 같이 정의된다.:
그리고 ''n''-겹 컨볼루션 은 다음 규칙에 따라 귀납적으로 정의된다.
:
꼬리 분포 함수 는 로 정의된다.
양의 반직선에 대한 분포 는 다음 조건을 만족하는 경우 부분 지수적이다.
:
이는 모든 에 대해 다음을 의미한다.
:
이에 대한 확률적 해석은 공통 분포 를 갖는 개의 독립적인 확률 변수 의 합에 대해 다음이 성립한다는 것이다.
:
이것은 종종 단일 큰 도약 원리 또는 재앙 원리로 알려져 있다.
전체 실수선에 대한 분포 는 분포 가 부분 지수적이면 부분 지수적이다. 여기서 는 양의 반직선의 지시 함수이다. 또는, 실수선에서 지원되는 확률 변수 는 가 부분 지수적인 경우에만 부분 지수적이다.
모든 부분 지수적 분포는 긴 꼬리를 가지지만, 부분 지수적이지 않은 긴 꼬리 분포의 예를 구성할 수 있다.
3. 꼬리가 두꺼운 분포의 예시
일반적으로 사용되는 모든 두터운 꼬리 분포는 준지수 분포이다.[6]
꼬리가 두꺼운 분포는 크게 한쪽 꼬리가 두꺼운 분포와 양쪽 꼬리가 두꺼운 분포로 나눌 수 있다.
한쪽 꼬리가 두꺼운 분포:
- 파레토 분포
- 로그 정규분포
- 레비 분포
- 베이불 분포 (형태 모수가 0보다 크고 1보다 작은 경우)
- 버 분포
- 로그 로지스틱 분포
- log-gamma distribution|로그 감마 분포영어
- 프레셰 분포
- q-가우시안 분포
- 로그 코시 분포
양쪽 꼬리가 두꺼운 분포:
- 코시 분포
- 안정 분포
- t-분포
- 왜곡 로그 정규 캐스케이드 분포
3. 1. 한쪽 꼬리가 두꺼운 분포
- 파레토 분포[6]
- 로그 정규분포[6]
- 레비 분포[6]
- 형태 모수가 0보다 크고 1보다 작은 베이불 분포[6]
- 버 분포[6]
- 로그 로지스틱 분포[6]
- log-gamma distribution|로그 감마 분포영어[6]
- 프레셰 분포[6]
- q-가우시안 분포[6]
- 로그 코시 분포 - 로그 감쇠를 나타내며 파레토 분포보다 더 두터운 꼬리를 생성하기 때문에 "초 두터운 꼬리"를 갖는다고 설명되기도 한다.[10][11]
3. 2. 양쪽 꼬리가 두꺼운 분포
4. 꼬리 지수 추정
꼬리 지수 추정에는 모수적 접근 방식과 비모수적 접근 방식이 있다.[6][14]
모수적 접근 방식에서는 일반화 극치값 분포 또는 파레토 분포를 사용하며, 최우도 추정(MLE)을 적용할 수 있다.
4. 1. 비모수적 접근
일반화 극치 분포의 최댓값 영역에 속하는 독립적인 확률 변수 수열을 기반으로 꼬리 지수를 추정하는 방법은 다음과 같다.:
여기서 이다. 이 추정량은 확률적으로 로 수렴한다.
:
여기서 는 의 번째 순서 통계량이다. 이 추정량은 확률적으로 로 수렴하며, 특정 조건 하에서 점근적으로 정규성을 가진다.[17][18] 힐 꼬리 지수 추정량의 일관성과 점근적 정규성은, 관측값, 계산된 잔차, 잘못 지정된 모델, 종속적인 오류가 있는 모델 등 다양한 모델 및 추정량에서 필터링된 데이터에 관계없이, 종속적이고 이질적인 시퀀스의 큰 부류로 확장된다.[19][20][21][22][23]
골디(Goldie)와 스미스(Smith)가 제안한 꼬리 지수 추정량이다. 힐 추정량과 유사하지만 비확률적 조정 매개변수를 사용한다.
힐 유형과 비율 추정량(RE) 유형 추정량의 비교는 노박(Novak)의 연구에서 찾아볼 수 있다.[14]
픽캔즈와 힐 꼬리 지수 추정량, 비율 추정량 모두 순서 통계량의 로그를 사용한다는 공통점이 있다.[24]
4. 2. 꼬리가 두꺼운 밀도 추정
비모수적 접근 방식은 가변 대역폭과 긴 꼬리 커널 추정량에 기반하며, 다음을 포함한다.[27]- 추정에 더 편리한 유한 또는 무한 간격으로 새로운 확률 변수로의 예비 데이터 변환
- 이후 획득한 밀도 추정의 역변환
- 밀도의 꼬리에 대한 특정 매개변수 모델과 밀도의 최빈값을 근사하는 비모수적 모델을 제공하는 "조각 맞춤 접근법"
비모수적 추정량은 커널 추정량의 대역폭 및 히스토그램의 빈 너비와 같은 튜닝(평활화) 매개변수의 적절한 선택이 필요하다. 이러한 선택을 위한 잘 알려진 데이터 기반 방법으로는 교차 검증 및 수정, 평균 제곱 오차(MSE) 및 그 점근선 및 상한을 최소화하는 방법에 기반한 방법이 있다.[28]
콜모고로프-스미르노프, 폰 미제스, 앤더슨-달링과 같은 잘 알려진 비모수적 통계를 메트릭으로 사용하고, 후자 통계의 분위수를 알려진 불확실성 또는 불일치 값으로 사용하는 불일치 방법이 사용된다.[27] 부트스트랩은 알려지지 않은 MSE를 다른 재표본 선택 방식에 의해 근사하여 평활화 매개변수를 찾는 또 다른 도구이다.[29]
5. 꼬리가 두꺼운 분포와 팻 테일 분포의 관계
두터운 꼬리 분포는 큰 x에 대해 확률 밀도 함수가 의 거듭제곱으로 0으로 수렴하는 분포이다. 이러한 거듭제곱은 항상 지수 분포의 확률 밀도 함수보다 아래에 있으므로, 두터운 꼬리 분포는 항상 헤비 테일 분포이다. 그러나 일부 분포는 지수 함수보다 느리게 0으로 수렴하는 꼬리(즉, 헤비 테일)를 가지지만, 거듭제곱보다는 빠르게 0으로 수렴한다(즉, 두터운 꼬리 분포가 아님). 예시로는 로그 정규 분포가 있다. 로그 로지스틱 및 파레토 분포와 같은 다른 많은 헤비 테일 분포는 두터운 꼬리 분포이기도 하다.
꼬리가 두꺼운 분포 중에서도 꼬리 분포가 멱법칙에 따라 감쇠하는 분포를 팻 테일(Fat tail)이라고 부르는 경우가 많다.
6. 소프트웨어
http://www.cs.bu.edu/~crovella/aest.html aest는 C를 이용한 헤비 테일 지수 추정 도구이다.[26]
참조
[1]
서적
Applied Probability and Queues
[2]
간행물
Stochastic Processes for Insurance and Finance
[3]
서적
An Introduction to Heavy-Tailed and Subexponential Distributions
Springer Science & Business Media
2013-05-21
[4]
웹사이트
A Theorem on Sums of Independent Positive Random Variables and Its Applications to Branching Random Processes
https://www.research[...]
1964
[5]
학술지
The Class of Subexponential Distributions
https://projecteucli[...]
1975
[6]
서적
Modelling extremal events for insurance and finance
Springer
[7]
학술지
Discrete and Continuous Time Modulated Random Walks with Heavy-Tailed Increments
http://www.math.nsc.[...]
[8]
웹사이트
Catastrophes, Conspiracies, and Subexponential Distributions (Part III)
http://rigorandrelev[...]
RSRG, Caltech
2014-01-09
[9]
학술지
Subexponentiality on the real line
K.U. Leuven
[10]
서적
Laws of Small Numbers: Extremes and Rare Events
Springer
[11]
웹사이트
Statistical inference for heavy and super-heavy tailed distributions
http://docentes.deio[...]
2006-03-10
[12]
웹사이트
Stable Distributions: Models for Heavy Tailed Data
http://academic2.ame[...]
[13]
웹사이트
Skew Lognormal Cascade Distribution
http://www.skew-logn[...]
[14]
서적
Extreme value methods with applications to finance
[15]
학술지
Statistical Inference Using Extreme Order Statistics
1975-01
[16]
간행물
A simple general approach to inference about the tail of a distribution.
[17]
간행물
On some estimates of an exponent of regular variation.
[18]
간행물
On asymptotic normality of Hill's estimator for the exponent of regular variation.
[19]
간행물
On tail index estimation using dependent data.
[20]
간행물
On tail index estimation for dependent, heterogeneous data.
[21]
간행물
Asymptotic behavior of Hill’s estimator for autoregressive data.
[22]
간행물
Hill’s estimator for the tail index of an ARMA model.
[23]
간행물
Tail index estimation for a filtered dependent time series.
[24]
학술지
Exponentiated generalized Pareto distribution: Properties and applications towards extreme value theory
[25]
간행물
Slow variation with remainder: theory and applications.
[26]
학술지
Estimating the Heavy Tail Index from Scaling Properties
http://www.cs.bu.edu[...]
[27]
서적
Nonparametric Analysis of Univariate Heavy-Tailed data: Research and Practice
[28]
서적
Kernel smoothing
[29]
서적
The Bootstrap and Edgeworth Expansion
[30]
학술지
Steady-State Properties of of GI/G/1
[31]
웹사이트
Stable Distributions: Models for Heavy Tailed Data
http://academic2.ame[...]
[32]
웹사이트
Skew Lognormal Cascade Distribution
http://www.skew-logn[...]
[33]
학술지
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com