맨위로가기

분위수함수

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

분위수 함수는 주어진 분포 함수의 누적 분포 함수(c.d.f.) 값이 p를 초과하는 값 중 최소값을 반환하는 함수이다. c.d.f.의 역함수로 나타낼 수 있으며, 통계적 응용 및 몬테카를로 방법, 전산 금융 등 다양한 분야에서 활용된다. 분위수 함수는 닫힌 형식 표현식을 찾기 어려워 수치적 방법을 통해 계산되며, C 라이브러리, R 라이브러리, Python 하위 패키지 등 다양한 도구를 사용할 수 있다. 또한, 비선형 상미분 방정식 및 편미분 방정식의 해로 특징지을 수 있으며, 정규 분포, 스튜던트 t-분포 등의 경우에 대한 해가 제시되어 있다. 분포는 여러 분위수 함수를 선형 결합하는 분위수 혼합으로 정의될 수도 있다.

더 읽어볼만한 페이지

  • 역함수 - 분지점
    분지점은 복소해석학과 대수 기하학에서 함수의 국소적 성질이 변하는 지점을 의미하며, 리만 곡면 사이의 정칙 함수에서 함수가 국소적으로 피복 공간이 되지 못하는 점으로 정의되고, 다가 함수의 역함수를 정의하기 위해 분지 절단 과정을 거치며, 함수의 다중값성을 이해하고 분석적 성질을 파악하는 데 중요한 도구로 활용된다.
  • 역함수 - 역함수 정리
    역함수 정리는 \mathbb R^n 공간에서 정의된 함수가 특정 조건 하에 국소적으로 역함수를 가짐을 보장하는 정리로, \mathcal C^k 함수 \mathbf f의 야코비 행렬식이 0이 아니면 국소 \mathcal C^k 미분동형사상이 되며, 다양한 분야에서 활용되고 연구된다.
분위수함수
일반 정보
분위수 함수 그래프
분위수 함수의 예시
유형통계학 함수
분야확률 분포
정의F(x) = p를 만족하는 최소의 x 값. 여기서 F는 누적 분포 함수이고 p는 확률이다.
상세 정보
다른 이름역 누적 분포 함수, 백분위수 함수, 사분위수 함수
기호Q(p) 또는 F⁻¹(p)
성질
단조 증가분위수 함수는 단조 증가 함수이다.
범위분위수 함수의 범위는 해당 확률 분포의 지지 집합이다.
특이점불연속적인 분포의 경우, 분위수 함수는 계단 함수 형태를 가질 수 있다.
활용중앙값
사분위수
백분위수 계산
예시
정규 분포Q(p) = μ + σ * Φ⁻¹(p), 여기서 μ는 평균, σ는 표준 편차, Φ⁻¹는 표준 정규 분포의 분위수 함수이다.
균등 분포Q(p) = a + (b - a) * p, 여기서 a는 최솟값, b는 최댓값이다.
관련 항목
누적 분포 함수확률 변수가 특정 값보다 작거나 같을 확률을 나타내는 함수
확률 밀도 함수연속 확률 변수의 특정 값에서의 상대적인 가능성을 나타내는 함수
역함수함수의 입력과 출력을 뒤바꾸는 함수

2. 정의

분포 함수 ''F''가 주어질 때, 분위수 함수 ''Q''는 다음 값을 반환한다.

:F_X(x) := \Pr(X \le x) = p.\,

분위수 함수를 표현하는 또 다른 방법은 아래와 같다.

:Q(p)\,=\,\inf\left\{ x\in \mathbb{R} : p \le F(x) \right\}

분위수함수는 c.d.f 값이 ''p''를 초과하는 모든 값 중에서 ''x''의 최소값을 반환한다. 따라서 분포가 연속적일 때에는 이전의 설명과 같다. 분포 함수가 연속적이고 단조롭게 증가하기 때문에 무한 함수는 최소 함수로 대체될 수 있다.

연속이며 단조 증가하는 누적 분포 함수 (c.d.f.) F_X\colon \mathbb{R} \to [0,1]를 갖는 확률 변수 ''X''에 관하여, 분위수 함수 Q\colon [0, 1] \to \mathbb{R}는 입력값 ''p''를 임계값 ''x''에 매핑하여, ''X''가 ''x''보다 작거나 같을 확률이 ''p''가 되도록 한다. 분포 함수 ''F''로 표현하면, 분위수 함수 ''Q''는 다음을 만족하는 값 ''x''를 반환한다.

:F_X(x) := \Pr(X \le x) = p,

이는 c.d.f.의 역함수로 나타낼 수 있다.

:Q(p) = F_X^{-1}(p).

누적 분포 함수 (''F''(''x'')로 표시)는 ''q'' 값의 함수로 ''p'' 값을 제공한다. 분위수 함수는 그 반대로, ''p'' 값의 함수로 ''q'' 값을 제공한다. ''F''(''x'')의 빨간색 부분은 수평선 세그먼트임을 주목하라.


일반적인 경우, 분위수는 다음과 같은 간격으로 주어진 분포 함수의 집합 값 함수이다.[1]

:Q(p) = \big[\sup\{x \colon F(x) < p\}, \sup\{x \colon F(x) \le p \}\big].

가장 낮은 값을 선택하는 것이 일반적인데, 이는 다음과 같이 쓸 수 있다.

:Q(p) = \inf \{x \in \mathbb{R} : p \le F(x)\}.

여기서 분위수 함수가 c.d.f. 값이 p를 초과하는 모든 값 중에서 x의 최소값을 반환한다는 사실을 포착하며, 이는 분포가 연속인 특수한 경우의 이전 확률 진술과 동일하다. 하한 함수는 분포 함수가 오른쪽 연속이고 약하게 단조 증가하므로 최소 함수로 대체될 수 있다.

분위수는 다음 갈루아 부등식을 만족하는 유일한 함수이다.

:Q(p) \le x if and only if p \le F(x).

함수 F가 연속적이고 엄격하게 단조 증가하는 경우, 부등식은 등식으로 대체될 수 있으며, 다음과 같다.

:Q = F^{-1}.

일반적으로 분포 함수 F가 좌측 또는 우측 역함수를 갖지 못하더라도 분위수 함수 Q는 다음과 같은 의미에서 분포 함수에 대한 "거의 확실한 좌측 역함수"처럼 동작한다.

: Q\bigl(F(X)\bigr) = X 거의 확실하게.

3. 예시

지수 분포(강도 ''λ'' 및 기댓값(평균) 1/''λ'')의 누적 분포 함수는 다음과 같다.

:F(x; \lambda) = \begin{cases}

1 - e^{-\lambda x} & x \ge 0, \\

0 & x < 0.

\end{cases}

지수(''λ'')에 대한 분위수 함수는 1 - e^{-\lambda Q} = p를 만족하는 ''Q''의 값을 찾아 유도된다.

:Q(p; \lambda) = \frac{-\ln(1 - p)}{\lambda},

0 ≤ ''p'' < 1에 대해 정의된다. 따라서 사분위수는 다음과 같다.


  • 제1 사분위수 (''p'' = 1/4): -\ln(3/4)/\lambda,
  • 중앙값 (''p'' = 2/4) : -\ln(1/2)/\lambda,
  • 제3 사분위수 (''p'' = 3/4) : -\ln(1/4)/\lambda.

4. 응용

분위수 함수는 통계적 응용과 몬테카를로 방법 모두에 사용된다.

분위수 함수는 확률 밀도 함수(pdf) 또는 확률 질량 함수, 누적 분포 함수(cdf) 및 특성 함수의 대안으로, 확률 분포를 지정하는 한 가지 방법이다. 확률 분포의 분위수 함수 ''Q''는 누적 분포 함수 ''F''의 역함수이다. '''분위수 밀도 함수'''는 분위수 함수의 도함수로, 확률 분포를 지정하는 또 다른 방법이다. 이는 분위수 함수와 합성된 pdf의 역수이다.

통계적 응용에서 사용자는 주어진 분포의 주요 백분위수를 알아야 한다. 예를 들어 중앙값, 25% 및 75% 사분위수(위에 나온 예시)를 필요로 하거나, 분포가 알려진 관측의 통계적 유의성을 평가하기 위해 5%, 95%, 2.5%, 97.5% 수준을 필요로 하는 경우가 있다. 분위수 항목을 참조하면 된다. 컴퓨터가 대중화되기 전에는, 분위수 함수를 표본 추출하는 통계 표가 부록으로 있는 책들이 드물지 않았다.[2] 분위수 함수의 통계적 응용에 대해서는 길크리스트(Gilchrist)가 광범위하게 논의했다.[3]

몬테카를로 시뮬레이션은 다양한 유형의 시뮬레이션 계산에 사용하기 위해 비균일한 무작위 또는 의사 난수를 생성하는데, 이때 분위수 함수를 사용한다. 주어진 분포의 표본은 원칙적으로 균일 분포에서 얻은 표본에 해당 분위수 함수를 적용하여 얻을 수 있다. 최근에는 코퓰러 또는 준 몬테카를로 방법을 기반으로 하는 다변량 기술과의 연계성이 높아지면서, 전산 금융과 같은 시뮬레이션 방법에서 분위수 함수를 기반으로 하는 방법에 대한 관심이 높아지고 있다.[4] 및 금융에서의 몬테카를로 방법.

5. 계산

분위수 함수는 닫힌 형식 표현식을 찾기 어려운 경우가 많아 수치적 방법이 사용된다. 균등 분포, 와이블 분포, 터키 람다 분포(로지스틱 포함), 로그 로지스틱과 같이 닫힌 형식 표현식을 찾을 수 있는 몇 안 되는 경우를 제외하고는 수치적 방법이 사용된다.[5][6]

누적 분포 함수(cdf)가 닫힌 형식 표현식을 가지는 경우, 이분법과 같은 수치적 근 찾기 알고리즘을 사용하여 cdf를 반전시킬 수 있다. 분위수 함수 계산을 위한 알고리즘은 수치 레시피를 비롯하여 UNU.RAN, Runuran, scipy.stats 등 다양한 통계 소프트웨어 패키지에 내장되어 있다.[7][8][9][10]

분위수 함수는 비선형 상미분 및 편미분 미분 방정식의 해로 특징지을 수 있다. 정규 분포, 스튜던트, 베타감마 분포의 경우에 대한 상미분 방정식이 주어지고 해결되었다.[11]

5. 1. 정규 분포

정규 분포는 아마도 가장 중요한 경우일 것이다. 정규 분포는 위치-척도족이므로 임의의 매개변수에 대한 분위수 함수는 프로빗 함수로 알려진 표준 정규 분포의 분위수 함수의 간단한 변환으로부터 파생될 수 있다. 불행히도 이 함수는 기본적인 대수 함수를 사용하여 폐쇄 형식 표현을 갖지 않는다. 결과적으로 근사 표현이 일반적으로 사용된다. Wichura[12]와 Acklam[13]은 철저한 복합 유리수 및 다항식 근사를 제공했다. 비복합 유리수 근사는 Shaw에 의해 개발되었다.[14]

정규 분위수에 대한 비선형 상미분 방정식, ''w''(''p'')는 다음과 같다.

:\frac{d^2 w}{d p^2} = w \left(\frac{d w}{d p}\right)^2

중심 (초기) 조건은 다음과 같다.

:w\left(1/2\right) = 0,\,

:w'\left(1/2\right) = \sqrt{2\pi}.\,

이 방정식은 고전적인 멱급수 방법을 포함하여 여러 방법으로 풀 수 있다. 이로부터 임의의 높은 정확도의 해를 개발할 수 있다 (Steinbrecher와 Shaw, 2008 참조).

5. 2. 스튜던트 t-분포

스튜던트 t-분포의 분위수 함수는 자유도 ν 값에 따라 계산이 복잡해지는 경우가 있다. ν = 1 (Cauchy distribution|코시 분포영어), ν = 2, ν = 4인 경우 간단한 공식이 존재한다.[15]

ν = 1 (코시 분포)인 경우:

:Q(p) = \tan (\pi(p-1/2)) \!

ν = 2인 경우:

:Q(p) = 2(p-1/2)\sqrt{\frac{2}{\alpha}}\!

ν = 4인 경우:

:Q(p) = \operatorname{sign}(p-1/2)\,2\,\sqrt{q-1}\!

여기서

:q = \frac{\cos \left( \frac{1}{3} \arccos \left( \sqrt{\alpha} \, \right) \right)}{\sqrt{\alpha}}\!

이고,

:\alpha = 4p(1-p).\!

이다. "sign" 함수는 인수가 양수이면 +1, 음수이면 -1, 0이면 0이다.

6. 분위수 혼합

혼합 분포와 유사하게, 분포는 분위수 혼합으로 정의될 수 있다. 분위수 혼합은 여러 분위수 함수를 선형 결합하여 새로운 분위수 함수를 만드는 방법이다.

:Q(p)=\sum_{i=1}^{m}a_i Q_i(p)

여기서 Q_i(p), i=1,\ldots,m는 분위수 함수이고 a_i, i=1,\ldots,m는 모형 매개변수이다. 매개변수 a_iQ(p)가 분위수 함수가 되도록 선택해야 한다.

Karvanen은 정규-다항식 분위수 혼합과 코시-다항식 분위수 혼합, 두 개의 4 매개변수 분위수 혼합을 제시했다.[16]

참조

[1] 논문 Of quantiles and expectiles: Consistent scoring functions, Choquet representations, and forecast rankings
[2] 웹사이트 Archived copy http://course.shufe.[...] 2012-03-25
[3] 서적 Statistical Modelling with Quantile Functions Taylor & Francis
[4] 서적 Monte Carlo methods in finance
[5] 논문 Continuous random variate generation by fast numerical inversion https://research.wu.[...] 2024-06-17
[6] 논문 Random variate generation by numerical inversion when only the density is known
[7] 웹사이트 UNU.RAN - Universal Non-Uniform RANdom number generators https://statmath.wu.[...]
[8] 웹사이트 Runuran: R Interface to the 'UNU.RAN' Random Variate Generators https://cran.r-proje[...] 2023-01-17
[9] 웹사이트 Random Number Generators (Scipy.stats.sampling) — SciPy v1.13.0 Manual https://docs.scipy.o[...]
[10] 서적 Proceedings of the 21st Python in Science Conference 2022
[11] 논문 Quantile mechanics
[12] 논문 Algorithm AS241: The Percentage Points of the Normal Distribution Blackwell Publishing
[13] 웹사이트 An algorithm for computing the inverse normal cumulative distribution function http://home.online.n[...] 2007-05-05
[14] 간행물 Computational Finance: Differential Equations for Monte Carlo Recycling https://arxiv.org/ab[...]
[15] 논문 Sampling Student's T distribution – Use of the inverse cumulative distribution function.
[16] 논문 Estimation of quantile mixtures via L-moments and trimmed L-moments.



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com