순서통계량
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
순서 통계량은 표본에서 크기 순서대로 정렬된 값으로, i번째 순서 통계량은 표본에서 i번째로 작은 값을 의미한다. 첫 번째 순서 통계량은 최솟값, n번째 순서 통계량은 최댓값이다. 순서 통계량은 확률 변수이며, 독립 동일 분포를 따르는 표본에서 추출될 경우 누적 분포 함수와 확률 밀도 함수를 통해 분석할 수 있다. 순서 통계량은 균등 분포, 지수 분포 등 특정 분포에서 특별한 성질을 가지며, 분위수 추정, 비모수적 밀도 추정, 선택 문제 해결 등 다양한 분야에 응용된다. 기술 통계량, 신뢰성 이론, 금융 수학, 생존 분석 등에서 활용되며, 한국 사회의 정치적 맥락에서도 사회적 불평등 문제 해결과 경제 성장 강조에 활용될 수 있다.
더 읽어볼만한 페이지
- 통계량 - 제곱평균제곱근
제곱평균제곱근(RMS)은 값들의 크기를 나타내는 통계량으로, 이산 데이터의 경우 각 값의 제곱의 평균의 제곱근, 연속 함수의 경우 함수 제곱의 적분 평균의 제곱근으로 정의되며, 전기공학, 물리학 등 다양한 분야에서 활용되고 표준편차와 밀접한 관련이 있다. - 통계량 - 최빈값
최빈값은 데이터 집합에서 가장 자주 나타나는 값으로, 확률 분포의 중심 경향을 나타내는 척도이며 이상치에 둔감하고 명목형 데이터에도 적용 가능하다. - 순열 - 레비치비타 기호
레비치비타 기호는 n차원 공간에서 정의되는 완전 반대칭 텐서로, 순열의 부호에 따라 +1, -1, 0의 값을 가지며 벡터곱, 행렬식 계산 등 다양한 분야에서 활용된다. - 순열 - 완전순열
완전순열은 집합의 순열 중 모든 원소가 원래 위치에 있지 않은 순열, 즉 고정점이 없는 순열을 의미하며, 크기가 n인 집합의 완전순열의 수는 준계승 !n으로 나타내고, 점화식 또는 포함-배제 원리로 계산하며, 몽모르 수라고도 불린다.
순서통계량 |
---|
2. 표기법 및 예시
크기가 n인 표본이 있을 때, i번째 순서 통계량은 X(i)로 표기하며, 이는 표본에서 i번째로 작은 값을 의미한다. 예를 들어, 표본 {6, 9, 3, 8}에서 순서 통계량은 X(1)=3, X(2)=6, X(3)=8, X(4)=9이다.
- '''첫 번째 순서 통계량''' (또는 '''가장 작은 순서 통계량''')은 항상 표본의 최솟값이며, 즉 X(1)=min{X1,...,Xn}이다.
- '''n번째 순서 통계량''' (또는 '''가장 큰 순서 통계량''')은 최댓값이며, 즉 X(n)=max{X1,...,Xn}이다.
표본 범위는 최댓값과 최솟값의 차이(X(n) - X(1))로 정의된다.
표본 중앙값은 표본 크기가 홀수일 때는 (n+1)/2번째 순서 통계량, 짝수일 때는 n/2번째와 (n/2)+1번째 순서 통계량의 평균으로 계산된다. 모든 표본 사분위수에도 비슷한 내용이 적용된다.
3. 확률적 분석
임의의 확률 변수 ''X''1, ''X''2, ..., ''X''''n''이 주어졌을 때, 순서 통계량 ''X''(1), ''X''(2), ..., ''X''(''n'') 또한 확률 변수이며, ''X''1, ..., ''X''''n''의 값을 오름차순으로 정렬하여 정의된다.
확률 변수 ''X''1, ''X''2, ..., ''X''''n''이 표본을 형성할 때, 이들은 독립 동일 분포를 이룬다. 일반적으로, 확률 변수 ''X''1, ..., ''X''''n''은 둘 이상의 모집단에서 표집될 수 있다. 이 경우, 변수들은 독립이지만, 반드시 동일 분포를 따르지는 않으며, 그들의 결합 확률 분포는 Bapat–Beg 정리에 의해 주어진다.
여기서는 표본 ''X''1, ''X''2,..., ''X''n은 무작위 추출로 얻어진 것이고 연속 확률 분포를 따른다고 가정하며, 단순화를 위해 확률 밀도 함수가 존재한다고 가정한다(즉, 절대 연속이다).
3. 1. 순서 통계량의 누적 분포 함수
확률 변수 X1, X2, ..., Xn이 누적 분포 함수 FX(x)를 갖는 동일한 분포에서 독립적으로 추출되었을 때, r번째 순서 통계량 X(r)의 누적 분포 함수는 다음과 같다.[2]:
이에 해당하는 확률 밀도 함수는 다음과 같다.
:
계산하기 쉬운 누적 분포 함수(CDF)를 갖는 두 가지 특별한 경우가 있는데, 최소값 X(1)과 최대값 X(n)에 대한 누적 분포 함수는 다음과 같다.
:
:
이는 확률을 주의 깊게 고려하여 유도할 수 있다.[2]
누적 분포 함수 에서, 확률값 ''P''( ) 내의 사건은 "''n''개 중 적어도 ''k''개의 ''Xi''가 ''x'' 이하" = "''x'' 이하의 값이 ''n''번의 시도 중 ''k''번 이상 발생"을 의미하므로 다음과 같이 유도된다.
:
확률 밀도 함수와 누적 분포 함수의 관계에 유의하면, 확률 밀도 함수는 다음과 같이 유도된다.
:
위의 컨볼루션 급수의 총합은, 처음과 마지막 항을 제외하면 모두 상쇄되므로
:
가 된다. 또한 두 번째 항은 0이 되므로 최종적으로 다음과 같은 확률 밀도 함수를 얻는다.
:
3. 2. 균등 분포에서의 순서 통계량
단위 구간에서 균등 분포를 따르는 확률 변수에서 추출된 순서 통계량은 베타 분포군에 속하는 주변 분포를 갖는다.[3][4]''k''번째 순서 통계량 의 확률 밀도 함수는 다음과 같다.[3]
:
이는 베타 분포를 따르는 확률 변수이며, 평균은 ''k'' / (''n'' + 1)이다.
''i'' < ''j''인 경우, 두 순서 통계량 ''U''(''i'') < ''U''(''j'')의 결합 확률 분포의 결합 확률 밀도 함수는 다음과 같이 나타낼 수 있다.
:
''n'' 개의 순서 통계량의 결합 밀도는 상수 함수이다.
:
이는 정렬되지 않은 표본이 1과 같은 상수 밀도를 가지며, 동일한 순서 통계량 시퀀스에 해당하는 표본의 ''n''!개의 서로 다른 순열이 있다는 것을 통해 이해할 수 있다.
3. 3. 지수 분포에서의 순서 통계량
크기가 ''n''인 지수 분포에서 추출한 임의 표본 에 대해, ''i'' = 1, 2, 3, ..., ''n''인 순서 통계량 는 다음과 같은 분포를 갖는다.[5][6]::
여기서 ''Z''''j''는 iid 표준 지수 확률 변수이다(즉, 비율 모수 1). 이 결과는 알프레드 레니이에 의해 처음 발표되었다.
3. 4. 일반적인 연속 분포에서의 순서 통계량
''F''''X''가 절대 연속이며, 와 같은 밀도 함수를 가지는 경우, 크기 ''n''인 표본의 순서 통계량에 대한 확률 밀도 함수는 다음과 같이 유도된다.:
: 여기서
: 여기서
이는 치환 및 를 통해 유도할 수 있다.
''X''1, ''X''2,..., ''X''n이 동일한 분포를 따르고 서로 독립적(i.i.d.)이며, 연속 분포를 갖는 확률 변수이고, ''f'' (''x'')가 해당 확률 밀도 함수, ''F'' (''x'')가 누적 분포 함수일 때, ''k''번째 순서 통계량 ''X''(''k'')의 누적 분포 함수는 다음 식으로 주어진다.
:
또한, 그 확률 밀도 함수는 다음과 같다.
:
특히 최소값 과 최대값 에 대해서는 다음과 같다.
:
이는 누적 분포 함수 에서, 확률값 ''P''( ) 내의 사건이 "''n''개 중 적어도 ''k''개의 ''Xi''가 ''x'' 이하"임을 이용하여 유도할 수 있다.
4. 순서 통계량의 응용
순서 통계량은 신뢰성 이론, 금융 수학, 생존 분석, 역학, 스포츠, 품질 관리, 보험 위험 등 다양한 분야에서 널리 활용된다. 이러한 분야에서 순서 통계량의 응용에 대한 연구를 다룬 방대한 문헌들이 존재한다.[12]
예를 들어, 보험 위험 분야의 최근 응용 사례는에서 찾아볼 수 있으며, 여기서는 기록 청구 및 k번째 기록 청구와 관련하여 몇 가지 가중 프리미엄 원리를 제공한다.
4. 1. 분위수 추정
순서 통계량은 모집단의 분위수를 추정하는 데 사용될 수 있다. 예를 들어 표본 중앙값은 모집단 중앙값의 추정량으로 사용될 수 있는데, 크기가 6인 무작위 표본에서 3번째와 4번째 순서 통계량 사이의 구간이 모집단 중앙값을 포함할 확률은 약 31%이다. 이 경우, 2번째와 5번째 순서 통계량으로 구성된 구간은 약 78%의 확률로 모집단 중앙값을 포함하는 더 나은 신뢰 구간을 제공한다.만약 최소 95%의 신뢰도를 원한다면, 6개의 관측값 중 최솟값과 최댓값 사이의 구간을 사용해야 하며, 이 구간은 약 97%의 확률로 모집단 중앙값을 포함한다. 실제로 크기 6은 최솟값과 최댓값으로 결정된 간격이 모집단 중앙값에 대해 최소 95% 신뢰 구간이 되는 가장 작은 표본 크기이다.
분포가 대칭이고 분산이 유한한 경우(예: 정규 분포), 모집단의 평균과 중앙값은 같으며, 표본 평균은 표본 중앙값보다 더 나은 신뢰 구간을 제공할 수 있다. 그러나 분포에 의존하는 방법을 잘못 사용하면 추정에 큰 오차가 발생할 수 있다.
4. 2. 비모수적 밀도 추정
최소 순서 통계량의 분포 모멘트를 사용하여 비모수 밀도 추정기를 개발할 수 있다.[10] 점 \\(x^*\\)에서 밀도 \\(f_{X}\\)를 추정하려 한다고 가정할 때, 분포 함수가 \\(g_Y(y) = f_X(y + x^*) + f_X(x^* - y)\\)인 i.i.d인 확률 변수 \\(Y_i = |X_i - x^*|\\)를 고려하면, \\(f_X(x^*) = \frac{g_Y(0)}{2}\\)이다.총 \\(N\\)개의 관측치 샘플이 주어졌을 때, 최소 순서 통계량 \\(Y_{(1)}\\)의 기댓값은 다음과 같다.
:\\( E(Y_{(1)}) = \frac{1}{(N+1) g(0)} + \frac{1}{(N+1)(N+2)} \int_{0}^{1} Q''(z) \delta_{N+1}(z) \, dz\\)
여기서 \\(Q\\)는 분포 \\(g_{Y}\\)와 관련된 분위 함수이며, \\(\delta_N(z) = (N+1)(1-z)^N\\)이다. 이 방정식은 잭나이핑 기법과 결합하여 밀도 추정 알고리즘의 기초가 된다.
\\(N\\)개의 관측치 샘플과 밀도 평가 지점 \\(\{x_\ell\}_{\ell=1}^M\\), 튜닝 매개변수 \\(a \in (0,1)\\)(일반적으로 1/3)가 주어졌을 때, 평가 지점에서 추정된 밀도 \\(\{\hat{f}_\ell\}_{\ell=1}^M\\)를 계산하는 알고리즘은 다음과 같다.
1. \\(m_N = \operatorname{round}(N^{1-a})\\)로 설정
2. \\(s_N = \frac{N}{m_N}\\)로 설정
3. 각각 \\(s_N\\)개의 관측치를 가진 \\(m_N\\)개의 하위 집합을 보유하는 \\(s_N \times m_N\\) 행렬 \\(M_{ij}\\)을 생성
4. 밀도 평가를 저장할 벡터 \\(\hat{f}\\)를 생성
5. \\(\ell = 1\\)부터 \\(M\\)까지 반복:
- \\(k = 1\\)부터 \\(m_N\\)까지 반복:
- 현재 지점 \\(x_\ell\\)에 가장 가까운 거리 \\(d_{\ell k}\\)를 \\(k\\)번째 하위 집합 내에서 탐색
- \\(x_\ell:d_\ell = \sum_{k=1}^{m_N} \frac{d_{\ell k}}{m_N}\\)에 대한 거리의 하위 집합 평균을 계산
- \\(x_\ell:\hat{f}_\ell = \frac{1}{2 (1+ s_N) d_\ell}\\)에서 밀도 추정치를 계산
6. \\(\hat{f}\\)를 반환
히스토그램 및 커널 기반 접근 방식에 대한 대역폭/길이 기반 튜닝 매개변수와 대조적으로, 순서 통계량 기반 밀도 추정기의 튜닝 매개변수는 샘플 하위 집합의 크기이다. 이러한 추정기는 히스토그램 및 커널 기반 접근 방식보다 더 강력하다. 예를 들어 코시 분포(유한 모멘트가 없는)와 같은 밀도는 IQR 기반 대역폭과 같은 특수 수정 없이 추론할 수 있다. 이는 순서 통계량의 첫 번째 모멘트가 기본 분포의 기댓값이 존재하는 경우 항상 존재하지만 그 반대는 반드시 참이 아니기 때문이다.[11]
5. 순서 통계량 계산
리스트에서 ''k''번째로 작은(또는 가장 큰) 요소를 계산하는 문제는 선택 알고리즘으로 해결되는 선택 문제라고 한다. 이 문제는 매우 큰 리스트의 경우 어렵지만, 리스트가 완전히 정렬되지 않은 경우에도 리스트의 요소 수에 비례하는 시간 안에 이 문제를 해결할 수 있는 정교한 선택 알고리즘이 개발되었다. 데이터가 특정 특수 데이터 구조에 저장된 경우 이 시간은 O(log ''n'')까지 줄일 수 있다. 모든 순서 통계량이 필요한 경우, 정렬 알고리즘을 사용할 수 있으며 소요 시간은 O(''n'' log ''n'')이다.
6. 순서 통계량의 활용 예시
백분위수, 십분위수, 사분위수, 중앙값 등은 순서 통계량을 기반으로 하는 기술 통계량이다.
순서 통계량은 신뢰성 이론, 금융 수학, 생존 분석, 역학, 스포츠, 품질 관리, 보험 위험 등 다양한 분야에서 널리 활용된다.[12] 이러한 분야에서 순서 통계량의 응용에 대한 연구를 다룬 방대한 문헌들이 존재한다.
예를 들어, 보험 위험 분야의 최근 응용 사례는 기록 청구 및 k번째 기록 청구와 관련하여 몇 가지 가중 프리미엄 원리를 제공한다.[12]
6. 1. 기술 통계
백분위수, 십분위수, 사분위수, 중앙값 등은 순서 통계량을 기반으로 하는 기술 통계량이다.6. 2. 응용 분야
순서 통계량은 신뢰성 이론, 금융 수학, 생존 분석, 역학, 스포츠, 품질 관리, 보험 위험 등 다양한 분야에서 널리 활용된다.[12] 이러한 분야에서 순서 통계량의 응용에 대한 연구를 다룬 방대한 문헌들이 존재한다.예를 들어, 보험 위험 분야의 최근 응용 사례는 기록 청구 및 k번째 기록 청구와 관련하여 몇 가지 가중 프리미엄 원리를 제공한다.[12]
7. 한국 사회와 순서 통계량
7. 1. 한국의 정치인과 순서 통계량
7. 1. 1. 더불어민주당
더불어민주당은 소득 불평등, 교육 격차 등 사회적 불평등 문제 해결을 강조하며, 순서통계량을 통해 이러한 불평등의 심각성을 보여주는 지표들을 제시하고, 정책 효과를 분석하는 데 활용한다.7. 1. 2. 국민의힘
국민의힘은 경쟁을 통한 성장을 강조하며, 순서통계량보다는 전체적인 경제 성장, 평균적인 지표 향상에 더 큰 관심을 두는 경향이 있다.참조
[1]
서적
Order Statistics
[2]
서적
Statistical Inference
https://books.google[...]
Cengage Learning
[3]
간행물
Computational Statistics
https://books.google[...]
Springer
[4]
학술지
Kumaraswamy's distribution: A beta-type distribution with some tractability advantages
[5]
간행물
Order Statistics
[6]
학술지
On the theory of order statistics
1953
[7]
학술지
A method for obtaining Laplace transforms of order statistics of Erlang random variables
[8]
학술지
On Some Useful "Inefficient" Statistics
http://projecteuclid[...]
2015-02-26
[9]
학술지
"Entropic Central Limit Theorem for Order Statistics," in IEEE Transactions on Information Theory, vol. 69, no. 4, pp. 2193-2205, April 2023, doi: 10.1109/TIT.2022.3219344.
2023-04
[10]
학술지
Minimum local distance density estimation.
2017
[11]
간행물
Order Statistics
[12]
학술지
A method for constructing and interpreting some weighted premium principles
[13]
서적
Order Statistics
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com