맨위로가기

이산균등분포

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

이산균등분포는 정수 구간 [1, N]에서 k개의 표본을 추출하여 최대값 N을 추정하는 문제와 관련이 있으며, 이는 제2차 세계 대전 당시 독일 전차 생산량을 추정하는 데 사용된 "독일 전차 문제"로 잘 알려져 있다. 이 문제에서 균일 최소 분산 불편 추정량(UMVU)은 표본 최대값 m과 표본 크기 k를 사용하여 추정되며, 최대 간격 추정의 간단한 예시로 볼 수 있다. 또한, 표본의 순서가 중요하지 않은 경우에는 표지-재포획법을 통해 모집단 크기를 추정할 수 있다. 이산균등분포는 무작위 순열과 관련이 있으며, 유한 차원의 충분 통계량을 가진다.

2. 최대값 추정 (독일 전차 문제)

이산 균등 분포의 최대값을 추정하는 문제는 정수 구간 [1, N]에서 비복원추출로 얻은 ''k''개의 표본을 이용하여 미지의 최대값 ''N''을 추정하는 통계적 문제이다. 이 문제는 제2차 세계 대전 당시 연합군이 독일전차 생산량을 추정하기 위해 실제 사용했던 방법에서 유래하여 일반적으로 독일 전차 문제로 널리 알려져 있다.[1][2][3]

이 문제에 대한 균일 최소 분산 불편 추정량 (UMVU)은 다음과 같이 주어진다.

:\hat{N}=\frac{k+1}{k} m - 1 = m + \frac{m}{k} - 1

여기서 ''m''은 표본 최대값, ''k''는 표본 크기이다.[1][2][3] 이 추정 방식은 최대 간격 추정의 간단한 예시로 볼 수 있다.[1] 이 추정량의 분산\frac{1}{k}\frac{(N-k)(N+1)}{(k+2)}이며, 표본 크기 ''k''가 ''N''에 비해 매우 작을 때는 약 \frac{N^2}{k^2}에 근사한다.[1][2]

한편, 표본 최대값 ''m'' 자체는 모집단 최대값 ''N''에 대한 최대 우도 추정량이지만, 평균적으로 실제 최댓값보다 낮은 값을 가지는 편향이 있는 추정량이다.[1]

만약 표본이 숫자로 주어지지 않고 단순히 식별 가능한 표지로만 주어진다면, 표지-재포획법을 사용하여 모집단 크기를 추정할 수도 있다.

2. 1. 문제 배경

이산 균등 분포의 최댓값을 추정하는 문제는 특정 역사적 사건과 밀접한 관련이 있다. 이는 알려지지 않은 전체 개수(N) 중에서 일부(표본)를 관찰했을 때, 이 관찰된 값들을 바탕으로 전체 개수(N)가 얼마일지 추정하는 통계적 문제이다. 이때 관찰 대상은 1부터 N까지의 정수가 동일한 확률로 나타나는 이산 균등 분포를 따른다고 가정한다.

이 문제는 제2차 세계 대전 중 연합군이 독일전차 생산량을 추정하기 위해 실제로 사용했던 방법에서 유래했다. 당시 연합군은 첩보 활동을 통해 얻는 정보 외에도, 전투에서 노획하거나 파괴된 독일 전차에 새겨진 일련번호(시리얼 번호)를 중요한 정보원으로 활용했다.[1][2][3]

연합군은 독일이 전차를 생산하면서 1번부터 순서대로 일련번호를 부여했을 것이라고 가정했다. 따라서 노획된 전차의 일련번호는 1부터 전체 생산량(N) 사이의 값들 중 일부(표본)에 해당한다. 연합군의 목표는 이렇게 수집한 제한된 표본 정보, 특히 그중 가장 큰 일련번호(표본 최대값) 등을 이용하여 독일 전차의 총 생산량, 즉 일련번호의 최댓값(N)을 통계적으로 추정하는 것이었다. 이러한 역사적 배경 때문에 이 최대값 추정 문제는 흔히 '독일 전차 문제'라고 불린다.[4]

만약 표본으로 얻은 정보가 순서대로 매겨진 숫자가 아니라 단순히 서로 구별 가능한 표식(예: 특정 표지 부착)이라면, 표지-재포획법과 같은 다른 통계적 방법을 사용하여 전체 모집단의 크기를 추정할 수도 있다.

2. 2. 균일 최소 분산 불편 추정량 (UMVU)

균일 최소 분산 불편 추정량(UMVU)은 분포의 최대값 ''N''을 표본 최대값 ''m''과 표본 크기 ''k''를 이용하여 다음과 같이 추정한다.[1][2][3]

\hat{N}=\frac{k+1}{k} m - 1 = m + \frac{m}{k} - 1

이 공식은 직관적으로 "표본의 최댓값(''m'')에 관측된 표본값들의 평균 간격(\frac{m}{k} - 1)을 더한다"는 의미로 해석할 수 있다. 이 간격은 표본 최댓값이 가지는 음의 편향을 보정하여 모집단 최댓값 ''N''에 대한 더 정확한 추정치를 제공하기 위해 더해진다.[4] 이는 최대 간격 추정의 매우 간단한 예시로 볼 수도 있다.[1]

이 추정량의 분산은 다음과 같다.[1][2]

\text{Var}(\hat{N}) = \frac{1}{k}\frac{(N-k)(N+1)}{(k+2)}

표본 크기 ''k''가 모집단 크기 ''N''에 비해 매우 작을 경우 (''k'' ≪ ''N''), 분산은 근사적으로 \frac{N^2}{k^2}가 된다. 따라서 표준 편차는 약 \frac{N}{k}로, 이는 모집단 내에서 표본들 사이의 평균 간격 크기와 유사하다.[1]

참고로, 표본 최댓값 ''m'' 자체는 모집단 최댓값 ''N''에 대한 최대 우도 추정량(MLE)이지만, 이는 평균적으로 실제 최댓값보다 낮은 값을 가지는 편향된 추정량이다. UMVU 추정량은 이러한 편향을 보정한 것이다.

만약 표본이 숫자로 주어지지 않고 단순히 식별 가능한 표지로만 주어진다면, 표지-재포획법을 사용하여 모집단 크기를 추정할 수도 있다.

2. 3. 최대 간격 추정

독일 전차 문제는 정수 구간 [1, N]에 대한 이산 균등 분포에서 추출된 k개의 관측치 표본으로부터 미지의 최대값 N을 추정하는 문제이다. 이 문제는 제2차 세계 대전 당시 연합군이 독일 전차 생산량을 추정하기 위해 이 최대값 추정 방법을 실제로 사용한 것에서 유래했다.

이 문제에서 최대값 N에 대한 균일 최소 분산 불편 추정량 (UMVU)은 다음과 같다.

:\hat{N} = \frac{k+1}{k} m - 1 = m + \frac{m}{k} - 1

여기서 m은 표본 내의 표본 최대값이고, k는 표본 크기이다.[1][2][3] 이 추정 방식은 최대 간격 추정의 매우 간단한 예시로 볼 수 있다.

이 식은 직관적으로 "표본의 최댓값에 관측된 표본값들의 평균 간격을 더한 것"으로 이해할 수 있다. 이 평균 간격 \frac{m}{k}은 표본 최댓값이 가지는 음의 편향을 보정하기 위해 더해진다.[4]

이 추정량의 분산은 다음과 같다.[1][2]

:\frac{1}{k} \frac{(N-k)(N+1)}{k+2} \approx \frac{N^2}{k^2} \quad (\text{표본 크기 } k\text{가 } N\text{에 비해 매우 작을 때}, k \ll N)

따라서 표준 편차는 약 \frac{N}{k}이며, 이는 모집단에서 표본들 사이의 평균 간격 크기와 같다.

한편, 표본 최댓값 m 자체는 모집단 최댓값 N에 대한 최대 우도 추정량이기는 하지만, 위에서 설명한 것처럼 편향된 추정량이다.

만약 표본들이 숫자로 주어지지 않고 단순히 식별 가능한 표지로 주어진다면, 표지 재포획법을 사용하여 모집단 크기를 추정할 수도 있다.

2. 4. 표지-재포획법

이산 균등 분포에서 추출된 표본이 순서대로 매겨지지 않고 단순히 식별 가능하거나 표지를 부여할 수 있는 경우, 표지-재포획법을 사용하여 모집단의 크기를 추정할 수 있다.

3. 무작위 순열

균등하게 분포된 무작위 순열의 고정점 개수에 대한 확률 분포는 만남 수를 통해 설명된다.

4. 성질

정수 범위에 대한 이산 균등 분포군은 경계가 하나 또는 둘 다 알려지지 않은 경우, 표본 최대값, 표본 최소값, 표본 크기의 세 가지로 구성된 유한 차원의 충분 통계량을 갖는다.

제한된 정수 범위에 대한 이산 균등 분포는 매개변수에 따라 지지 집합이 변동하므로 지수족 분포를 구성하지 않는다.

지지 집합이 매개변수에 의존하지 않는 분포족의 경우, 피트만-쿱만-다르모아 정리에 따르면 지수족만이 표본 크기가 증가함에 따라 차원이 제한되는 충분 통계량을 갖는다. 따라서 균등 분포는 이 정리의 조건을 보여주는 간단한 예시이다.

참조

[1] 논문 Estimating the Size of a Population
[2] 논문 Estimating the Size of a Population http://www.rsscse.or[...]
[3] 서적 Getting the Best from Teaching Statistics http://www.rsscse.or[...]
[4] 문서 標本の最大値は母集団の最大値を超えることは決してないが、小さくなることはありうる。したがって、バイアスのある推定値である。母集団の最大値は小さく推定される傾向がある。



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com