추정 이론
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
추정 이론은 모집단의 알려지지 않은 파라미터 값을 표본 데이터를 통해 추론하는 통계적 방법론이다. 점추정과 구간추정으로 나뉘며, 점추정은 단일 수치로, 구간추정은 파라미터의 참값이 포함될 것으로 예상되는 구간으로 값을 추정한다. 추정치를 구하는 방법으로는 최소제곱법, 최대우도 추정 등이 있으며, 최대우도 추정은 표본을 얻을 확률을 파라미터의 함수로 간주하여 확률이 최대가 되도록 파라미터 값을 추정한다. 추정 이론은 과학 실험 해석, 신호 처리, 여론 조사 등 다양한 분야에서 활용되며, 독일 전차 문제와 같은 예시를 통해 추정의 원리를 설명하기도 한다.
더 읽어볼만한 페이지
- 추정 이론 - 기댓값 최대화 알고리즘
- 추정 이론 - 델파이 기법
델파이 기법은 전문가들의 의견을 반복적인 피드백을 통해 수렴하여 문제를 해결하는 하향식 의견 도출 방법으로, 익명성, 정보 흐름의 구조화, 정기적인 피드백을 특징으로 하며 다양한 분야에서 활용된다. - 신호 처리 - 대역폭 (신호 처리)
대역폭은 주파수 영역에서 함수의 퍼짐 정도를 나타내는 척도로, 통신 분야에서는 변조된 반송파 신호가 차지하는 주파수 범위, 다른 분야에서는 시스템 성능을 유지하거나 저하가 발생하는 주파수 범위를 의미하며, 다양한 측정 방식과 함께 여러 분야에서 활용된다. - 신호 처리 - 선형 시불변 시스템
선형 시불변 시스템은 선형성과 시불변성을 만족하는 시스템으로, 임펄스 응답으로 특성화되며, 컨볼루션, 주파수 영역 분석 등을 통해 분석하고, 통신, 신호 처리 등 다양한 분야에 응용된다.
추정 이론 | |
---|---|
추정 이론 | |
학문 분야 | |
분야 | 통계학 |
하위 분야 | 베이즈 추론 최소 제곱법 최대 가능도 추정법 최대 사후 확률 추정 모멘트 방법 칼만 필터 |
같이 보기 | |
관련 항목 | 결정 이론 신호 처리 정보 이론 역문제 최적 제어 확률론 수리 통계학 통계 신호 처리 통계적 학습 |
2. 추정의 기본 원리
모집단의 미지의 특정치(파라미터), 예를 들면 평균, 표준편차, 비율 등에 관해서 그 값을 표본으로부터 추측하는 것을 추정이라고 한다. 파라미터의 추정치로는 점추정치와 구간추정치 두 가지 종류가 일반적으로 쓰인다. 어떤 통계량이 그 파라미터의 추정치로서 좋은가를 판단하는 기준은 크게 보아 통계량의 평균에 관한 것과 분산에 관한 것 두 가지가 있다.[4]
- 불편성(不偏性): 통계량의 평균이 추정하려는 진정한 파라미터와 같다는 성질.
- 최량불편 추정치(最良不偏推定値): 불편성을 가지면서 모든 불편 추정치 중에서 분산이 가장 작은 추정치.
추정치를 도출하는 방법으로는 최소자승법과 최우법(最尤法)이 자주 쓰이는데, 최우법은 이론적으로 가장 많은 장점을 갖는 방법으로, 표본을 얻을 수 있는 확률(우도 함수)을 추정하려는 미지의 파라미터의 함수로 생각하고, 이 확률이 최대가 되도록 파라미터의 값을 추정하는 방법이다.[4]
추정의 예시로는 다음과 같은 것들이 있다.
- 특정 후보에게 투표할 유권자 인구의 비율 추정
- 레이다에서 목표물의 범위 추정
- 전기 통신 이론에서 잡음 섞인 신호의 매개변수 추정
2. 1. 점추정
모집단의 미지의 특정치(파라미터) (예: 평균, 표준편차, 비율 등)를 표본으로부터 추측하는 것을 추정이라고 한다. 파라미터의 추정치에는 점추정치와 구간추정치가 있다. 점추정치는 파라미터의 측정치로서 표본으로부터 하나의 수치를 계산하는 것이다. 예를 들어, 어떤 기계로 생산된 50개의 부품 중 불량품의 비율은 그 기계로 생산되는 부품의 불량률에 대한 점추정치이다.[4]좋은 점추정치를 판단하는 기준은 크게 두 가지가 있다. 첫째는 통계량의 평균에 관한 것으로, 불편성(不偏性)이 대표적이다. 불편성은 통계량의 평균이 추정하려는 실제 파라미터와 같다는 성질을 의미한다. 불편성의 성질을 갖는 추정치를 불편추정치(不偏推定値)라고 한다. 예를 들어, 표본평균은 모집단 평균의 불편추정치이다. 둘째는 통계량의 분산에 관한 것으로, 평균적으로 실제 파라미터 값을 주는 조건 하에서 분산이 작을수록 좋다. 불편성을 가지면서 모든 불편 추정치 중에서 분산이 가장 작은 추정치를 최량불편 추정치(最良不偏推定値)라고 한다.[4]
추정치를 도출하는 방법으로는 최소자승법과 최우법(最尤法)이 자주 쓰인다. 최우법은 이론적으로 가장 많은 장점을 갖는 방법으로, 표본을 얻을 수 있는 확률(우도 함수)을 추정하려는 미지의 파라미터의 함수로 생각하고, 이 확률이 최대가 되도록 파라미터의 값을 추정하는 방법이다.[4]
주어진 모델에서 추정기를 구현하기 위해 필요한 통계적 요소는 다음과 같다.
- 크기 ''N''의 확률 벡터에서 가져온 데이터 포인트 집합인 통계적 표본 ()
- 추정해야 하는 값인 ''M''개의 매개변수 ()
- 데이터를 생성한 기본 분포의 확률 밀도 함수 또는 확률 질량 함수 ()
매개변수 자체가 확률 분포를 가질 경우(예: 베이즈 통계) 베이즈 확률 ()을 정의해야 한다.
모델이 형성된 후, 목표는 매개변수를 추정하는 것이며, 추정치는 일반적으로 로 표시된다. 일반적인 추정기 중 하나는 최소 평균 제곱 오차 (MMSE) 추정기이다.
예시:이산 신호 을 수신한다고 가정했을 때, 개의 독립적인 통계 표본은 알려지지 않은 상수 와 가산 백색 가우시안 잡음(AWGN) (평균 0, 분산 )으로 구성된다.
신호 모델은 이다.
파라미터 에 대한 가능한 추정량 두 가지는 다음과 같다.
- (표본 평균)
두 추정량 모두 의 평균을 가지지만, 분산을 비교하면 표본 평균()이 모든 ''N'' > 1에 대해 분산이 더 낮으므로 더 나은 추정량임을 알 수 있다.
표본 평균 추정량의 크라메르-라오 하한 (CRLB)은 이다. 표본 평균의 분산과 비교하면 표본 평균이 모든 및 값에 대해 크라메르-라오 하한과 같다는 것을 알 수 있다. 즉, 표본 평균은 효율적인 추정량이며, 최소 분산 불편 추정량 (MVUE)이자, 최대 우도 추정량이다.
2. 2. 구간추정
모집단의 알 수 없는 특정 값, 즉 평균, 표준편차, 비율과 같은 파라미터에 대해, 표본을 통해 그 값을 추측하는 것을 추정이라고 한다. 파라미터의 추정치로는 점추정치와 구간추정치 두 가지가 일반적으로 사용된다. 점추정치는 파라미터의 측정치로서 표본으로부터 어떤 하나의 수치를 계산하는 것이다. 예를 들어, 어떤 기계로 생산된 50개의 부품 중 불량품의 비율은 그 기계로 생산되는 부품의 불량률에 대한 점추정치이다. 반면 구간추정치는 두 개의 수치로 결정되는 구간이며, 그 구간 안에 파라미터의 참값이 포함된다고 생각하는 것이다.[4]구간추정법은 표본에서 어떤 구간을 계산하여, 추정하려는 파라미터의 참값을 그 구간이 포함할 확률이 특정 값(주로 0.95나 0.99)이 되도록 하는 방법이다. 이 확률을 구간추정치의 신뢰계수라고 하며, 신뢰계수가 0.95인 구간을 95% 신뢰구간이라고 한다. 예를 들어, 추정치의 분포가 정규분포인 경우, 추정치 주위에 그 표준편차의 1.96배로 폭을 설정하면 신뢰계수 95%의 구간추정이 가능하다.[4]
3. 추정 방법
주어진 모델에서 추정기를 구현하려면 몇 가지 통계적 요소가 필요하다. 먼저, 크기 ''N''의 확률 벡터에서 가져온 데이터 포인트 집합인 통계적 표본이 필요하며, 이는 벡터로 표현할 수 있다.
둘째, 추정해야 하는 값인 ''M''개의 매개변수가 필요하다.
셋째, 데이터를 생성한 기본 분포의 연속 확률 밀도 함수(pdf) 또는 이산 확률 질량 함수(pmf)는 매개변수 값에 따라 조건부로 명시되어야 한다.
매개변수 자체가 확률 분포를 가질 수도 있는데(예: 베이즈 통계), 이 경우 베이즈 확률을 정의해야 한다. 모델이 형성된 후에는 매개변수를 추정하는 것이 목표이며, 추정치는 일반적으로 로 표시된다. 여기서 "hat"은 추정치를 나타낸다.
일반적인 추정기 중 하나는 최소 평균 제곱 오차(MMSE) 추정기이다. 이는 추정된 매개변수와 실제 매개변수 값 간의 오차를 제곱하고, 그 기댓값을 최소화하는 방식으로 동작한다.
널리 사용되는 추정량(추정 방법)과 관련된 주제는 다음과 같다.
- 최대 우도 추정량
- 베이즈 추정량
- 적률법 추정량
- 크라메르-라오 하한
- 최소 제곱법
- 최소 평균 제곱 오차 (MMSE) - 베이즈 최소 제곱 오차(BLSE)라고도 함
- 최대 사후 확률 추정 (MAP)
- 최소 분산 불편 추정량 (MVUE)
- 비선형 시스템 식별
- 최량 선형 불편 추정량 (BLUE)
- 불편 추정량 — 추정량 편향 참조
- 입자 필터
- 마르코프 연쇄 몬테카를로 (MCMC)
- 칼만 필터 및 다양한 파생 모델
- 위너 필터
이산 신호 을 수신할 때, 개의 독립적인 통계 표본이 알려지지 않은 상수 와 가산 백색 가우시안 잡음(AWGN) 으로 구성된다고 가정한다. 이 잡음은 평균이 0이고 분산이 (즉, )으로 알려져 있다. 유일한 미지 파라미터는 이다.
신호 모델은 다음과 같다.
:
에 대한 가능한 추정량 두 가지는 다음과 같다.
- (이는 표본 평균이다)
두 추정량 모두 의 평균을 가지며, 각 추정량의 기대값을 계산하면 이를 확인할 수 있다.
:
:
두 추정량은 동일하게 작동하는 것처럼 보이지만, 분산을 비교하면 차이가 명확해진다.
:
:
표본 평균은 모든 ''N'' > 1에 대해 분산이 더 낮으므로 더 나은 추정량으로 보인다.
크라메르-라오 하한 (CRLB)을 통해 표본 평균 추정량의 피셔 정보량을 찾을 수 있다.
알 수 없는 최댓값을 가진 이산 균등 분포 이 주어졌을 때, 최댓값에 대한 UMVU 추정량은 다음과 같다.
:
여기서 ''m''은 표본 최댓값이고 ''k''는 표본 크기이며, 비복원 추출을 한다.[2][3] 이 문제는 제2차 세계 대전 중 독일 전차 생산량 추정에 최대 추정을 적용한 데서 기인하여 일반적으로 독일 전차 문제로 알려져 있다.
이 공식은 직관적으로 "표본 최댓값에 표본 내 관측치 간 평균 간격을 더한 값"으로 이해할 수 있다. 이 간격은 표본 최댓값의 음의 편향을 보상하기 위해 추가된다.
분산은[2]
:
이므로, 표준 편차는 대략 인데, 이는 표본 간 간격의 (모집단) 평균 크기이다. 위의 와 비교해 보라. 이는 최대 간격 추정의 매우 간단한 경우로 볼 수 있다.
표본 최댓값은 모집단 최댓값에 대한 최대 우도 추정량이지만, 편향되어 있다.
3. 1. 최대우도(Maximum Likelihood) 추정
최우법(最尤法, Maximum Likelihood)은 어떤 모집단의 파라미터를 추정하는 방법 중 하나이다. 이 방법은 표본을 얻을 확률을 나타내는 우도 함수(尤度函數)를 최대화하는 파라미터 값을 찾는 방식으로 동작하며, 이론적으로 가장 많은 장점을 가진 방법으로 알려져 있다.[4]예를 들어, 이산 신호 을 수신할 때, 개의 독립적인 통계 표본이 알려지지 않은 상수 와 가산 백색 가우시안 잡음(AWGN) 으로 구성된다고 가정한다. 잡음은 평균이 0이고 분산이 (즉, )으로 알려져 있다. 이 경우, 유일하게 알려지지 않은 파라미터는 이다.
신호 모델은 다음과 같다.
이때, 파라미터 에 대한 최대 우도 추정량을 구하는 과정은 다음과 같다.
먼저, 하나의 표본 에 대한 잡음의 확률 밀도 함수(pdf)는 다음과 같다.
의 확률은 로 생각할 수 있으므로 다음과 같다.
독립성에 의해, 의 확률은 다음과 같이 표현된다.
이 식의 자연 로그를 취하면 다음과 같다.
최대 우도 추정기는 로그-우도 함수를 최대로 만드는 값을 찾는 것이다.
로그-우도 함수의 첫 번째 도함수를 구하고 0으로 설정하면 다음과 같다.
이를 통해 최대 우도 추정기는 다음과 같이 결정된다.
이는 단순히 표본 평균과 같다. 따라서 AWGN에 의해 손상된 고정된 미지의 파라미터의 개 표본에 대한 최대 우도 추정기는 표본 평균이다.
최우법은 독일 전차 문제와 같이 실생활 문제에도 적용될 수 있다. 제2차 세계 대전 중 독일 전차 생산량을 추정하는 데 최대 추정 방법을 사용하였는데, 이 문제는 독일 전차 문제로 알려져 있다.[2][3]
3. 2. 최소제곱(Least Squares) 추정
최소 제곱법은 널리 사용되는 추정량(추정 방법) 중 하나이다. 최소제곱법은 추정치를 도출하는 방법으로 자주 쓰인다.[4]3. 3. 베이즈(Bayesian) 추정
3. 4. 적률(Method of Moments) 추정
널리 사용되는 추정량(추정 방법) 중 하나는 적률법 추정량이다.4. 추정량의 종류
- 최대우도 추정량
- 베이즈 추정량
- 적률법 추정량
- 크라메르-라오 하한
- 최소 제곱법
- 최소 평균 제곱 오차 (MMSE), 베이즈 최소 제곱 오차(BLSE)라고도 함
- 최대 사후 확률 추정 (MAP)
- 최소 분산 불편 추정량 (MVUE)
- 비선형 시스템 식별
- 최량 선형 불편 추정량 (BLUE)
- 불편 추정량 — 추정량 편향 참조.
- 입자 필터
- 마르코프 연쇄 몬테카를로 (MCMC)
- 칼만 필터 및 다양한 파생 모델
- 위너 필터
5. 추정 이론의 활용 분야
추정 이론은 다양한 분야에서 활용되고 있다.
예를 들어, 특정 후보에게 투표할 유권자 비율을 추정할 때는 소규모 유권자 무작위 표본을 기반으로 추정한다. 또는 연령과 같은 인구 통계적 특징을 기반으로 특정 후보에게 투표할 유권자의 확률을 추정할 수 있다.
레이다에서는 송신 펄스의 반사파 왕복 시간을 분석하여 물체(비행기, 보트 등)의 범위를 찾는다. 반사 펄스는 전기적 잡음에 묻히므로, 측정된 값은 무작위로 분포되어 통과 시간을 추정해야 한다.
전기 통신 이론에서 측정값은 종종 잡음 신호와 관련이 있다.
측정된 데이터는 잡음 또는 불확실성의 영향을 받을 수 있으며, 통계적 확률을 통해 데이터에서 가능한 많은 피셔 정보를 추출하기 위한 최적의 해를 찾는다.
6. 추가 설명: 독일 전차 문제
제2차 세계 대전 중 독일 전차 생산량 추정에 최대 추정을 적용한 사례로, 독일 전차 문제로 널리 알려져 있다.[2]
알 수 없는 최댓값을 가진 이산 균등 분포 1, 2, …, ''N''이 주어졌을 때, 최댓값에 대한 UMVU 추정량은 다음과 같다.
:
여기서 ''m''은 표본 최댓값이고 ''k''는 표본 크기이며, 비복원 추출을 전제한다.[2][3]
이 공식은 직관적으로 다음과 같이 이해할 수 있다.
:"표본 최댓값에 표본 내 관측치 간 평균 간격을 더한 값"
이 간격은 표본 최댓값의 음의 편향을 보상하기 위해 추가된다. 표본 최댓값은 모집단 최댓값보다 클 수 없지만 작을 수 있으므로, 이는 편향 추정량이며 모집단 최댓값을 과소평가하는 경향이 있다.
이 추정량의 분산은 다음과 같다.
:
따라서 표준 편차는 대략 인데, 이는 표본 간 간격의 (모집단) 평균 크기와 유사하다. (위의 와 비교) 이는 최대 간격 추정의 매우 간단한 예시로 볼 수 있다.
표본 최댓값은 모집단 최댓값에 대한 최대 우도 추정량이지만, 앞서 논의한 바와 같이 편향되어 있다.
참조
[1]
서적
Identification of Parametric Models from Experimental Data
Springer-Verlag
[2]
논문
Estimating the Size of a Population
[3]
간행물
Getting the Best from Teaching Statistics
http://www.rsscse.or[...]
[4]
문서
추정
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com