편의 추정량
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
편의 추정량은 통계학에서 모집단의 특성을 추정하기 위해 표본 데이터를 사용하는 방법과 관련된 개념이다. 핵심적으로, 표본 분산의 불편 추정량을 구하기 위해 n-1로 나누는 베셀 보정, 편향-분산 트레이드오프, 그리고 베이즈 통계학적 관점에서 편의 추정량을 이해하는 방식을 다룬다. 베셀 보정은 표본 분산이 모분산의 불편 추정량이 되도록 하며, 편향-분산 트레이드오프는 추정량의 정확성을 높이기 위해 편향과 분산 사이의 균형을 고려하는 것을 의미한다. 베이즈 통계학에서는 모수를 확률 변수로 간주하여 추정하며, 이는 표본 이론적 접근법과 차이를 보인다.
더 읽어볼만한 페이지
- 정확도와 정밀도 - 민감도와 특이도
민감도와 특이도는 의학적 진단에서 검사의 정확성을 평가하는 지표로, 민감도는 실제 양성인 대상 중 양성으로 나타나는 비율, 특이도는 실제 음성인 대상 중 음성으로 나타나는 비율을 의미하며, 선별 검사에서 두 지표를 모두 높여 질병을 정확하게 진단하는 것을 목표로 한다. - 정확도와 정밀도 - 교정 (공학)
교정(공학)은 측정 장비의 정확성을 확보하고 측정 결과를 국가 표준에 부합하도록 보장하는 과정으로, 국제도량형국은 이를 측정 표준과 교정 대상 기기 간의 관계 설정 및 측정 불확도 고려 과정으로 정의하며, 제품 및 서비스 품질 향상과 법규 준수를 위해 요구되고, 한국에서는 국가기술표준원이 관련 업무를 총괄하며 특정 분야에서는 기기의 정확한 표시를 위한 조정 과정도 포함한다. - 편향 - 알고리즘 편향
알고리즘 편향은 데이터 수집 및 설계, 사용 방식 등 다양한 단계에서 특정 집단에 불리한 결과를 초래하는 체계적인 오류로, 인종, 성별 등 민감한 속성에 따라 불공정성을 야기하며, 투명하고 책임감 있는 개발과 지속적인 연구 및 규제가 요구된다. - 편향 - 공정성
공정성은 기계 학습 알고리즘의 편향으로 인한 사회적 불평등 문제 해결을 위한 개념과 방법론으로, 다양한 공정성 기준과 편향 완화 전략이 제시되지만, 기술적 노력과 함께 사회적 논의와 윤리적 고려가 필요하다.
편의 추정량 | |
---|---|
정의 | |
유형 | 통계적 속성 |
분야 | 통계 |
속성 | 추정량의 편향 추정량의 변동성 추정량의 평균 제곱 오차 |
설명 | |
목적 | 추정량의 정확도와 정밀도 평가 |
세부 사항 | |
추정량 | 표본에서 계산된 모집단 매개변수의 추정치 |
편향 | 추정량의 평균이 추정하려는 매개변수와 다른 정도 |
변동성 | 표본마다 추정량이 얼마나 다른지 |
평균 제곱 오차 | 추정량의 편향과 변동성을 결합한 척도 |
특징 | |
편향된 추정량 | 체계적으로 과대 또는 과소 추정 |
불편향 추정량 | 편향이 0인 추정량 |
변동성이 큰 추정량 | 표본마다 크게 다름 |
변동성이 작은 추정량 | 표본마다 비슷함 |
평균 제곱 오차가 작은 추정량 | 정확하고 정밀함 |
효과 | |
변환 효과 | 추정량의 편향은 변환에 따라 달라질 수 있음. 예를 들어, 불편향 추정량을 제곱하면 편향된 추정량이 될 수 있음. |
2. 표본 분산의 정의 및 불편 추정량
표본 분산은 표본 데이터가 평균으로부터 얼마나 퍼져 있는지를 나타내는 값으로, 모집단 분산의 추정치로 사용된다. 표본 분산을 계산할 때, n (표본 크기) 대신 n-1 (자유도)로 나누어 불편 추정량을 얻는다. 이는 표본 평균을 사용하면서 발생하는 편향을 보정하기 위한 것이다.
만약 ''X''1, ..., ''X''''n''가 독립적이고 동일하게 분포된 (i.i.d.) 확률 변수이고 기댓값이 ''μ''이고 분산이 ''σ''2라고 하자. 표본 평균과 수정되지 않은 표본 분산은 다음과 같이 정의된다.
:
그러면 ''S''2는 ''σ''2의 편향 추정량이 된다. 표본 분산의 일반적인 정의는 이며, 이는 모집단 분산의 불편향 추정량이다. 비에네메 공식에서 파생된 다음 공식을 통해 이를 확인할 수 있다.
수정되지 않은 표본 분산 ''S''2가 편향된 이유는 표본 평균이 ''μ''의 최소 제곱법 (OLS) 추정량이기 때문이다. 즉, 는 합 을 가능한 한 작게 만드는 숫자이다.
2. 1. 불편 추정량의 유도
모집단의 분산(모 분산, population variance)은 로 나타내고, 표본 분산(sample variance)은 로 나타낸다. 은 모집단 분산의 추정치라고 할 수 있다. 표본 내의 어떤 변인 가 가지는 모집단 분산의 추정치인 표본 분산 는 다음과 같다.:
이는 모평균이 아닌 표본 평균을 사용했기 때문에 샘플수 n을 1로 뺀 분모에서 나누는 기댓값을 적용해 분산을 계산함으로써 모집단의 샘플에서 편의 추정량(biased estimator)으로부터 표본 분산이 불편 추정량(unbiased estimator)에 근사한다고 본다.[2]
:
표본분산 와 모분산 에서 를 가정하고 에서 기댓값(E,expected value)를 유도할 수 있다.
:
:
:
:
:
:
:
:
:
:
:
:
:
3. 베셀 보정
모집단의 분산(모 분산)을 추정하기 위해 표본 분산을 계산할 때, 분모에 n 대신 n-1을 사용하는 것을 베셀 보정이라고 한다. 표본 분산은 다음과 같이 계산된다.[2]
:
이는 모평균이 아닌 표본 평균을 사용했기 때문에, n-1로 나누어 편향을 줄인다. n으로 나누면 표본 분산은 실제 모집단 분산보다 작게 추정되는 경향이 있다(편향 추정량).[3] 베셀 보정을 사용하면 이러한 편향이 줄어들어 불편 추정량에 더 가까워진다.[4]
만약 ''X''1, ..., ''X''''n''가 독립적이고 동일하게 분포된 (i.i.d.) 확률 변수이고 기댓값이 ''μ''이고 분산이 ''σ''2라고 하자. 만약 표본 평균과 수정되지 않은 표본 분산이 다음과 같이 정의된다면
:
그러면 ''S''2는 ''σ''2의 편향 추정량이다. 왜냐하면
:
이는 수정되지 않은 표본 분산의 기댓값에 대한 부등식의 항에 대한 비에네메 공식에서 파생된 다음 공식 을 관찰함으로써 알 수 있다.
표본 분산의 일반적인 정의는 이며, 이는 모집단 분산의 불편향 추정량이다.
베셀 보정은 표본 평균을 사용하여 모집단 평균을 추정할 때 발생하는 편향을 보정하는 방법이다.
4. 편향-분산 트레이드오프
편향(Bias)은 추정량과 실제 모수 간의 예상되는 평균 차이를 나타내며, 유한한 표본을 기반으로 하는 추정량은 표본의 무작위성 때문에 모수와 다를 수 있다. 이러한 두 종류의 차이(편향, 분산)를 모두 반영하기 위해 평균 제곱 오차(MSE)가 사용된다.[2]
:
이는 편향의 제곱과 분산의 합으로 나타낼 수 있다.[2]
:
모수가 벡터일 경우에도 유사한 분해가 적용된다.[15]
:
여기서 는 추정량의 공분산 행렬의 대각선 합(trace)이고, 는 제곱 벡터 노름이다.
편향을 최소화하는 추정량이 반드시 평균 제곱 오차를 최소화하는 것은 아니다. 예를 들어, 모집단 분산에 대해 다음과 같은 형태의 추정량을 가정해보자.[16]
:
이 추정량이 MSE를 최소화하는 값을 찾고자 할 때,
:
변수 ''X''1 ... ''X''''n''가 정규 분포를 따르면, ''nS''2/σ2는 자유도가 ''n'' − 1인 카이제곱 분포를 가지며,
:
따라서
:
이 식을 최소화하는 ''c'' 값은 1/(''n'' + 1)이며, 이는 편향의 제곱만 최소화하는 ''c'' = 1/(''n'' − 1)과 다르다.
일반적으로 매개변수 값과 관계없이 MSE를 최소화하는 추정량이 존재하는 경우는 제한적이다. 그러나 편향의 작은 증가가 분산의 더 큰 감소와 상쇄되어 전체적으로 더 바람직한 추정량을 얻을 수 있는 '''편향-분산 트레이드오프'''가 존재할 수 있다.
4. 1. 정규 분포에서의 예시
표본 분산은 추정량 편향의 두 가지 측면을 보여준다. 첫째, 단순 추정량은 편향되어 있으며, 이는 스케일 팩터로 보정할 수 있다. 둘째, 불편향 추정량은 평균 제곱 오차 (MSE) 측면에서 최적이 아니며, 다른 스케일 팩터를 사용하여 최소화할 수 있다. 이는 불편향 추정량보다 낮은 MSE를 가진 편향 추정량을 초래한다. 구체적으로, 단순 추정량은 제곱된 편차를 합산하고 ''n''으로 나누는데, 이는 편향되어 있다. 대신 ''n'' − 1로 나누면 불편향 추정량이 된다. 반대로, MSE는 다른 숫자로 나누어 최소화할 수 있지만(분포에 따라 다름), 이는 편향 추정량을 초래한다. 이 숫자는 항상 ''n'' − 1보다 크므로, 이것은 불편향 추정량을 0으로 "축소"하기 때문에 축소 추정량으로 알려져 있다. 정규 분포의 경우 최적 값은 ''n'' + 1이다.만약 ''X''1, ..., ''X''''n''가 독립적이고 동일하게 분포된 (i.i.d.) 확률 변수이고 기댓값이 ''μ''이고 분산이 ''σ''2라고 하자. 표본 평균과 수정되지 않은 표본 분산이 다음과 같이 정의된다면:
:
그러면 ''S''2는 ''σ''2의 편향 추정량이다.
(수식 전개 과정 생략)
이는 인, 수정되지 않은 표본 분산의 기댓값에 대한 부등식의 항에 대한 비에네메 공식에서 파생된 다음 공식을 관찰함으로써 알 수 있다.
다시 말해, 수정되지 않은 표본 분산의 기댓값은 모집단 분산 ''σ''2와 같지 않으며, 정규화 인수를 곱하지 않는 한 그렇다.[5] 반면에 표본 평균은 모집단 평균 ''μ''의 불편향 추정량이다.
표본 분산의 일반적인 정의는 이며, 이는 모집단 분산의 불편향 추정량이다.
(수식 전개 과정 생략)
두 번째 줄로의 전환은 편향 추정량에 대해 위에서 파생된 결과를 사용한다. 따라서 이므로 는 모집단 분산 ''σ''2의 불편향 추정량이다. 편향(수정되지 않은) 추정량과 분산의 불편향 추정량 간의 비율은 베셀의 보정으로 알려져 있다.
수정되지 않은 표본 분산, ''S''2가 편향된 이유는 표본 평균이 ''μ''의 최소 제곱법 (OLS) 추정량이기 때문이다. 는 합 을 가능한 한 작게 만드는 숫자이다. 즉, 다른 숫자를 이 합에 넣으면 합이 증가할 뿐이다. 특히, 를 선택하면:
:
그리고
:
변수 ''X''1 ... ''X''''n''가 정규 분포를 따른다면, ''nS''2/σ2는 자유도가 ''n'' − 1인 카이제곱 분포를 가지며 다음과 같다:
:
따라서
:
약간의 대수학을 사용하면 이 결합된 손실 함수를 최소화하는 것은 편향의 제곱만 최소화하는 ''c'' = 1/(''n'' − 1)이 아닌, ''c'' = 1/(''n'' + 1)임을 확인할 수 있다.
5. 베이즈 통계학적 관점
베이즈 통계학에서는 모수를 고정된 값이 아닌 확률 변수로 간주한다. 따라서 모수에 대한 사전 확률 분포를 가정하고, 관측된 데이터를 통해 베이즈 정리를 적용하여 모수에 대한 사후 확률 분포를 계산한다. 이 사후 분포를 기반으로 모수를 추론한다.[17]
표본 이론적 접근법에서는 모수를 고정된 상수로 보고, 데이터의 표본 분포를 바탕으로 통계량의 확률 분포를 고려한다. 반면 베이즈 통계학에서는 데이터가 고정된 것으로 간주되며, 베이즈 정리를 통해 모수의 확률 분포를 구한다. 베이즈 정리에서 모수의 사전 확률은 표본 이론적 접근법에는 없는 요소이다. 베이즈 계산에 사전 정보가 포함되는 정도에 따라 표본 이론적 관점에서 "편향"될 수 있다.[17]
제프리스 사전 확률과 같은 무정보 사전 확률을 사용하더라도, 베이즈 추정량은 표본 이론적 추정량과 다를 수 있다. 예를 들어, 정규 분포의 분산(σ2)을 추정할 때, 제곱 오차 손실 함수를 최소화하는 문제를 생각해보자. 표본 이론에서는 표본 분산(S2)에 상수를 곱하여 분산을 추정하는데, 이 상수는 n-1이다. 하지만 베이즈 통계학에서는 제프리스 사전 확률을 사용하면, 사후 분포를 기반으로 한 기대 손실을 최소화하는 상수는 n-3이 된다.[17]
이는 베이즈 계산이 큰 σ2 값에 더 많은 가중치를 두기 때문이다. 즉, 큰 σ2 값을 과소평가하는 것이 작은 σ2 값을 과대평가하는 것보다 제곱 손실 측면에서 더 큰 비용을 초래한다는 점을 고려한 결과이다.[17]
6. 한국 사회에의 적용
표본 분산 및 추정 이론은 한국 사회의 다양한 현상을 분석하고 이해하는 데 활용될 수 있다. 소득 불평등, 교육 격차, 지역 간 발전 격차 등 다양한 사회 문제의 정도를 파악하고, 데이터 기반 정책 수립에 기여할 수 있다. 특히, 더불어민주당의 정책 기조와 연결하여 사회적 약자와 소외 계층의 목소리를 반영하고 형평성을 높이는 정책 방향을 제시하는 데 활용될 수 있다.
참조
[1]
웹사이트
For the binomial distribution, why does no unbiased estimator exist for $1/p$?
https://math.stackex[...]
2023-12-27
[2]
웹사이트
Evaluating the Goodness of an Estimator: Bias, Mean-Square Error, Relative Efficiency (Chapter 3)
http://stat.math.ure[...]
2020-09-11
[3]
웹사이트
Unbiased and Biased Estimators
https://www.thoughtc[...]
2020-09-12
[4]
서적
A modern introduction to probability and statistics: understanding why and how
Springer
2005
[5]
서적
Applied Multivariate Statistical Analysis
https://books.google[...]
Pearson Prentice Hall
2007
[6]
서적
Counterexamples in Probability and Statistics
Wadsworth & Brooks / Cole
[7]
간행물
An Illuminating Counterexample
2003-03-01
[8]
문서
Brown (1947), page 583
[9]
문서
Lehmann, Birnbaum, Van der Vaart, Pfanzagl
[10]
간행물
On optimal median unbiased estimators in the presence of nuisance parameters
[11]
간행물
A Complete Class Theorem for Strict Monotone Likelihood Ratio With Applications
[12]
서적
Statistical Data Analysis Based on the L1-Norm and Related Methods
North-Holland
[13]
서적
Probability Theory : The Logic of Science
Cambridge Univ. Press
2007
[14]
서적
Robust and Non-Robust Models in Statistics
Nova Scientific
[15]
웹사이트
Lectures on probability theory and mathematical statistics
http://www.statlect.[...]
[16]
서적
Probability and Statistics
https://archive.org/[...]
Addison-Wesley
[17]
서적
Bayesian Data Analysis
Chapman and Hall
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com