맨위로가기

베셀 보정

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

베셀 보정은 모집단 평균을 알 수 없을 때 표본 분산으로 모집단 분산을 추정할 때 발생하는 편향을 수정하는 방법이다. 수정되지 않은 표본 분산에 n/(n-1)을 곱하여 비편향 추정량을 얻으며, 이는 잔차 벡터의 자유도로 이해할 수 있다. 베셀 보정은 유한한 표본 크기로 인한 편향을 줄이기 위한 접근 방식이며, 표준 편차의 무편향 추정량을 제공하지는 않는다. 또한, 수정된 추정량이 수정되지 않은 추정량보다 평균 제곱 오차가 더 클 수 있으며, 모집단 평균이 알려진 경우에는 베셀 보정이 필요하지 않다.

더 읽어볼만한 페이지

  • 통계 분석 - 표준 오차
    표준 오차는 표본 통계량의 불확실성을 측정하는 지표이며, 표본 평균이 모집단 평균에서 얼마나 떨어져 있는지 추정하는 데 사용되고, 표본 크기가 커질수록 감소하며, 통계적 추론에 활용된다.
  • 추정법 - 기댓값 최대화 알고리즘
  • 추정법 - 델파이 기법
    델파이 기법은 전문가들의 의견을 반복적인 피드백을 통해 수렴하여 문제를 해결하는 하향식 의견 도출 방법으로, 익명성, 정보 흐름의 구조화, 정기적인 피드백을 특징으로 하며 다양한 분야에서 활용된다.
  • 추정 이론 - 기댓값 최대화 알고리즘
  • 추정 이론 - 델파이 기법
    델파이 기법은 전문가들의 의견을 반복적인 피드백을 통해 수렴하여 문제를 해결하는 하향식 의견 도출 방법으로, 익명성, 정보 흐름의 구조화, 정기적인 피드백을 특징으로 하며 다양한 분야에서 활용된다.
베셀 보정

2. 베셀 보정의 정의

모집단 평균을 알 수 없는 경우, 표본을 통해 모집단의 분산추정할 때 수정되지 않은 표본 분산은 편향 추정량이 된다. 수정되지 않은 표본 분산은 표본 값에서 표본 평균까지의 편차 제곱의 평균으로 계산된다(즉, 1/''n''을 곱한다).[2][3]

이때, 수정되지 않은 표본 분산에 ''n''/(''n'' - 1)을 곱하면 모집단 분산의 비편향 추정량을 얻을 수 있다. 이 ''n''/(''n'' - 1)을 곱하는 과정을 베셀 보정이라고 한다.

베셀 보정은 잔차 벡터의 자유도로 이해할 수 있다. 잔차 벡터는 (x1 - \overline{x}, ..., xn - \overline{x})로 표현되며, 여기서 \overline{x}는 표본 평균이다. 표본에 ''n''개의 독립적인 관측치가 있지만, 잔차의 합은 0이 되므로 독립적인 잔차는 ''n'' - 1개만 존재한다.

일반적으로 베셀 보정은 유한한 표본 크기로 인해 발생하는 편향을 줄이기 위한 방법이다.

2. 1. 베셀 보정의 공식

표본 평균은 다음과 같이 주어진다.

:\overline{x}=\frac{1}{n}\sum_{i=1}^n x_i.

편향된 표본 분산은 다음과 같이 나타낸다.

:s_n^2 = \frac {1}{n} \sum_{i=1}^n \left(x_i - \overline{x} \right)^ 2 = \frac{\sum_{i=1}^n x_i^2}{n} - \frac{\left(\sum_{i=1}^n x_i\right)^2}{n^2}

그리고 비편향 표본 분산은 다음과 같이 나타낸다.

:s^2 = \frac {1}{n-1} \sum_{i=1}^n \left(x_i - \overline{x} \right)^ 2 = \frac{\sum_{i=1}^n x_i^2}{n-1} - \frac{\left(\sum_{i=1}^n x_i\right)^2}{(n-1)n} = \left(\frac{n}{n-1}\right)\,s_n^2.[2][3]

2. 2. 용어 정리


  • μ는 모집단 평균이다.
  • \overline{x}는 표본 평균이다.
  • σ2는 모집단 분산이다.
  • sn2는 편향된 표본 분산이다(즉, 베셀 보정을 적용하지 않음).
  • s2는 비편향 표본 분산이다(즉, 베셀 보정을 적용함).


표준 편차는 각 분산의 제곱근이다. 제곱근은 편향을 유발하므로, 표준 편차 추정량에 대해서는 "비보정"과 "보정"이라는 용어를 사용하는 것이 더 좋다.

  • sn은 비보정 표본 표준 편차이다(즉, 베셀 보정을 적용하지 않음).
  • s는 보정된 표본 표준 편차이다(즉, 베셀 보정을 적용함). s는 덜 편향되었지만, 여전히 편향되어 있다.[2][3][4]

3. 편향의 원인

표본 평균은 실제 모평균과 정확히 일치하지 않기 때문에, 표본 평균을 사용하여 분산을 계산하면 실제 분산보다 작게 추정되는 경향이 있다. 이를 편향이라고 한다. 이러한 편향은 표본 평균이 표본 데이터에 "가깝게" 맞춰져 있기 때문에 발생한다. 즉, 표본 평균으로부터의 거리 제곱합은 모집단 평균으로부터의 거리 제곱합보다 항상 작거나 같다.[1]

3. 1. 예시

모평균이 1000이라고 가정하고, 무작위로 추출된 다섯 개의 표본(1001, 1003, 1005, 1000, 1001)을 예로 들어 설명한다. 이 표본들의 표본평균은 다음과 같이 계산된다.

:(mean) = \frac{1}{5} (1001 + 1003 + 1005 + 1000 + 1001) = 1002

이 표본 평균(1002)은 실제 모평균을 모르기 때문에 사용되는 추정치이다. 만약 정확한 모평균을 알고 있다면, 모분산은 다음과 같이 계산될 수 있다.

:\begin{align}

{} & \frac{1}{5}\left[(1001 - 1000)^2 + (1003 - 1000)^2 + (1005 - 1000)^2 + (1000 - 1000)^2 + (1001 - 1000)^2\right] \\

= {} & \frac{36}{5} = 7.2

\end{align}

그러나 실제로는 모평균을 알 수 없으므로, 표본평균인 1002를 사용하여 모분산을 추정해야 한다.

:\begin{align}

{} & \frac{1}{5}\left[(1001 - 1002)^2 + (1003 - 1002)^2 + (1005 - 1002)^2 + (1000 - 1002)^2 + (1001 - 1002)^2\right] \\

= {} & \frac{16}{5} = 3.2

\end{align}

이 경우, 표본평균을 사용하여 계산된 분산(3.2)은 실제 모분산을 사용하여 계산된 분산(7.2)보다 작게 추정된다. 이는 표본평균이 모평균과 정확히 일치하지 않을 때 흔히 발생하며, 모분산을 모평균으로부터의 거리 제곱합으로 해석할 때, 모평균이 아닌 표본평균을 사용하면 거리 제곱합이 더 작아지기 때문이다.

극단적인 예시로, 모집단이 (0, 0, 0, 1, 2, 9)이고 모집단 평균이 2, 모집단 분산이 31/3인 경우를 생각해 보자. 크기가 1인 표본을 추출하여 x_1=0을 얻었다면, 모집단 평균의 최적 추정치는 0이 된다. 이 경우 분산 추정치는 0이 되는데, 이는 표본 평균 추정 과정에서 이미 평균 추정치가 표본 값에 가깝게 만들어졌기 때문이다. 즉, n=1일 때는 표본에 변동성이 없으므로 분산을 추정할 수 없다.

하지만 n=2이고 표본이 (0, 2)인 경우, 표본 평균은 1이 되고, 베셀 보정을 적용하지 않은 분산 추정치는 1이 되지만, 베셀 보정을 적용하면 2가 되어 불편향 추정치가 된다.

모집단 평균이 2050이라고 가정하고, 이를 모르는 상태에서 무작위로 선택한 표본 2051, 2053, 2055, 2050, 2051을 기반으로 추정해야 하는 경우를 생각해 보자.

표본 평균은 다음과 같이 계산된다.

:\frac{1}{5}(2051 + 2053 + 2055 + 2050 + 2051) = 2052

모집단 평균이 2050임을 알고 있다면, 분산은 다음과 같이 계산할 수 있다.

:\begin{align}

{} & \frac{1}{5}\left[(2051 - 2050)^2 + (2053 - 2050)^2 + (2055 - 2050)^2 + (2050 - 2050)^2 + (2051 - 2050)^2\right] \\[6pt]

= {} & \frac{36}{5} = 7.2

\end{align}

하지만 실제로는 모집단 평균을 모르므로, 표본 평균 2052를 사용하여 분산을 추정해야 한다.

:\begin{align}

{} & \frac{1}{5}\left[(2051 - 2052)^2 + (2053 - 2052)^2 + (2055 - 2052)^2 + (2050 - 2052)^2 + (2051 - 2052)^2\right] \\[6pt]

= {} & \frac{16}{5} = 3.2

\end{align}

이처럼 표본 평균을 사용하여 계산된 분산은 실제 분산보다 작게 추정된다. 이는 표본 평균이 모집단 평균과 정확히 일치하지 않는 한 거의 항상 발생한다. 표본 크기가 작을수록 이러한 차이는 더 커진다.

3. 2. 대수적 증명

편향의 원인은 대수적으로 증명 가능하다. 편차 제곱합을 최소화하는 것은 표본평균이며, 모평균을 사용했을 때보다 항상 작거나 같은 값을 가지기 때문이다.[1]

극단적인 예시로, 모집단이 (0, 0, 0, 1, 2, 9)이고 모집단 평균은 2, 모집단 분산은 31/3이라고 가정한다. 여기서 크기가 1인 표본 (n=1)을 추출하여 x_1 = 0을 얻었다고 하자. 이 경우 모집단 평균의 최적 추정치는 \bar{x} = x_1 / n = 0 / 1 = 0이다. 그러나 분산을 추정하기 위해 (x_1 - \bar{x})^2 / n = (0 - 0) / 1 = 0 공식을 사용하면 분산 추정치는 0이 된다. 이는 어떤 모집단과 크기 n=1인 어떤 표본에 대해서도 마찬가지이다. 문제는 표본 평균을 추정하는 과정에서 이미 평균 추정치를 표본 값에 가깝게 만들었다는 점이다. 즉, n=1일 때는 표본 평균과 추정치가 동일하다. 따라서 n=1인 경우에는 표본에 변동성이 없기 때문에 분산을 추정할 수 없다.[1]

하지만 n=2인 경우, 표본이 (0, 2)라면 \bar{x} = 1이고, [(x_1 - \bar{x})^2 + (x_2 - \bar{x})^2] / n = (1 + 1) / 2 = 1이다. 그러나 베셀 보정을 사용하면 [(x_1 - \bar{x})^2 + (x_2 - \bar{x})^2] / (n - 1) = (1 + 1) / 1 = 2가 되어 불편향 추정치가 된다. 실제로 가능한 모든 크기 n=2인 표본을 추출하여 이 방법을 사용하면 평균 추정치는 12.4가 되는데, 이는 베셀 보정을 사용한 표본 분산과 동일하다.[1]

좀 더 일반적인 경우로, 모집단 평균이 2050이라고 가정하지만, 통계학자는 이를 알 수 없고, 다음 표본을 기준으로 추정해야 한다.[1]

: 2051, \quad 2053, \quad 2055, \quad 2050, \quad 2051

표본 평균은 다음과 같이 계산된다.[1]

:\frac{1}{5}(2051 + 2053 + 2055 + 2050 + 2051) = 2052

이는 모집단 평균 2050에 대한 추정치이다. 모집단 분산을 추정할 때, 모집단 평균 2050을 알고 있다면 다음과 같이 계산한다.[1]

:\frac{1}{5}[(2051 - 2050)^2 + (2053 - 2050)^2 + (2055 - 2050)^2 + (2050 - 2050)^2 + (2051 - 2050)^2] = \frac{36}{5} = 7.2

그러나 실제 평균 2050은 알 수 없으므로, 표본 평균 2052를 사용하면 다음과 같다.[1]

:\frac{1}{5}[(2051 - 2052)^2 + (2053 - 2052)^2 + (2055 - 2052)^2 + (2050 - 2052)^2 + (2051 - 2052)^2] = \frac{16}{5} = 3.2

이처럼 표본 평균으로 계산한 분산은 실제 모집단 분산보다 작게 추정된다. 표본 평균이 주어진 표본 내에서 거리를 최소화하기 때문이다. 즉, 다른 어떤 값을 사용해도 더 큰 결과가 나온다.[1]

이를 대수적으로 증명하기 위해 다음 항등식을 사용한다.[1]

:(a + b)^2 = a^2 + 2ab + b^2

여기서 a는 개별 표본의 표본 평균으로부터의 편차, b는 표본 평균의 모집단 평균으로부터의 편차이다. 즉, 개별 표본의 모집단 평균으로부터의 편차를 두 부분으로 분해한 것이다. 이 항등식으로 위 예제의 편차 제곱을 표현하면 다음과 같다.[1]

:[2053 - 2050]^2 = [(2053 - 2052) + (2052 - 2050)]^2 = (2053 - 2052)^2 + 2(2053 - 2052)(2052 - 2050) + (2052 - 2050)^2

이 식을 모든 관측값에 적용하면 아래 표와 같은 패턴이 나타난다.[1]

(2051 - 2052)^2+2(2051 - 2052)(2052 - 2050)+(2052 - 2050)^2
(2053 - 2052)^2+2(2053 - 2052)(2052 - 2050)+(2052 - 2050)^2
(2055 - 2052)^2+2(2055 - 2052)(2052 - 2050)+(2052 - 2050)^2
(2050 - 2052)^2+2(2050 - 2052)(2052 - 2050)+(2052 - 2050)^2
(2051 - 2052)^2+2(2051 - 2052)(2052 - 2050)+(2052 - 2050)^2



여기서 중간 열의 합은 0이 된다. 따라서 첫 번째 열(표본 평균을 사용한 편차 제곱)과 세 번째 열(표본 평균과 모집단 평균 간 차이의 제곱)의 합이 실제 분산을 나타낸다. 세 번째 열의 모든 항목은 양수이므로(표본 평균과 모집단 평균이 같지 않은 이상), 첫 번째 열의 합은 항상 세 번째 열을 포함한 전체 합보다 작다. 즉, 표본 평균으로 계산한 분산은 항상 실제 분산보다 작게 추정된다.[1]

결론적으로, 표본 평균으로부터 편차 제곱합을 계산하면 모집단 분산의 불편향 추정치를 얻기에는 너무 작다. 표본 크기가 작을수록 이 차이는 더 커진다.[1]

4. 베셀 보정의 필요성

모집단 평균을 알 수 없을 때, 표본에서 모집단 분산추정하는 경우, 수정되지 않은 표본 분산은 표본 값에서 표본 평균을 뺀 값의 제곱의 평균이다(즉, 1/''n''을 곱한다). 이 경우 표본 분산은 모집단 분산의 편향 추정량이 된다.

수정되지 않은 표본 분산에 \frac n {n-1}을 곱하면 모집단 분산의 비편향 추정량을 얻을 수 있다. 일부 문헌에서는[2][3] 이 인수를 '''베셀 보정'''이라고 부른다.

베셀 보정은 잔차 벡터(오차가 아닌 잔차, 모집단 평균을 알 수 없기 때문)의 자유도와 관련이 있다.

: (x_1-\overline{x},\,\dots,\,x_n-\overline{x}),

여기서 \overline{x}는 표본 평균이다. 표본에 ''n''개의 독립적인 관측치가 있지만, 잔차의 합이 0이 되므로, 독립적인 잔차는 ''n'' − 1개뿐이다.

일반적으로 베셀 보정은 유한한 표본 크기로 인해 발생하는 편향을 줄이기 위한 방법이다. 이러한 유한 표본 편향 보정은 왜도첨도와 같은 다른 추정에도 필요하지만, 이 경우 부정확성이 더 커지는 경우가 많다.

5. 베셀 보정의 한계

베셀 보정에는 다음과 같은 세 가지 한계가 있다.[4]

# 표준 편차의 무편향 추정량을 제공하지 않는다.

# 수정된 추정량은 때때로 수정되지 않은 추정량보다 평균 제곱 오차(MSE)가 더 클 수 있다.

# 모집단 평균을 알고 있는 경우에는 베셀 보정이 필요하지 않다.

(베셀 보정을 사용한) 표본 분산은 모집단 분산의 불편향 추정량이지만, 그 제곱근인 표본 표준 편차는 모집단 표준 편차의 ''편향된'' 추정치이다. 제곱근은 오목 함수이므로, 젠센 부등식에 의해 편향은 아래로 향한다. 모집단 표준 편차의 불편향 추정량에 대한 일반적인 공식은 없지만, 정규 분포와 같은 특정 분포에 대한 보정 인수는 있다. 정규 분포에 대한 정확한 보정 인수에 대한 근사값은 공식에 ''n'' − 1.5를 사용한다.

불편향 추정량은 평균 제곱 오차(MSE)를 최소화하지 않으며, 일반적으로 수정되지 않은 추정량보다 MSE가 더 크다. MSE는 다른 인수를 사용하여 최소화할 수 있으며, 최적 값은 첨도에 따라 달라진다. 정규 분포의 경우 ''n'' + 1로 나누어 최적화된다.

베셀 보정은 모집단 평균이 알려져 있지 않고, 주어진 표본에서 모집단 평균과 모집단 분산을 모두 추정하며, 표본 평균을 사용하여 모집단 평균을 추정하는 경우에만 필요하다. 모집단 평균이 알려진 경우, 베셀 보정은 적용되지 않는다.

6. 추가 정보

베셀 보정을 할 때 다음 세 가지를 주의해야 한다.

# 표준 ''편차''의 무편향 추정량을 산출하지 않는다.

# 수정된 추정량은 수정되지 않은 추정량보다 평균 제곱 오차 (MSE)가 더 큰 경우가 많다.[4] 또한, 평균 제곱 오차(MSE)를 최소화하는 다른 스케일 인수를 항상 선택할 수 있기 때문에 최소 MSE를 갖는 모집단 분포는 없다.

# 모집단 평균을 알 수 없을 때 (표본 평균으로 추정할 때)만 필요하다. 실제로 이런 경우가 일반적이다.

첫째, (베셀 보정을 사용한) 표본 분산은 모집단 분산의 무편향 추정량이지만, 그 제곱근인 표본 표준 편차는 모집단 표준 편차의 ''편향된'' 추정치이다. 제곱근은 오목 함수이므로, 젠센 부등식에 의해 편향은 아래로 향한다. 모집단 표준 편차의 무편향 추정량에 대한 일반적인 공식은 없지만, 정규 분포와 같은 특정 분포에 대한 보정 인수는 있다. 더 자세한 내용은 표준 편차의 무편향 추정에서 확인할 수 있다. 정규 분포에 대한 정확한 보정 인수에 대한 근사값은 ''n'' − 1.5를 사용해서 구할 수 있다. 편향은 (수정되지 않은 형태와 베셀 수정 형태에서처럼 선형이 아닌) 이차적으로 감소한다.

둘째, 무편향 추정량은 평균 제곱 오차(MSE)를 최소화하지 않으며, 일반적으로 수정되지 않은 추정량보다 MSE가 더 나쁘다(이것은 첨도에 따라 다르다). MSE는 다른 인수를 사용하여 최소화할 수 있다. 최적 값은 평균 제곱 오차: 분산에서 설명된 대로 첨도에 따라 달라지며, 정규 분포의 경우 (''n'' − 1 또는 ''n'' 대신) ''n'' + 1로 나누어 최적화된다.

셋째, 베셀 보정은 모집단 평균을 알 수 없고, 주어진 표본에서 ''모두'' 모집단 평균 ''및'' 모집단 분산을 추정하며, 표본 평균을 사용하여 모집단 평균을 추정하는 경우에만 필요하다. 이 경우, ''n''개의 점으로 된 표본에는 자유도 ''n''이 있으며, 평균과 분산을 동시에 추정하는 것은 하나의 자유도가 표본 평균으로 가고 나머지 ''n'' − 1개의 자유도(''잔차'')가 표본 분산으로 가는 것을 의미한다. 그러나 모집단 평균을 알고 있는 경우에는 (평균이 추정되지 않기 때문에 - 편차는 잔차가 아니라 ''오차''이기 때문에) 자유도 ''n''을 가지며 베셀 보정은 적용되지 않는다.

참조

[1] 서적 Statistics (the easier way) with R Lapis Lucera 2017
[2] 서적 Use and abuse of statistics Methuen 1961
[3] 서적 Oxford Dictionary of Statistics OUP 2008
[4] 논문 The Kids are Alright: Divide by n when estimating variance https://imstat.org/2[...] 2015



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com