허용 오차
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
허용 오차는 모집단에서 추출한 표본을 통해 얻은 결과가 실제 모집단의 값에서 벗어날 것으로 예상되는 정도를 나타내는 개념이다. 이는 표본 크기가 클수록 좁아지며, 신뢰 수준에 따라 달라진다. 허용 오차는 설문조사나 여론조사 등에서 결과의 신뢰도를 평가하는 데 사용되며, 특히 두 항목 간의 지지율 차이가 허용 오차 범위 내에 있을 경우 통계적 동률 또는 박빙이라고 표현한다. 유한 모집단 수정(FPC)을 통해 모집단의 크기가 작을 경우 오차 범위를 조정할 수 있다.
더 읽어볼만한 페이지
- 오류 - 민간어원
민간어원은 단어의 어원에 대한 잘못된 대중적 통념으로 인해 단어의 형태, 발음, 의미가 변화하는 현상으로, 언중의 해석이 언어 변화의 원인이 되며, 한국어에서는 한자어와 관련된 사례가 많고, 언어 변화, 사회문화적 맥락 등 다양한 분야와 관련되어 연구된다. - 오류 - 시행착오
시행착오는 문제 해결을 위해 다양한 시도를 반복하며 실패를 통해 학습하는 과정으로, 계층적인 구조로 확장되어 문제 해결 능력을 향상시키고, 신약 개발, 유전 알고리즘, 생물학적 진화 등 다양한 분야에서 활용되는 해결책 중심적인 학습 전략이다. - 측정 - 측지학
측지학은 지구의 형상, 크기, 중력장 및 시간적 변화를 측정하고 연구하는 지구과학의 한 분야로, 고대 그리스어에서 유래되었으며 현대에는 GPS 등의 기술을 활용하여 지구 역학적 현상 연구에 기여한다. - 측정 - 불확실성
불확실성이란 현재나 미래를 정확히 예측할 수 없는 상태를 말하며, 확률을 알 수 없는 근본적인 불확실성도 존재하고, 바람직하지 않은 결과를 초래할 수 있는 위험과는 구별되며, 과학, 경제, 철학 등 다양한 분야에서 다뤄지는 중요한 개념이다. - 통계학 - 확률
확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다. - 통계학 - 사분위수
사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.
2. 오차 범위의 개념
단순한 ''예/아니오'' 형식의 설문조사를 생각해 보자. 전체 모집단 에서 명의 응답자 표본을 추출하여(은 보다 훨씬 작다), '예'라고 답한 비율 를 얻었다고 가정한다. 이때 우리는 전체 모집단을 모두 조사하지 않고도, 이 표본 비율 가 실제 모집단의 비율 에 얼마나 가까운지 알고 싶어 한다.
만약 우리가 이론적으로 모집단 에서 크기 의 표본을 여러 번 새로 뽑아 동일한 설문조사를 반복한다면, 각 조사에서 얻어지는 '예'의 비율()들은 실제 모집단의 알 수 없는 비율 를 중심으로 일정한 분포를 보일 것으로 예상할 수 있다. 이때 허용 오차(Margin of Error|MOEeng)는 이렇게 얻어진 표본 결과들이 실제 비율 에서 어느 정도까지 벗어날 수 있는지를 나타내는 값이다. 즉, 표본 조사를 통해 얻은 결과가 실제 모집단의 값과 얼마나 차이가 날 수 있는지를 보여주는 지표이다.
이 개념은 중심 극한 정리와 관련이 있는데, 이 정리는 표본 크기가 충분히 크면 표본 비율의 분포가 정규 분포에 가까워진다는 것을 설명한다. 이는 표본 추출 과정에 편향이 없다는 가정하에 성립한다.[1] 예를 들어, 68–95–99.7 규칙에 따르면, 많은 경우 표본 결과의 약 95%는 실제 평균 를 중심으로 양쪽으로 약 2표준 편차 범위 안에 들어올 것으로 기대된다. 이 범위를 신뢰 구간이라고 하며, 허용 오차는 보통 특정 신뢰 수준(예: 95%)에서의 신뢰 구간의 절반 크기를 의미한다.
2. 1. 중심 극한 정리와 신뢰 구간
단순한 ''예/아니오'' 설문조사 를 모집단 에서 추출한 명의 응답자 표본으로 간주하여, '예' 응답의 비율 를 보고한다고 가정하자. 전체 모집단 에 대한 설문조사를 직접 수행하지 않고도, 보고된 비율 가 실제 모집단의 비율에 얼마나 가까운지 파악하는 것이 중요하다. 만약 동일한 모집단 에서 크기 의 표본을 반복적으로 추출하여 설문조사 를 실시한다면, 각 표본에서 얻어지는 비율 는 모집단의 실제 알 수 없는 비율 를 중심으로 정규 분포를 따를 것으로 예상된다. ''허용 오차''는 이렇게 얻어진 결과들 중 특정 비율이 실제 비율 로부터 얼마나 벗어날 것으로 예상되는지를 나타내는 범위이다.중심 극한 정리는 표본의 크기가 충분히 크면, 표본 평균(이 경우에는 '예' 응답 비율)의 분포가 정규 분포에 근사한다는 것을 설명한다. 이 정리는 표본 추출 과정이 편향되지 않았음을 전제로 하지만, 데이터 자체의 원래 분포 형태에 대해서는 정보를 주지 않는다.[1]
68–95–99.7 규칙에 따르면, 표본 결과 의 약 95%는 실제 평균 를 기준으로 양쪽으로 ''약'' 2표준 편차() 범위 내에 존재할 것으로 예측된다. 이 범위를 신뢰 구간이라고 하며, 이 구간 폭의 절반을 ''허용 오차''라고 정의한다. 이는 95% ''신뢰 수준''에 해당한다.
일반적으로 신뢰 수준 에서, 모집단의 표준 편차가 일 때 크기 인 표본의 허용 오차()는 다음 공식으로 계산된다.
:
여기서 는 해당 신뢰 수준에 대한 ''분위수''(일반적으로 ''z-점수''라고 함)를 의미하며, 은 표준 오차이다.
신뢰 수준 에 대응하는 신뢰 구간은 이며, 이 구간 안에 실제 모수()가 포함될 확률이 이다. 의 정확한 값은 정규 분포의 분위수 함수를 통해 얻을 수 있으며, 68–95–99.7 규칙은 이 값들의 근사치를 나타낸다.
값은 인 경우 정의되지 않는다. 즉, 100% 신뢰 수준() 등에 해당하는 z-점수는 정의되지 않는다.
정규 분포를 따르는 값들의 평균은 표본 크기 에 따라 변동하는 표준 편차를 가질 것으로 예상된다. 표본 크기 이 작을수록 오차 범위는 더 넓어지는데, 이는 표준 오차 개념과 관련된다. 일반적으로 설문 조사 등에서 얻은 표본 비율 를 사용하여 표준 오차를 추정하며, 이는 허용 오차 계산의 기초가 된다.
비율 에 대한 분산 는 일 때 최댓값 0.25를 가진다. 따라서 실제 비율 를 알 수 없을 때, 보수적으로 로 가정하면 주어진 신뢰 수준 와 표본 크기 에 대한 ''최대'' 허용 오차를 계산할 수 있다. 예를 들어, 이고 표본 크기 일 때:
: (n=1013일 때)
: (n=1013일 때)
또한, 95% 신뢰 수준에서의 허용 오차()가 주어졌을 때, 99% 신뢰 수준에서의 허용 오차()는 대략 다음과 같이 추정할 수 있다.
:
3. 오차 범위 계산
3. 1. 변수 설명
3. 2. 계산식
허용 오차를 계산하는 방법은 주로 모집단의 분산을 아는지 모르는지에 따라 달라진다.
'''분산을 아는 경우 (모평균 추정)'''
모집단의 분산 σ²를 알고 있을 때, 특정 신뢰 수준에서의 허용 오차(ε)는 다음과 같이 계산한다.
:
여기서 는 원하는 신뢰 수준에 해당하는 z-점수이고, 는 모집단 분산, 은 표본 크기이다.
필요한 표본 크기 을 계산하려면 위 오차 범위 공식을 변형하여 다음 공식을 사용한다. 이 공식은 오차 범위 공식의 양변을 제곱하여 유도할 수 있다.
:
이때 허용 오차 ε의 단위는 추정하려는 모평균 값의 단위와 같다.
'''분산을 모르는 경우 (모비율 추정)'''
모집단의 분산을 알지 못하고 모비율 를 추정해야 하는 경우, 허용 오차(ε)는 다음과 같이 계산한다. 이때 분산 σ² 대신 표본 비율 를 이용한 를 사용한다. 이는 베르누이 분포의 분산에 해당한다.
:
여기서 는 신뢰 수준에 따른 z-점수, 는 표본 비율, 은 표본 크기이다.
마찬가지로 필요한 표본 크기 은 다음 공식을 통해 계산할 수 있다.
:
이 경우 허용 오차 ε의 단위는 비율(%)이다.
'''일반적인 설명'''
일반적으로 신뢰 수준 에서, 예상 표준 편차가 인 모집단에서 추출한 크기 인 표본의 허용 오차(MOE)는 다음과 같이 표현된다.
:
여기서 는 신뢰 수준 에 해당하는 분위수, 즉 z-점수를 의미하며, 는 표준 오차이다.
중심 극한 정리에 따르면, 표본 크기 이 충분히 크면 표본 평균(또는 표본 비율)의 분포는 정규 분포에 가까워진다. 68–95–99.7 규칙에 따라, 약 95%의 표본 결과()는 실제 모집단 평균(또는 비율) 를 중심으로 ±2표준 편차() 범위 내에 존재하게 된다. 이 구간을 신뢰 구간이라 하며, 이 구간의 절반, 즉 를 허용 오차라고 부른다. 일반적으로 95% 신뢰 수준에서의 허용 오차를 많이 사용한다.[1]
표본 크기 이 작을수록 표준 오차()는 커지고, 따라서 허용 오차도 넓어진다.
'''여론조사에서의 적용'''
여론조사 결과를 보고할 때, 여러 항목 중 비율 가 50%에 가장 가까운 항목의 허용 오차가 가장 크다. 따라서 보통 이 값을 전체 조사의 대표 허용 오차로 보고한다. 예를 들어, 어떤 조사에서 응답 비율이 각각 이고 표본 크기 일 때, 95% 신뢰 수준()에서의 각 항목별 허용 오차는 다음과 같이 계산된다.
:
:
:
비율 가 0% 또는 100%에 가까워질수록 해당 항목의 허용 오차는 0에 가까워진다.
3. 3. 모집단이 충분히 크지 않을 경우
일반적으로 허용 오차 계산은 표본 크기에 비해 모집단 크기가 매우 커서 모집단 크기가 허용 오차에 주는 영향을 무시할 수 있다고 가정한다. 표본 추출 이론에 따르면, 이 가정은 표본 추출 비율이 작을 때 타당하다. 표본 추출 비율이 작다면, 분석 대상 모집단의 크기가 학교, 도시, 주, 국가 등 어디든 관계없이 오차 범위는 거의 동일하다.
하지만 표본 추출 비율이 작지 않은 경우, 특히 실제 조사에서 5% 이상일 때는 모집단 크기를 고려해야 한다. 이때는 모집단의 상당 부분을 표본으로 추출함으로써 얻는 정확도 증가를 반영하기 위해 유한 모집단 수정(Finite Population Correction, FPC)을 사용하여 오차 범위를 조정한다.[2] FPC는 다음 공식으로 계산한다.
:
여기서 은 모집단 크기, 은 표본 크기이다.
따라서 FPC를 적용하면, 예를 들어 분산을 모르는 경우의 오차 범위 는 다음과 같이 수정된다.
:
예를 들어, 300,000명의 유권자 중 24%인 72,000명을 대상으로 여론 조사를 수행한다고 가정해보자. 신뢰수준 95%에서 최대 오차 범위를 계산하면 다음과 같다. (소스에서는 값으로 0.98을 사용하였다.)
:
:
이처럼 FPC를 적용하면 오차 범위가 줄어드는 것을 볼 수 있다.
직관적으로 FPC의 의미를 살펴보면, 모집단 크기 이 충분히 클 때 다음과 같은 경향을 보인다.
4. 다양한 신뢰 수준에서의 최대 오차 범위
삽입된 포물선 는 일 때의 와 일 때의 관계를 보여준다. 예시에서 ''MOE''95(0.71) ≈ 0.9 × ±3.1% ≈ ±2.8% 이다.||||||250px]]
예를 들어, 표본 크기 일 때, 95%와 99% 신뢰 수준에서의 최대 오차 범위는 다음과 같이 계산할 수 있다.
- 95% 신뢰 수준:
(즉, ±3.1%)
- 99% 신뢰 수준:
(즉, ±4.1%)
또한, 일반적으로 보고되는 95% 신뢰 수준의 오차 범위()를 알고 있다면, 99% 신뢰 수준의 오차 범위()는 다음과 같이 근사적으로 추정할 수 있다.
5. 백분율 비교와 오차 범위
여론조사 등에서 하나의 질문에 대해 여러 선택지의 응답 비율(백분율)이 나오는 경우가 많다. 예를 들어, 특정 사안에 대한 찬성, 반대, 모름 응답 비율이나 여러 후보에 대한 지지율 등이 그렇다. 이때 각 백분율 결과는 저마다의 허용 오차를 가진다.
일반적으로 백분율 결과가 50%에 가까울수록 허용 오차는 커지는 경향이 있다. 이는 표본 비율 의 표준 오차() 계산식에서 값이 일 때 최대가 되기 때문이다. 반대로 백분율이 0%나 100%에 가까워질수록 허용 오차는 0에 가까워진다.
예를 들어, 어떤 여론조사()에서 세 선택지 A, B, C에 대한 응답 비율이 각각 로 나왔다고 가정해 보자. 95% 신뢰수준에서 각 결과의 허용 오차(MOE)는 다음과 같이 계산될 수 있다. (여기서 은 95% 신뢰수준에 해당하는 값이다.)
이 경우, 71%가 50%에 더 가깝기 때문에(27%보다), 가 보다 약간 더 크다. 보통 여론조사 결과를 발표할 때는 여러 백분율 중 50%에 가장 가까운 값의 허용 오차를 전체 조사의 대표적인 허용 오차로 보고하는 경우가 많다.
하지만 단순히 각 결과의 허용 오차만 보는 것만으로는 결과 간의 순위(예: 누가 1위인가?)를 정확히 비교하기 어려울 수 있다. 예를 들어, 다른 여론조사( 가정)에서 두 후보의 지지율이 각각 46%와 42%로 나왔을 때, 4%p 차이가 통계적으로 의미 있는 차이인지 판단하려면 각 후보 지지율의 허용 오차()만으로는 부족하다.
이런 경우에는 두 백분율 간의 차이에 대한 허용 오차를 별도로 고려해야 한다. 이는 각 결과의 불확실성뿐만 아니라 두 결과 간의 관계(공분산)까지 고려하는 개념으로, "차이의 표준 오차"()를 계산하여 구한다.
:
이 값을 이용해 계산된 차이의 허용 오차는 일반적으로 개별 결과의 허용 오차보다 크며, 이를 통해 두 결과 간의 차이가 통계적으로 유의미한지, 아니면 오차 범위 내의 차이인지(이른바 '통계적 동률')를 판단할 수 있다. 차이의 허용 오차를 계산하는 구체적인 방법과 그 의미는 다음 섹션에서 더 자세히 다룬다.
5. 1. 통계적 동률(박빙)
여론 조사에서 여러 선택지의 결과가 나올 때, 단순히 각 선택지의 허용 오차만 보는 것이 아니라 선택지 간의 차이가 통계적으로 의미가 있는지를 판단하는 것이 중요할 때가 있다. 특히 선거 여론 조사 등에서 두 후보의 지지율 차이가 오차 범위 내에 있을 때, 이를 통계적 동률 또는 박빙이라고 부른다. 이는 개별 결과의 정확성보다는 결과의 '순위', 즉 누가 앞서고 있는지가 불확실하다는 의미에 더 가깝다.예를 들어, 어떤 여론 조사()에서 세 선택지 의 지지율이 각각 (응답자 수 )로 나왔다고 가정해 보자. 이 조사 결과만 보면 가 보다 4%p 앞서 있다. 일반적으로 이 여론 조사의 허용 오차는 50%에 가장 가까운 를 기준으로 계산된 로 보고될 수 있다.
하지만 와 중 누가 정말로 앞서는지를 판단하려면, 두 후보 지지율 차이()의 허용 오차를 계산해야 한다. 이를 위해 '차이의 표준 오차'를 구해야 하는데, 이는 각 선택지 분산의 합을 이용한다.
:
여기서 는 와 의 공분산이다. 이 식은 두 변수가 서로 영향을 미치는 정도를 반영한다.
계산을 단순화하면, 차이의 표준 오차()는 다음과 같이 근사할 수 있다.
:
이를 이용해 95% 신뢰수준에서 차이의 허용 오차()를 계산하면 다음과 같다. (여기서 는 95% 신뢰수준에 해당하는 z-값으로 약 1.96이다.)
:
이 계산 결과()는 개별 후보의 허용 오차()보다 크다는 점에 유의해야 한다. 예시에서 두 후보 간 지지율 차이는 인데, 이는 차이의 허용 오차인 범위 안에 있다. 따라서 이 여론 조사 결과만으로는 가 보다 통계적으로 유의미하게 앞선다고 말할 수 없으며, 이를 통계적 동률 또는 박빙 상태라고 해석한다.
이 계산은 세 번째 선택지 의 지지율이 거의 변하지 않는다고 가정할 때(즉, 응답자들이 나 를 선택할 때 를 선택하는 경우는 거의 없다고 가정하며, 와 가 거의 "완벽하게 음의 상관관계"를 갖도록 만듦) 유효하다. 만약 셋 이상의 선택지가 치열하게 경쟁하는 상황이라면, 차이의 허용 오차를 계산하는 것은 더 복잡해진다.
6. 유한 모집단 수정
일반적으로 허용 오차 계산은 모집단 크기가 표본 크기에 비해 매우 크다고 가정하여, 모집단 크기가 허용 오차에 미치는 영향을 무시한다. 그러나 표본 추출 비율(표본 크기 / 모집단 크기 )이 무시할 수 없을 정도로 큰 경우(실제로는 5% 이상), 이러한 가정은 더 이상 유효하지 않다.[2] 표본 추출 이론에 따르면, 표본 추출 비율이 작을 때는 모집단의 크기(예: 학교, 도시, 국가 등)에 관계없이 오차 범위가 거의 동일하지만, 비율이 커지면 모집단 크기를 고려해야 한다.
이 경우, 모집단의 상당 부분을 표본으로 추출함으로써 얻는 추가적인 정밀도를 반영하기 위해 유한 모집단 수정(Finite Population Correction, FPC) 계수를 사용하여 오차 범위를 조정해야 한다.[2] FPC는 다음 공식으로 계산한다.[2]
:
여기서 은 모집단의 크기, 은 표본의 크기이다.
이 FPC 계수를 기존의 오차 범위 계산식에 곱하여 수정된 오차 범위를 구한다. 예를 들어, 표본 비율 의 분산을 모르는 경우(보통 일 때 분산이 최대가 되므로 이 값을 사용), 95% 신뢰수준(는 해당 신뢰수준의 임계값, 약 1.96)에서의 오차 범위 은 다음과 같이 수정된다.
:
예를 들어, 300,000명의 유권자() 중 24%인 72,000명()을 대상으로 여론조사를 실시했다고 가정하고, 95% 신뢰수준에서 최대 오차 범위( 가정)를 계산하면 다음과 같다. 원본 소스에서는 근사식을 사용하였다.
- FPC 미적용 시 (원본 소스 근사식 사용):
:
- FPC 적용 시 (원본 소스 근사식 사용):
:
이 예시처럼 표본 추출 비율이 클 때 FPC를 적용하면 오차 범위가 줄어들어 더 정밀한 추정이 가능해진다.
FPC 값의 극한적인 경우를 살펴보면 그 의미를 더 명확히 알 수 있다.
- 표본 크기 이 0에 가까워지면 (), FPC 값은 1에 가까워진다 (). 이는 표본 크기가 모집단에 비해 매우 작을 때는 FPC의 영향이 거의 없음을 의미한다.
- 표본 크기 이 모집단 크기 에 가까워지면 (), FPC 값은 0에 가까워진다 (). 이는 표본 추출이 전수조사에 가까워짐에 따라 표본 추출 오차가 0으로 수렴함을 의미한다.
참조
[1]
웹사이트
Scientists' grasp of confidence intervals doesn't inspire confidence {{!}} Science News
https://www.sciencen[...]
2014-07-03
[2]
논문
On the value of a mean as calculated from a sample
https://zenodo.org/r[...]
Blackwell Publishing
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com