68-95-99.7 규칙
1. 개요
68-95-99.7 규칙은 정규 분포에서 평균으로부터 1, 2, 3 표준 편차 내에 데이터가 포함될 확률을 나타내는 경험적 규칙이다. 이 규칙은 각각 약 68%, 95%, 99.7%의 확률로 데이터가 해당 범위 내에 속한다는 것을 의미한다. 이 규칙은 정규 분포의 누적 분포 함수에서 유래하며, 통계적 신뢰 구간과 관련이 있다. 또한, 데이터의 정규성을 간략하게 평가하고 이상치를 검출하는 데 사용될 수 있다.
| 다른 이름 | 68–95–99.7 규칙 |
|---|---|
| 설명 | 정규 분포에서 데이터의 분포를 나타내는 규칙 |
| 관련 개념 | 표준 편차, 정규 분포 |
| 범위 1σ | 평균에서 ±1 표준 편차 범위 내에 약 68%의 데이터가 포함됨 |
|---|---|
| 범위 2σ | 평균에서 ±2 표준 편차 범위 내에 약 95%의 데이터가 포함됨 |
| 범위 3σ | 평균에서 ±3 표준 편차 범위 내에 약 99.7%의 데이터가 포함됨 |
| 품질 관리 | 공정의 안정성 평가 |
|---|---|
| 이상치 탐지 | 비정상적인 데이터 식별 |
| 통계적 추론 | 모집단에 대한 추론 |
| 관련 규칙 | 경험 법칙, 체비쇼프 부등식 |
|---|
-
정규 분포 -
로그 정규 분포
로그 정규 분포는 확률 변수 X의 로그가 정규 분포를 따르며, 양의 실수 값을 갖고 평균 μ와 표준 편차 σ를 매개변수로 갖는 확률 분포이다. -
정규 분포 -
카이제곱 분포
카이제곱 분포는 k개의 독립적인 표준정규분포를 따르는 확률변수들의 제곱의 합으로 정의되는 확률분포로서, 자유도 k에 따라 형태가 결정되며 통계적 가설 검정, 분산 분석, 적합도 검정, 독립성 검정 등 다양한 통계적 추론에 응용된다. -
경험 법칙 -
무어의 법칙
무어의 법칙은 집적회로의 성능이 일정 기간마다 두 배로 증가한다는 경험적 관찰로, 반도체 산업 발전을 이끄는 지표였으나, 최근 성장 둔화에도 불구하고 기술 혁신을 통해 성능 향상이 지속되며 기술 혁신 과정 자체를 의미하는 개념으로 진화하고 있다. -
경험 법칙 -
옥텟 규칙
옥텟 규칙은 원자들이 화학 결합을 통해 최외각 전자껍질에 8개의 전자를 채워 비활성 기체와 같은 안정된 전자 배치를 이루려는 경향을 설명하는 규칙으로, 2주기 원소에 주로 적용되지만 예외가 많아 양자론적 접근이 필요하다. -
통계학 -
확률
확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다. -
통계학 -
사분위수
사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.
2. 누적 분포 함수
정규 분포의 누적 분포 함수(CDF)는 특정 값 이하의 확률을 나타낸다. 68-95-99.7 규칙은 이 누적 분포 함수에서 파생된 값이다. 표준 점수 z에 대한 예측 구간은 수치적으로 로 계산된다.
--
예를 들어, 평균에서 특정 표준 편차 범위 내에 데이터가 존재할 확률은 누적 분포 함수를 이용하여 계산할 수 있다. μ±2σ 범위 내에 존재할 확률은 약 95.45%이다.
2.1. 수치 값
이러한 수치 "68%, 95%, 99.7%"는 정규 분포의 누적 분포 함수에서 파생되었다.
어떤 표준 점수 z에 대한 예측 구간은 수치적으로 (1 − (1 − Φµ,σ2(z)) · 2)에 해당한다.
예를 들어, 2σ의 범위, 즉 Φ(2) ≈ 0.9772 또는 Pr(X ≤ μ + 2σ) ≈ 0.9772는 (1 − (1 − 0.97725) · 2) = 0.9545 = 95.45%에 해당한다. 그러나 이 간격은 대칭적이지 않다. 관측값이 μ + 2σ일 확률에 지나지 않는다. 관측값이 평균에서 ±2σ의 범위에 포함될 확률은 (반올림 오차를 포함하지만)
:
로 계산할 수 있다.
이는 95% 신뢰 구간 과 관련이 있다(단, n 표본의 평균을 로 한다). 정규 분포는 꼬리 부분에서 확률이 지수 함수적으로 감소하므로, 잔차가 큰 데이터는 지수 함수적으로 감소한다. 표준 정규 분포를 따르는 하루에 한 번 발생하는 사건은, 통계적으로 다음과 같은 표에 나타낸 빈도로 발생한다.
| 범위 | 범위 내에 포함될 기대값의 비율 | 범위 외에 포함될 기대값의 비율 근사 | 발생 빈도 근사 |
|---|---|---|---|
| μ ± 0.5σ | 38.3% | 2/3 | 주 4회 |
| μ ± σ | 68.3% | 1/3 | 주 2회 |
| μ ± 1.5σ | 86.6% | 1/7 | 주 1회 |
| μ ± 2σ | 95.4% | 1/22 | 3주에 1회 |
| μ ± 2.5σ | 98.8% | 1/81 | 분기 1회 |
| μ ± 3σ | 99.7% | 1/370 | 연 1회 |
| μ ± 3.5σ | 99.95% | 1/2149 | 6년에 1회 |
| μ ± 4σ | 99.994% | 1/15787 | 43년에 1회 (평생 2번) |
| μ ± 4.5σ | 99.9993% | 1/147160 | 403년에 1회 |
| μ ± 5σ | 99.99994% | 1/1744278 | 4776년에 1회 |
| μ ± 5.5σ | 99.999996% | 1/26330254 | 72090년에 1회 (호모 사피엔스 시대에 3번) |
| μ ± 6σ | 99.9999998% | 1/506797346 | 138만년에 1회 (호모 속이 태어난 이후 2번) |
| μ ± 6.5σ | 99.999999992% | 1/12450197393 | 3400만년에 1회 (공룡 멸종 이후 2번) |
| μ ± 7σ | 99.99999999974% | 1/390682215445 | 10억 7천만 년에 1번 (지구 역사에서 4번) |
| μ ± σ | 오차 함수 |
--
3. 정규성 검정
68-95-99.7 규칙은 데이터가 정규 분포를 따르는지 대략적으로 평가하는 데 사용될 수 있다. 이 규칙은 모집단이 정규 분포를 따른다고 가정할 때 이상치 검정에도 사용될 수 있다.
표본에서 표준 편차의 개수로 넘어가려면, 먼저 편차를 계산해야 한다. 모집단 평균을 알고 있는지, 아니면 추정만 하는지에 따라 오차 또는 잔차가 된다. 다음 단계는 모집단 매개변수가 알려져 있으면 표준화 (모집단 표준 편차로 나누기)를 수행하고, 매개변수가 알려지지 않고 추정만 된 경우에는 스튜던트화 (표준 편차의 추정치로 나누기)를 수행한다.
이상치 검사 또는 정규성 검사로 사용하기 위해서는 표준 편차 측면에서 편차의 크기를 계산하고 이를 예상 빈도와 비교한다. 주어진 표본 집합에서 스튜던트화 잔차를 계산하고 이를 예상 빈도와 비교할 수 있다. 정규 분포에서 3 표준 편차 (3σ) 이상 벗어나는 지점은 이상치일 가능성이 높다. 3σ 이상 벗어나는 지점이 많다면, 분포의 정규성을 의심할 이유가 있을 것이다. 이는 4 표준 편차 (4σ) 이상 벗어나는 경우에 더욱 강력하게 적용된다.
푸아송 분포를 사용하여 주어진 크기 이상의 극단적인 이동 횟수를 더 정확하게 계산할 수 있다. 간단히 말해서, 표본 크기가 1,000인 표본에서 4σ 이동이 여러 번 발생한다면, 이러한 이상치를 고려하거나 분포의 정규성을 의심할 강력한 이유가 있다.
예를 들어, 6σ 사건은 약 2 10억 분의 1의 확률에 해당한다. 사건이 매일 발생한다고 가정하면, 이는 140만 년마다 한 번 발생하는 사건에 해당한다. 만약 일일 데이터에서 6σ 사건을 관찰했고 100만 년보다 훨씬 적은 시간이 지났다면, 정규 분포는 이 점에서 큰 편차의 크기 또는 빈도에 대한 좋은 모델을 제공하지 않을 가능성이 크다.
나심 니콜라스 탈레브는 블랙 스완에서 블랙 먼데이 폭락이 36σ 사건에 해당하는 위험 모델의 예를 제시하며, 이러한 사건의 발생은 즉시 모델에 결함이 있음을 시사한다고 주장한다.
4. 더 큰 편차
정규 분포는 지수적 꼬리를 가지므로, 큰 편차를 가질 확률은 급격하게 감소한다. 다음 표는 평균(μ)으로부터 특정 표준편차(σ) 범위 내에 데이터가 존재할 확률과 벗어날 확률을 나타낸다.
| 범위 | 차지하는 비율 | 벗어날 확률(개략) | 벗어날 확률 비유적 표현 |
|---|---|---|---|
| μ ± 1σ | 68.2689492137% | 1/3 | 7일 (한 주) 중 이틀 |
| μ ± 2σ | 95.4499736104% | 1/21 | 6주 (겨울방학 기간) 중 이틀 |
| μ ± 3σ | 99.7300203937% | 1/370 | 2년 (대략 군 복무 기간) 중 이틀 |
| μ ± 4σ | 99.9936657516% | 1/15,787 | 86년 (2020년 기준, 한국여성 기대수명)에 이틀 |
| μ ± 5σ | 99.9999426697% | 1/1,744,278 | 12,000년 (신석기시대 이래)에 이틀 |
| μ ± 6σ | 99.9999998027% | 1/506,842,372 | 140만년 (사람속(Homo)이 불을 최초로 사용한 이래)에 이틀 |
예를 들어, 6σ 사건은 약 20억 분의 1의 확률에 해당한다. 이는 매일 발생하는 사건이라고 가정했을 때, 140만 년에 한 번 발생하는 사건에 해당한다.
나심 니콜라스 탈레브는 저서 블랙 스완에서 블랙 먼데이와 같이 극단적인 사건을 예로 들어 정규 분포 모델의 한계를 지적했다. 블랙 먼데이는 36σ 사건에 해당하는데, 이러한 사건의 발생은 모델에 결함이 있음을 시사한다. 즉, 정규 분포로는 현실의 복잡한 현상을 제대로 설명하기 어렵다는 것이다. 따라서 확률적 변동성을 고려한 더 정교한 모델이 필요하다.
이는 드문 사건을 한 번 관측하는 것만으로는 그 사건이 실제로 드물다는 것을 확신할 수 없다는 도박사의 오류 문제를 인식하는 것이 중요하다. 여러 번의 드문 사건을 관찰하는 것은 그 사건이 드물다는 가설, 즉 가정된 모델의 유효성을 약화시킨다.