68-95-99.7 규칙은 정규 분포에서 평균으로부터 1, 2, 3 표준 편차 내에 데이터가 포함될 확률을 나타내는 경험적 규칙이다. 이 규칙은 각각 약 68%, 95%, 99.7%의 확률로 데이터가 해당 범위 내에 속한다는 것을 의미한다. 이 규칙은 정규 분포의 누적 분포 함수에서 유래하며, 통계적 신뢰 구간과 관련이 있다. 또한, 데이터의 정규성을 간략하게 평가하고 이상치를 검출하는 데 사용될 수 있다.
더 읽어볼만한 페이지
정규 분포 - 로그 정규 분포 로그 정규 분포는 확률 변수 X의 로그가 정규 분포를 따르며, 양의 실수 값을 갖고 평균 μ와 표준 편차 σ를 매개변수로 갖는 확률 분포이다.
정규 분포 - 카이제곱 분포 카이제곱 분포는 k개의 독립적인 표준정규분포를 따르는 확률변수들의 제곱의 합으로 정의되는 확률분포로서, 자유도 k에 따라 형태가 결정되며 통계적 가설 검정, 분산 분석, 적합도 검정, 독립성 검정 등 다양한 통계적 추론에 응용된다.
경험 법칙 - 무어의 법칙 무어의 법칙은 집적회로의 성능이 일정 기간마다 두 배로 증가한다는 경험적 관찰로, 반도체 산업 발전을 이끄는 지표였으나, 최근 성장 둔화에도 불구하고 기술 혁신을 통해 성능 향상이 지속되며 기술 혁신 과정 자체를 의미하는 개념으로 진화하고 있다.
경험 법칙 - 옥텟 규칙 옥텟 규칙은 원자들이 화학 결합을 통해 최외각 전자껍질에 8개의 전자를 채워 비활성 기체와 같은 안정된 전자 배치를 이루려는 경향을 설명하는 규칙으로, 2주기 원소에 주로 적용되지만 예외가 많아 양자론적 접근이 필요하다.
통계학 - 확률 확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다.
통계학 - 사분위수 사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.
68-95-99.7 규칙은 데이터가 정규 분포를 따르는지 대략적으로 평가하는 데 사용될 수 있다. 이 규칙은 모집단이 정규 분포를 따른다고 가정할 때 이상치 검정에도 사용될 수 있다.[5]
표본에서 표준 편차의 개수로 넘어가려면, 먼저 편차를 계산해야 한다. 모집단 평균을 알고 있는지, 아니면 추정만 하는지에 따라 오차 또는 잔차가 된다. 다음 단계는 모집단 매개변수가 알려져 있으면 표준화 (모집단 표준 편차로 나누기)를 수행하고, 매개변수가 알려지지 않고 추정만 된 경우에는 스튜던트화 (표준 편차의 추정치로 나누기)를 수행한다.
이상치 검사 또는 정규성 검사로 사용하기 위해서는 표준 편차 측면에서 편차의 크기를 계산하고 이를 예상 빈도와 비교한다. 주어진 표본 집합에서 스튜던트화 잔차를 계산하고 이를 예상 빈도와 비교할 수 있다. 정규 분포에서 3 표준 편차 (3σ) 이상 벗어나는 지점은 이상치일 가능성이 높다. 3σ 이상 벗어나는 지점이 많다면, 분포의 정규성을 의심할 이유가 있을 것이다. 이는 4 표준 편차 (4σ) 이상 벗어나는 경우에 더욱 강력하게 적용된다.[7]
푸아송 분포를 사용하여 주어진 크기 이상의 극단적인 이동 횟수를 더 정확하게 계산할 수 있다. 간단히 말해서, 표본 크기가 1,000인 표본에서 4σ 이동이 여러 번 발생한다면, 이러한 이상치를 고려하거나 분포의 정규성을 의심할 강력한 이유가 있다.
예를 들어, 6σ 사건은 약 2 10억 분의 1의 확률에 해당한다. 사건이 매일 발생한다고 가정하면, 이는 140만 년마다 한 번 발생하는 사건에 해당한다. 만약 일일 데이터에서 6σ 사건을 관찰했고 100만 년보다 훨씬 적은 시간이 지났다면, 정규 분포는 이 점에서 큰 편차의 크기 또는 빈도에 대한 좋은 모델을 제공하지 않을 가능성이 크다.
나심 니콜라스 탈레브는 ''블랙 스완''에서 블랙 먼데이 폭락이 36σ 사건에 해당하는 위험 모델의 예를 제시하며, 이러한 사건의 발생은 즉시 모델에 결함이 있음을 시사한다고 주장한다.
4. 더 큰 편차
정규 분포는 지수적 꼬리를 가지므로, 큰 편차를 가질 확률은 급격하게 감소한다. 다음 표는 평균(μ)으로부터 특정 표준편차(σ) 범위 내에 데이터가 존재할 확률과 벗어날 확률을 나타낸다.
범위
차지하는 비율
벗어날 확률(개략)
벗어날 확률 비유적 표현
μ ± 1σ
68.2689492137%
1/3
7일 (한 주) 중 이틀
μ ± 2σ
95.4499736104%
1/21
6주 (겨울방학 기간) 중 이틀
μ ± 3σ
99.7300203937%
1/370
2년 (대략 군 복무 기간) 중 이틀
μ ± 4σ
99.9936657516%
1/15,787
86년 (2020년 기준, 한국여성 기대수명)에 이틀
μ ± 5σ
99.9999426697%
1/1,744,278
12,000년 (신석기시대 이래)에 이틀
μ ± 6σ
99.9999998027%
1/506,842,372
140만년 (사람속(Homo)이 불을 최초로 사용한 이래)에 이틀
예를 들어, 6σ 사건은 약 20억 분의 1의 확률에 해당한다. 이는 매일 발생하는 사건이라고 가정했을 때, 140만 년에 한 번 발생하는 사건에 해당한다.
나심 니콜라스 탈레브는 저서 ''블랙 스완''에서 블랙 먼데이와 같이 극단적인 사건을 예로 들어 정규 분포 모델의 한계를 지적했다. 블랙 먼데이는 36σ 사건에 해당하는데, 이러한 사건의 발생은 모델에 결함이 있음을 시사한다. 즉, 정규 분포로는 현실의 복잡한 현상을 제대로 설명하기 어렵다는 것이다. 따라서 확률적 변동성을 고려한 더 정교한 모델이 필요하다.
이는 드문 사건을 한 번 관측하는 것만으로는 그 사건이 실제로 드물다는 것을 확신할 수 없다는 도박사의 오류 문제를 인식하는 것이 중요하다. 여러 번의 드문 사건을 관찰하는 것은 그 사건이 드물다는 가설, 즉 가정된 모델의 유효성을 약화시킨다.
[1]
서적
A Logical Introduction to Probability and Induction
https://books.google[...]
Oxford University Press
2018
[2]
서적
Schaum's Outline of Business Statistics
https://archive.org/[...]
McGraw Hill Professional
[3]
웹사이트
DISCOVERING THE SIGIFICANCE OF 5σ
https://arxiv.org/pd[...]
2013-10-07
[4]
서적
Understanding Statistical Process Control
https://books.google[...]
SPC Press
[5]
OEIS
[6]
OEIS
[7]
OEIS
[8]
서적
Schaum's Outline of Business Statistics
McGraw Hill Professional
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.