맨위로가기

1종 오류와 2종 오류

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

1종 오류와 2종 오류는 통계적 가설 검정에서 발생하는 오류의 유형을 설명한다. 1종 오류는 귀무 가설이 참임에도 기각하는 경우로, 거짓 양성 또는 알파 오류라고 불린다. 2종 오류는 귀무 가설이 거짓임에도 기각하지 못하는 경우로, 거짓 음성 또는 베타 오류라고 한다. 이 두 오류는 서로 상충 관계에 있으며, 오류율을 최소화하여 가설 검정의 품질을 향상시킬 수 있다. 또한, 1종 및 2종 오류 외에 제3종 오류, 제4종 오류와 같은 오류 유형 확장에 대한 제안이 있었으나 널리 받아들여지지는 않았다.

더 읽어볼만한 페이지

  • 스팸 필터 - DMARC
    DMARC는 SPF 및 DKIM으로 보호되는 이메일의 발신 도메인이 인증에 실패할 경우 수신자의 처리 정책을 DNS 레코드에 명시하고, `From:` 필드 도메인 정렬을 확인하여 스팸 및 피싱 메일 방지 및 이메일 보안 상태 모니터링을 지원하는 이메일 인증 프로토콜이다.
  • 스팸 필터 - TXT 레코드
    TXT 레코드는 DNS에서 임의의 텍스트 데이터를 저장하는 데 사용되며, 도메인 소유권 확인, SPF 구현, 전자우편 메시지 발신자 확인, 제로 컨피규레이션 네트워킹, DMARC 정책 등 다양한 목적으로 활용된다.
  • 가설 검정 - 귀무 가설
    귀무 가설은 통계적 유의성 검정에서 검정되는 '영향 없음' 또는 '차이 없음'에 대한 명제로, 대립 가설과 반대되며, 증거를 통해 기각 여부를 판단하고 과학적 주장을 통계적 잡음과 구분하는 데 사용된다.
  • 가설 검정 - 유의 확률
    유의 확률은 통계적 가설 검정에서 귀무 가설이 참일 때 관측된 결과의 극단성을 나타내는 확률값으로, 귀무 가설 기각 여부를 판단하는 기준이 되지만 오용될 수 있어 다른 통계적 추론 방법이 대안으로 제시된다.
  • 실험 설계 - 무작위 대조 시험
  • 실험 설계 - 실험군과 대조군
    실험군과 대조군은 임상 연구에서 새로운 방법이나 약물의 효과를 평가하기 위해 사용되는 두 그룹으로, 대조군은 비교 기준이 되며, 실험군은 새로운 치료법을 받는 그룹이다.
1종 오류와 2종 오류
개요
유형 1 오류 (Type I error)귀무 가설이 실제로 참일 때 귀무 가설을 기각하는 오류
유형 2 오류 (Type II error)귀무 가설이 실제로 거짓일 때 귀무 가설을 기각하지 못하는 오류
거짓 양성 (False positive)유형 1 오류와 동일
거짓 음성 (False negative)유형 2 오류와 동일
오류 종류
귀무 가설의 진실 여부
귀무 가설의 진실 여부거짓
귀무 가설 기각유형 1 오류 (거짓 양성)
귀무 가설 기각올바른 결정 (진정한 양성)
귀무 가설 기각 실패올바른 결정 (진정한 음성)
귀무 가설 기각 실패유형 2 오류 (거짓 음성)
확률 및 관련 용어
유형 1 오류 확률 (α)귀무 가설이 참일 때 기각할 확률 (유의 수준)
유형 2 오류 확률 (β)귀무 가설이 거짓일 때 기각하지 못할 확률
검정력 (1 - β)귀무 가설이 거짓일 때 올바르게 기각할 확률
정확도통계적 유의성에 대한 신뢰도
예시
법정귀무 가설: 피고인은 무죄이다.
유형 1 오류: 무죄인 피고인을 유죄로 판결 (거짓 양성).
유형 2 오류: 유죄인 피고인을 무죄로 판결 (거짓 음성).
의료 검사귀무 가설: 환자는 질병에 걸리지 않았다.
유형 1 오류: 질병이 없는 환자를 질병이 있다고 진단 (거짓 양성).
유형 2 오류: 질병이 있는 환자를 질병이 없다고 진단 (거짓 음성).
스팸 필터귀무 가설: 이메일은 스팸이 아니다.
유형 1 오류: 스팸이 아닌 이메일을 스팸으로 분류 (거짓 양성).
유형 2 오류: 스팸 이메일을 스팸으로 분류하지 않음 (거짓 음성).
고려 사항
오류 간의 균형유형 1 오류와 유형 2 오류는 상호 배타적이며, 한쪽을 줄이면 다른 쪽이 증가하는 경향이 있다.
오류의 중요도오류의 상대적인 중요성은 상황에 따라 다르며, 오류의 결과를 고려하여 결정해야 한다.
같이 보기
관련 개념통계적 검정력
유의 수준
정확도와 재현율
거짓 발견 비율
가설 검정

2. 정의

통계적 오류는 측정값과 이론값 간의 오차 원인에 따라 통계적 오류와 시스템적 오류로 구분된다. 통계적 가설 검정에서 통계적 오류는 필수적인 부분이며, 귀무 가설 (H_0)과 대립 가설 (H_1) 중 하나를 선택하는 과정에서 발생한다.[2]

통계적 검정 이론에서 귀무 가설대립 가설이라는 두 가지 경쟁적인 명제에 대한 선택을 한다. 이는 법정 재판에서의 판결과 개념적으로 유사하다. 귀무 가설은 피고인의 입장에 해당하며, 유죄가 입증될 때까지 무죄로 추정되는 것처럼, 데이터가 이에 반하는 설득력 있는 증거를 제시할 때까지 참으로 추정된다. 대립 가설은 피고인에 반하는 입장에 해당한다. 귀무 가설은 차이 또는 연관성의 부재를 포함하며, 결코 차이 또는 연관성이 있다는 것이 될 수 없다.[2]

검정 결과가 현실과 일치하면 올바른 결정을 내린 것이지만, 그렇지 않으면 오류가 발생한다. 결정이 잘못된 상황은 두 가지가 있다. 귀무 가설이 참이지만 H_0을 기각하는 경우(1종 오류)와, 대립 가설 H_1이 참이지만 H_0을 기각하지 않는 경우(2종 오류)이다.[2]

2. 1. 통계적 오류

통계적 오류는 무작위적이며 예측할 수 없는 변동에 의해 생기는 오류이다.[14] 통계적 오류는 '''1종 오류와 2종 오류'''로 분류된다.

  • '''1종 오류'''는 귀무가설이 실제로 참이지만, 이에 불구하고 귀무가설을 기각하는 오류이다. 즉, 실제 음성인 것을 양성으로 판정하는 경우이다. '''거짓 양성''' 또는 '''알파 오류'''(α error영어)라고도 한다.
  • '''2종 오류'''는 귀무가설이 실제로 거짓이지만, 이에 불구하고 귀무가설을 기각하지 못하는 오류이다. 즉, 실제 양성인 것을 음성으로 판정하는 경우이다. '''거짓 음성''' 또는 '''베타 오류'''(β error영어)라고도 한다.

2. 2. 시스템적 오류

계통적 오류(systematic error영어)는 시스템 상의 잘못으로 인해 발생하는 오차를 말하며, 해당 잘못을 특정해 내면 없앨 수 있다.[14] 알려지지 않은 소스에 의한 무작위적이지 않은 영향이며(불확실성 참조), 그 소스가 특정되면 제거할 수 있다.[15]

2. 3. 1종 오류 (거짓 양성, α 오류)

귀무가설이 실제로 참이지만, 이에 불구하고 귀무가설을 기각하는 오류이다. 즉, 실제 음성인 것을 양성으로 판정하는 경우이다. '''거짓 양성''' 또는 '''알파 오류'''(α error영어)라고도 한다.[48]

예를 들어, 무고한 사람을 유죄로 판결하는 것이 이에 해당한다. 통계학에서는 증거를 무로 돌리는 "귀무 가설"을 설정하여 검증을 진행하는데, "개인은 병에 걸리지 않았다" 또는 "피고인은 무죄이다"와 같은 경우가 귀무 가설의 예시이다. 1종 오류는 이러한 귀무 가설이 참임에도 불구하고 기각하는 오류로, "개인은 병이 아니다"임에도 불구하고 "개인이 병이다"라고 판단하는 것이나, 「진범을 체포하는 것」을 "귀무 가설을 기각하는 것"에 비유할 때 "일반 시민을 억울한 누명으로 체포하는 것"과 같다.

형사 소송법 제336조에는 "피고 사건이 죄가 되지 않거나, 피고 사건에 대해 범죄의 증명이 없는 경우에는 판결로 무죄를 선고해야 한다"고 규정하고 있다. 이는 의심스러울 때는 벌하지 않는다라고도 한다. 제1종 오류를 피하는 수법을 채택하는 것이 권장된다.[16]

가설 검정은 두 표본의 분포 차이가 무작위적인 우연성으로 설명될 수 있는지 여부를 판정하는 기법이다. 이때 참이 아닌 가설을 채택할 가능성을 최대한 작게 하기 위해 주의를 기울여야 한다. 일반적으로 제1종 오류가 발생할 확률을 0.05 또는 0.01(유의 수준)로 설정하는데, 이는 100건 중 5건 또는 1건에서 오류가 발생한다는 것을 의미한다.

다음은 1종 오류(거짓 양성)의 예시이다.

1종 오류 예시
상황귀무 가설 (실제 상태)검사 결과오류 내용
법정피고인은 무죄유죄 판결무고한 사람을 유죄로 판결
임신 테스트임신하지 않음임신으로 판정실제로는 임신하지 않았는데 임신했다는 검사 결과
속도 측정차량의 실제 속도가 제한 속도 이내제한 속도 초과로 판정 및 벌금 부과실제 속도가 제한 속도 이내임에도 벌금 부과


2. 4. 2종 오류 (거짓 음성, β 오류)

귀무가설이 실제로 거짓이지만, 귀무가설을 기각하지 못하는 오류를 2종 오류라고 한다. 2종 오류는 실제 양성인 것을 음성으로 판정하는 경우로, 거짓 음성 또는 베타 오류(β error영어)라고도 부른다.[44] 유니버시티 칼리지 런던의 통계학자 예르지 네이만과 이건 피어슨은 1928년에 오류의 두 가지 원인을 "채택해야 할 가설을 기각하는 오류"와 "기각해야 할 가설을 채택하는 오류"로 정의했고,[46] 1933년에는 이 두 가지 오류를 1종 오류와 2종 오류로 명명했다.[48]

통계적 검정 이론에서 통계적 오차가설 검정의 필수적인 부분이다. 검정 결과가 현실과 일치하지 않으면 오류가 발생하는데, 이 중 귀무 가설이 거짓임에도 기각하지 못하는 오류가 2종 오류이다.[2] 예를 들어, 법정에서 범죄자를 무죄로 판결하는 것이 2종 오류에 해당한다.[2]

「진범을 체포하는 것」을 "귀무 가설을 기각하는 것"에 비유하면, 2종 오류는 "진범을 놓치는 것"을 의미한다. 형사 소송법 제336조는 "피고 사건이 죄가 되지 않거나, 피고 사건에 대해 범죄의 증명이 없는 경우에는 판결로 무죄를 선고해야 한다"고 규정하며, 이는 의심스러울 때는 벌하지 않는다는 원칙과 관련이 있다.[16]
거짓 음성률 (\beta)는 양성 표본 집단 중 잘못하여 음성으로 판정된 표본의 비율로, 1에서 민감도를 뺀 값과 같다.

:\text{거짓 음성률 } \beta = \frac{\text{FN}}{\text{TP} + \text{FN}}

1 - \beta는 검출력이라고 한다.

2. 5. 교차 오류율 (CER)

1종 오류와 2종 오류가 동일해지는 지점을 의미하며, CER 값이 낮을수록 시스템의 정확도가 높다.[1]

3. 오류 유형 표

결정
기각하지 않음
올바른 추론
(진음성)
(확률 = 1-\alpha)제2종 오류
(가음성)
(확률 = \beta)기각제1종 오류
(가양성)
(확률 = \alpha)
올바른 추론
(진양성)
(확률 = 1-\beta)

[3]

4. 오류율

완벽한 테스트는 거짓 양성과 거짓 음성이 없어야 하지만, 통계적 방법은 확률적이므로 오류 발생 가능성이 존재한다.[4] 오류는 통계나 측정을 통해 얻은 값과 이론상의 값의 오차가 생기는 원인에 따라 통계적 오류와 시스템적 오류로 분류할 수 있으며, 통계적 오류는 다시 1종 오류와 2종 오류로 나뉜다.



이 두 종류의 오류율은 서로 상충 관계에 있다. 주어진 샘플 세트에 대해 한 종류의 오류를 줄이려는 노력은 일반적으로 다른 종류의 오류를 증가시키는 결과를 초래한다. 민감도를 변경하여 임계값을 설정할 수 있다. 민감도를 낮추면 참 양성을 음성으로 판정할 위험이 커지고, 민감도를 높이면 거짓 양성을 발생시킬 위험이 커진다.


4. 1. 1종 오류율 (α)

1종 오류율은 귀무 가설이 참일 때 귀무 가설을 기각할 확률을 의미하며, 유의 수준이라고도 한다. 일반적으로 0.05(5%)로 설정되는데, 이는 참인 귀무 가설을 잘못 기각할 확률이 5%임을 의미한다.[5]

예를 들어, 미국 고속도로 제한 속도가 시속 120킬로미터(75mph)이고, 지나가는 차량의 속도를 측정하는 장치가 있다고 가정해 보자. 이 장치가 차량 속도를 세 번 측정하여 평균 속도를 계산하고, 평균 속도가 특정 임계값보다 높으면 운전자에게 벌금을 부과한다. 만약 통계적 유의 수준을 0.05로 설정하면, 5%의 운전자는 실제 속도가 120km/h를 넘지 않음에도 불구하고 벌금을 부과받을 수 있다. 이를 1종 오류라고 한다.

1종 오류는 거짓 양성(false positive)이라고도 불리며, 실제 음성인 것을 양성으로 판정하는 경우이다. 예를 들어, 무고한 사람을 유죄로 판결하거나, 병이 없는 사람을 병이 있다고 진단하는 경우가 이에 해당한다.

형사소송법에서는 "피고 사건이 죄가 되지 않거나, 피고 사건에 대해 범죄의 증명이 없는 경우에는 판결로 무죄를 선고해야 한다"고 규정하고 있으며, 이는 의심스러울 때는 벌하지 않는다는 원칙을 따른다.[16] 즉, 1종 오류를 최소화하는 방향으로 법이 적용된다.

다음은 실제 상태와 검사 결과에 따른 오류의 종류를 나타낸 표이다.

오류의 종류
실제 상태 (유)실제 상태 (무)
검사 결과 (양성)진 양성 (true positive, TP)거짓 양성 (false positive, FP) - 제1종 오류
검사 결과 (음성)거짓 음성 (false negative, FN) - 제2종 오류진 음성 (true negative, TN)


4. 2. 2종 오류율 (β)

2종 오류는 귀무 가설이 실제로 거짓이지만, 이를 기각하지 못하는 오류이다. 즉, 실제 양성인 것을 음성으로 판정하는 경우이며, 거짓 음성 또는 베타 오류(β error)라고도 한다.[2] 예를 들어, 범죄자를 무죄로 판결하는 것이 2종 오류에 해당한다.

2종 오류율은 그리스 문자 β로 표시되며, 검정력과 관련이 있다. 검정력은 1-β로 계산된다. 2종 오류율(β)은 귀무 가설이 거짓일 때 귀무 가설을 기각하지 못할 확률을 의미한다.

예를 들어, 미국 고속도로의 제한 속도가 시속 120km일 때, 지나가는 차량의 속도를 측정하는 장치가 있다고 가정하자. 이 장치가 차량의 속도를 세 번 측정하여 평균 속도를 계산하고, 이 평균 속도에 따라 운전자에게 벌금을 부과한다. 만약 실제 속도가 시속 120km를 초과하지만, 측정된 평균 속도가 임계값보다 낮아 벌금이 부과되지 않는다면, 이는 2종 오류에 해당한다.

만약 차량의 실제 속도가 125km이고, 통계적 유의 수준이 α=0.05로 설정된 경우, 운전자가 벌금을 피할 확률은 0.36%이다. 실제 속도가 임계값에 가까울수록 벌금을 피할 확률은 더 높아진다.

1종 오류와 2종 오류는 서로 상충 관계에 있다. 주어진 샘플에 대해 한 종류의 오류를 줄이려고 하면, 다른 종류의 오류가 증가하는 경향이 있다. 예를 들어, 교통 경찰이 무고한 운전자에게 벌금을 부과하는 것을 줄이기 위해 유의 수준 α를 낮추면, 실제 속도가 시속 120km를 초과하는 운전자가 벌금을 피할 가능성이 더 커진다.

가설 검정에서 2종 오류는 대립 가설이 실제로 참인데 귀무 가설을 채택하는 오류이다. 즉, 참을 놓치는 것에 의한 오류이다. 예를 들어, "개인이 병에 걸렸다"는 대립 가설이 참인데, "개인은 병에 걸리지 않았다"라고 판단하는 경우가 이에 해당한다.

4. 3. 오류율 간의 상충 관계

주어진 샘플 세트에 대해 한 종류의 오류를 줄이려는 노력은 일반적으로 다른 종류의 오류를 증가시키는 결과를 초래한다.

이 두 종류의 오류율은 서로 상충 관계에 있다. 가설 검정에서 참이 아닌 가설을 채택할 가능성을 최대한 작게 하기 위해 주의를 기울여야 한다. 일반적으로 제1종 오류가 발생할 확률, 즉 유의 수준을 0.05 또는 0.01로 설정한다. 예를 들어, 식스 시그마 품질 관리를 채택하는 공장에서는 표준 편차의 6배 폭(±6σ)을 관리 한계로 한다.

임계값 설정을 통해 민감도를 변경할 수 있다. 민감도를 낮추면 참 양성을 음성으로 판정할 위험이 커지고, 민감도를 높이면 거짓 양성을 발생시킬 위험이 커진다.

5. 가설 검정의 품질

오류율을 최소화하여 가설 검정의 품질을 향상시킬 수 있다. 실험에서 모든 1종 오류와 2종 오류를 피하는 것은 불가능하므로, 귀무 가설을 잘못 기각하거나 채택할 위험 정도를 고려하는 것이 중요하다. 이 질문에 대한 해결책은 p-값 또는 통계적 유의 수준 α를 보고하는 것이다. 예를 들어, 검정 통계량 결과의 p-값이 0.0596으로 추정된다면, 귀무 가설을 잘못 기각할 확률은 5.96%이다. 또는 통계량이 0.05와 같은 수준 α에서 수행된다고 가정하면, 5%에서 귀무 가설을 잘못 기각하도록 허용한다. 유의 수준 α 0.05는 비교적 일반적이지만, 모든 시나리오에 맞는 일반적인 규칙은 없다.

5. 1. 1종 오류 감소

1종 오류를 범할 확률을 줄이려면 알파 값을 더 엄격하게 만드는 것이 간단하고 효과적이다. 검정 통계량은 1종 오류율이 통제되는 경우 강건하다.

서로 다른 임계값(컷오프) 값을 변경하는 것 또한 검정을 더 특이하거나 더 민감하게 만드는 데 사용될 수 있으며, 이는 차례로 검정의 품질을 향상시킨다. 예를 들어, 실험자가 혈액 샘플에서 특정 단백질의 농도를 측정할 수 있는 의료 검사를 상상해 보자. 실험자는 임계값을 조정할 수 있으며, 이 특정 임계값보다 높은 숫자가 감지되면 사람들은 질병이 있는 것으로 진단될 것이다. 임계값을 변경하면 곡선에서 이동하는 것에 해당하는 위양성 및 위음성 변화가 발생한다.[1]

5. 2. 2종 오류 감소

제2종 오류를 범할 확률을 줄이려면, 분석의 검정력과 밀접하게 관련되어 있는데, 검정의 표본 크기를 늘리거나 알파 수준을 완화하면 분석의 검정력을 높일 수 있다. 검정 통계량은 제1종 오류율이 통제되는 경우 강건하다.

서로 다른 임계값(컷오프) 값을 변경하는 것 또한 검정을 더 특이하거나 더 민감하게 만드는 데 사용될 수 있으며, 이는 차례로 검정의 품질을 향상시킨다. 예를 들어, 실험자가 혈액 샘플에서 특정 단백질의 농도를 측정할 수 있는 의료 검사를 상상해 보자. 실험자는 임계값을 조정할 수 있으며, 이 특정 임계값보다 높은 숫자가 감지되면 사람들은 질병이 있는 것으로 진단될 것이다.

2종 오류(β 오류, 위음성)는 대립 가설이 실제로는 참인데 귀무 가설을 채택하는 오류이다. 즉, 참을 놓치는 것에 의한 오류이다. 대립 가설이 옳을 때 대립 가설을 채택하지 않는 오류를 말한다. 앞서 예시로 든 경우에서 "개인이 병에 걸렸다"인데 "개인은 병에 걸리지 않았다"라고 판단하는 것에 해당한다.

5. 3. 임계값 (컷오프) 값 변경

검정을 더 특이하거나 더 민감하게 만들기 위해 임계값(컷오프) 값을 변경하여 검정 품질을 향상시킬 수 있다. 예를 들어, 혈액 샘플에서 특정 단백질 농도를 측정하는 의료 검사를 생각해 보자. 실험자는 임계값(그림의 검은색 수직선)을 조정하여, 이 특정 임계값보다 높은 수치가 감지되면 질병이 있는 것으로 진단할 수 있다. 임계값을 변경하면 위양성 및 위음성 변화가 발생한다.

6. 검정력

검정력(檢定力, statistical power)은 귀무가설이 거짓일 때 (즉, 대립가설이 참일 때) 귀무가설을 기각하는 확률이다.[48] 1933년에 예르지 네이만과 이건 피어슨은 가설 검정에서 발생하는 오류를 두 가지로 정의했는데, 하나는 귀무가설이 참인데도 기각하는 경우(제1종 오류)이고, 다른 하나는 대립가설이 참인데도 귀무가설을 채택하는 경우(제2종 오류)였다.[48]

완벽한 검정은 거짓 양성과 거짓 음성이 없어야 하지만, 통계적 방법은 확률적이기 때문에 통계적 결론의 정확성을 확신할 수 없다. 불확실성이 존재하면 오류가 발생할 가능성이 있으며, 모든 통계적 가설 검정은 제1종 오류와 제2종 오류를 범할 확률을 갖는다.[4]



이 두 종류의 오류율은 서로 상충 관계에 있어, 한 종류의 오류를 줄이려는 노력은 일반적으로 다른 종류의 오류를 증가시킨다.

7. 역사

유니버시티 칼리지 런던의 통계학자 예르지 네이만과 이건 피어슨은 1928년에 특정한 표본이 모집단에서 무작위로 추출되었는지 여부를 판단하는 문제를 논의했다.[44] 이들의 동료였던 플로렌스 데이비드(en)는 '무작위'라는 표현은 표본 추출 방법에 적용되어야 하며, 표본 자체를 수식하기에는 적절하지 않다고 지적했다.[45]

네이만과 피어슨은 "채택해야 할 가설을 기각하는 오류"와 "기각해야 할 가설을 채택하는 오류"라는 두 가지 오류 원인을 정의했다.[46] 1930년에 이들은 참인 가설을 기각할 가능성을 최소화하고, 거짓으로 추정되는 가설을 기각하도록 검증해야 한다는 개념을 발전시켰다.[47]

1933년, 네이만과 피어슨은 가설의 진위 여부를 확신할 수 없는 경우 문제가 발생하며, 대립 가설군에서 특정 가설을 기각하거나 채택할 때 오류가 발생하기 쉽다고 설명했다. 이러한 오류는 다음 두 가지로 분류된다.[48]



그들은 이 두 가지 오류를 1종 오류와 2종 오류라고 명명했다.[48]

8. 관련 용어

통계적 검정 이론에서 사용되는 주요 용어는 다음과 같다.

9. 응용 분야

1종 오류와 2종 오류는 의학, 생체 인식, 보안 검색, 컴퓨터 등 다양한 분야에서 활용되는 개념이다.
의학 분야에서는 질병 진단 시 오류가 발생할 수 있다. 선별 검사는 대규모 인구를 대상으로 질병 유무를 빠르게 확인하는 방법이지만, 거짓 양성률(실제로는 질병이 없는데 있다고 판단)이 높을 수 있다. 반면, 임상 검사는 질병이 의심되는 환자를 대상으로 더 정밀하게 검사하지만, 거짓 음성률(실제로는 질병이 있는데 없다고 판단)이 발생할 수 있다.
생체 인식 분야에서는 지문 인식, 얼굴 인식 등을 통해 개인을 식별할 때 오류가 발생할 수 있다. 예를 들어, 시스템이 실제로는 동일인이 아닌데 동일인으로 판단하는 경우(2종 오류, 수락 오류)와 실제로는 동일인인데 동일인이 아니라고 판단하는 경우(1종 오류, 거부 오류)가 있다.
보안 검색 분야, 특히 공항에서는 무기 등을 탐지할 때 오류가 발생할 수 있다. 폭발물 탐지기와 같이 민감도가 높은 장비는 사소한 물품에도 경보를 울려 거짓 양성(실제로는 위험하지 않은 물품인데 위험하다고 판단)이 자주 발생한다.
컴퓨터 분야에서는 컴퓨터 보안, 스팸 필터링, 멀웨어 감지 등에서 오류가 발생할 수 있다. 예를 들어, 스팸 필터가 정상적인 메일을 스팸으로 잘못 분류하는 경우(1종 오류, 거짓 양성)와 스팸 메일을 정상 메일로 잘못 분류하는 경우(2종 오류, 거짓 음성)가 있다.

9. 1. 의학

의학 분야에서 "선별 검사"와 "임상 검사"는 큰 차이를 보인다.

선별 검사와 임상 검사 모두 오류가 발생할 수 있다. 선별 검사는 페닐케톤뇨증 및 갑상선 기능 저하증 검사나 HIV 및 간염에 대한 헌혈자 선별 혈액 검사처럼 거짓 양성률이 높지만, 조기 발견 가능성을 높인다. 반면, 임상 검사는 질병의 임상적 징후를 보이는 사람들에게 시행되지만, 거짓 음성 및 거짓 양성은 부적절한 치료로 이어질 수 있다. 관상 동맥의 동맥 경화증을 검출하는 심장 스트레스 테스트에서 위음성이 있다는 것이 그 예시이다.

유방 촬영술을 이용한 유방암 선별 검사는 거짓 양성 사례로 자주 언급된다. 미국의 유방 촬영술 거짓 양성률은 최대 15%로 세계 최고 수준이다. 반면, 네덜란드의 거짓 양성률은 1%로 매우 낮다.

9. 1. 1. 의료 선별 검사

선별 검사는 대규모 인구를 대상으로 비교적 저렴한 비용으로 질병 유무를 검사하는 것을 말한다. 예를 들어 자궁경부암 검사, 신생아 선천성 질환 선별 검사, 유방 촬영술 등이 있다. 이러한 검사들은 증상이 없는 사람들에게도 시행된다.[40]

선별 검사는 거짓 양성률(실제로는 질병이 없는데 질병이 있다고 판단하는 경우)이 높을 수 있지만, 질병을 조기에 발견할 가능성을 높여준다. 예를 들어, 미국의 많은 주에서는 신생아를 대상으로 페닐케톤뇨증과 갑상선 기능 저하증 같은 선천성 질환에 대한 선별 검사를 실시한다. 이때, 거짓 양성이 나올 확률이 높지만, 질환을 조기에 발견하여 치료할 수 있다는 장점이 있다.[40]

헌혈 시 HIV나 간염에 대한 선별 검사도 거짓 양성률이 높다. 하지만, 더 정확한 추가 검사를 통해 실제로 질병에 감염되었는지 확인할 수 있다.[40]

유방 촬영술을 이용한 유방암 선별 검사는 거짓 양성 사례로 자주 언급된다. 미국의 유방 촬영술 거짓 양성률은 최대 15%로 세계 최고 수준이다.[41] 반면, 네덜란드의 거짓 양성률은 1%로 매우 낮다.[42] 이는 유방 촬영 필름을 두 번 판독하고 추가 검사 기준을 높게 설정했기 때문이다.

의료 선별 검사의 예시와 특징
검사 종류대상특징장점단점
자궁경부암 검사 (파파니콜라우 검사)대규모 인구비교적 저렴조기 발견 가능성 높임거짓 양성률 높음
신생아 선천성 질환 선별 검사신생아비교적 저렴, 필수 검사페닐케톤뇨증, 갑상선 기능 저하증 등 조기 발견거짓 양성률 높음
헌혈 시 HIV, 간염 선별 검사헌혈비교적 저렴, 필수 검사감염 여부 조기 확인거짓 양성률 높음
유방 촬영술 (유방암 선별 검사)대규모 인구비교적 저렴조기 발견 가능성 높임거짓 양성률 높음 (국가별 차이 큼)



이상적인 인구 선별 검사는 저렴하고, 시행하기 쉬우며, 거짓 음성이 없어야 한다. 그러나 현실적으로는 거짓 양성이 발생할 수 있으며, 이 경우 더 정밀한 추가 검사를 통해 질병 유무를 최종적으로 판단하게 된다.

9. 1. 2. 의료 검사

의학 검사에서 거짓 음성 및 거짓 양성은 중요한 문제이다.[1] 질병의 임상적 징후가 있는 사람들에게 시행하는 정밀 검사에서 거짓 음성과 거짓 양성은 환자와 질병 모두에 대한 부적절한 치료로 이어질 수 있다.[1]

거짓 양성은 찾고 있는 상태가 드문 경우, 선별 검사에서 심각하고 직관에 반하는 문제를 일으킬 수 있다.[1] 예를 들어 어떤 검사에서 1만 명 중 1명의 거짓 양성률을 보이지만, 100만 명 중 단 1명만 진실 양성인 경우, 해당 검사에서 감지된 대부분의 양성은 거짓 양성일 것이다.[1] 관찰된 양성 결과가 거짓 양성일 확률은 베이즈 정리를 사용하여 계산할 수 있다.[1]

거짓 음성은 찾고 있는 상태가 흔한 경우 심각하고 직관에 반하는 문제를 일으킨다.[1] 예를 들어 거짓 음성률이 10%에 불과한 검사가 실제 발생률이 70%인 집단을 검사하는 데 사용되는 경우, 검사에서 감지된 음성 중 상당수는 거짓 음성일 것이다.[1]

이는 때때로 환자와 질병 모두에 대한 부적절하거나 부적절한 치료로 이어진다.[1] 일반적인 예는 심장 부하 검사가 관상 동맥 혈류의 제한을 감지한다는 사실에도 불구하고, 관상 동맥 경화증을 감지하기 위해 심장 부하 검사에 의존하는 것이다. 이는 협착증이 심하게 진행된 경우에만 해당한다.[1]

임신 테스트기, 건강 검진에서는 '위음성'이 큰 문제가 된다.[1] '위음성'의 경우, 환자에게는 실제로는 병에 걸렸음에도 불구하고 걸리지 않았다는 잘못된 정보를 전달하게 된다.[1] 이 때문에 그 후의 치료 방침이 잘못된 전제하에 세워지게 된다.[1] 관상 동맥의 동맥 경화증을 검출하는 심장 스트레스 테스트에서 위음성이 있다는 것이 알려져 있다.[1]

특히 증상이 흔한 병의 경우 '위음성'은 심각한 문제를 일으키며, 집단 내 환자 수가 매우 적은 경우에는 '위양성'이 문제가 된다.[1] 자세한 내용은 베이즈 추론을 참조할 수 있다.[1]

9. 2. 생체 인식

생체 인식 매칭은 지문 인식, 얼굴 인식, 홍채 인식 등에서 1종 오류와 2종 오류가 발생하기 쉽다.[2]

1종 오류 확률은 "거부 오류율"(FRR) 또는 비매치 오류율(FNMR)이라 하고, 2종 오류 확률은 "수락 오류율"(FAR) 또는 매치 오류율(FMR)이라고 한다.

시스템이 용의자를 거의 매칭하지 않도록 설계된 경우, 2종 오류 확률은 "오경보"율이라고도 한다. 반면 시스템이 유효성 검사에 사용되는 경우(수락이 일반적인 경우) FAR은 시스템 보안 척도이며, FRR은 사용자 불편 수준을 나타낸다.

9. 3. 보안 검색

공항 보안 검색에서는 거짓 양성 오류가 매일같이 발견되는데, 이는 궁극적으로 육안 검사 시스템이다. 설치된 보안 경보는 무기가 항공기로 반입되는 것을 방지하기 위한 것이지만, 열쇠, 벨트 버클, 잔돈, 휴대폰, 신발의 압정 등 사소한 물품에도 하루에도 여러 번 경보가 울릴 정도로 민감하게 설정되는 경우가 많다.[2]

거짓 양성(무고한 여행자를 테러리스트로 식별) 대 진 양성(잠재적 테러리스트를 탐지)의 비율이 매우 높고, 거의 모든 경보가 거짓 양성이기 때문에 이러한 검색 테스트의 양성 예측도는 매우 낮다.

거짓 결과의 상대적인 비용은 테스트 제작자가 이러한 사건이 발생하도록 허용할 가능성을 결정한다. 이 시나리오에서 거짓 음성의 비용은 매우 높고(비행기에 폭탄이 반입되는 것을 감지하지 못하면 수백 명의 사망자를 초래할 수 있음), 거짓 양성의 비용은 비교적 낮기 때문에(합리적으로 간단한 추가 검사) 가장 적절한 테스트는 통계적 특이성은 낮지만 통계적 민감도는 높은 테스트(거짓 음성을 최소화하는 대신 높은 거짓 양성률을 허용하는 테스트)이다.

9. 4. 컴퓨터

컴퓨터 및 컴퓨터 응용 분야에서 1종 오류와 2종 오류 개념은 널리 사용되며, 컴퓨터 보안, 스팸 필터링, 멀웨어, 광학 문자 인식 등에서 활용된다.[2]

스팸 필터링에서 1종 오류(거짓 양성)는 합법적인 이메일을 스팸으로 잘못 분류하여 전송을 막는 것을 의미한다. 2종 오류(거짓 음성)는 스팸 이메일을 스팸으로 감지하지 못하고 정상 메일로 분류하는 것이다.[2] 대부분의 스팸 방지 기술은 높은 비율로 스팸 메일을 차단하거나 걸러낼 수 있지만, 거짓 양성 결과를 생성하지 않으면서 스팸 메일을 차단하는 것은 훨씬 더 어려운 과제이다. 낮은 거짓 음성 비율은 스팸 필터링의 효율성을 나타낸다.

멀웨어 감지에서 1종 오류(거짓 양성)는 안티 바이러스 소프트웨어가 문제가 없는 파일을 바이러스로 오인하는 현상이다. 이는 휴리스틱 분석이나 데이터베이스 상의 바이러스 시그니처 오류 때문에 발생한다. 트로이 목마나 스파이웨어 감지에서도 유사한 문제가 발생한다.

10. 오류 종류 확장의 제안 (한국의 관점)

네이만과 피어슨이 제안한 제1종 오류(거짓 양성)와 제2종 오류(거짓 음성) 외에, Type III error|제3종 오류영어, Type IV error|제4종 오류영어 등 추가적인 오류 유형을 정의하려는 시도가 있었으나 널리 받아들여지지는 않았다.[27]

이와 관련하여 하버드 대학교의 경제학자 하워드 래이파는 "잘못된 문제를 풀게 되는 상황에 놓였다"는 경험을 이야기하기도 했다.[34][35]

10. 1. 제3종 오류 (가칭)

유니버시티 칼리지 런던에서 네이먼, 피어슨과 동료였던 플로렌스 나이팅게일 데이비드(1909년-1993년)는 1947년 논문에서 자신의 연구 결과에 대해 네이먼과 피어슨의 "제1종 오류와 제2종 오류"를 세 번째로 확장할 가능성에 대해 농담조로 언급하고 있다.[28]

1948년 프레데릭 모스텔러(1916년 - 2006년)는 "'''제3종 오류'''"를 다음과 같이 정의할 것을 제안했다.[30][31]

오류 종류설명
제1종 오류참인 귀무가설을 기각한다.
제2종 오류거짓인 귀무가설을 채택한다.
제3종 오류잘못된 이유로, 올바르게 귀무가설을 기각한다.



헨리 F. 카이저(Henry F. Kaiser, 1927년 - 1992년)는 1966년 논문에서 모스텔러의 분류를 확장하여, "제3종 오류"를 기각된 가설에 근거하여 잘못된 판단을 하는 것을 의미한다고 했다.[32] 또한, 카이저는 이를 '''γ 오류'''(γ errors)라고 불렀다.

1957년, 오크리지 국립 연구소의 통계학자 앨린 W. 킴볼은 제1종 오류와 제2종 오류에 이은 새로운 종류의 오류를 제안했다. 킴볼이 정의한 "제3종 오류"란 "잘못된 문제에 올바른 답을 제공하는 오류"이다.[33]

수학자 리처드 해밍(1915년 - 1998년)은 "잘못된 문제에 올바른 해법을 제공하는 것보다 올바른 문제에 잘못된 해법을 제공하는 것이 더 바람직하다"라고 말했다.

1974년, 이안 미트로프(Ian Mitroff)와 톰 페더링엄(Tom Featheringham)은 킴벌의 분류를 확장하여 "문제 해결을 생각할 때 가장 중요한 요소는 그 문제가 먼저 어떻게 설명되고 공식화되었는가이다"라고 했다. 그들은 '''제3종 오류'''를 "올바른 문제를 해결해야 할 때 잘못된 문제를 해결하는 오류" 또는 "문제를 올바르게 표현해야 할 때 잘못된 표현을 선택하는 오류"로 정의했다.[36]

10. 2. 제4종 오류 (가칭)

1969년, 하버드 대학교의 경제학자 하워드 래이파는 "올바른 문제를 푸는 데 시간이 너무 오래 걸리는 것"이 제4종 오류의 후보라고 농담처럼 말했다.[37]

1970년, Marascuilo와 Levin은 '''제4종 오류'''를 "올바르게 기각된 가설의 부적절한 해석"으로 인한 오류라고 제안했다. 그들은 의사의 질병 진단은 정확했지만, 그 후 잘못된 의약품을 처방한 경우를 예시로 들었다.[38]

참조

[1] 웹사이트 Type I Error and Type II Error https://explorable.c[...] 2019-12-14
[2] 서적 A modern introduction to probability and statistics : understanding why and how Springer 2005
[3] 서적 Handbook of Parametric and Nonparametric Statistical Procedures CRC Press
[4] 서적 An introduction to probability theory and mathematical statistics John Wiley & Sons, Inc 2015
[5] 서적 Practical conservation biology CSIRO Pub 2005
[6] 논문 On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference Part I 1928
[7] 논문 Probability Theory for Statistical Methods. By F. N. David. [Pp. ix + 230. Cambridge University Press. 1949. Price 155.] 1951-07
[8] 문서
[9] 논문 The testing of statistical hypotheses in relation to probabilities a priori 1933-10-30
[10] 서적 The design of experiments Hafner
[11] 웹사이트 医歯薬英語辞書 http://www.medo.jp/c[...]
[12] 웹사이트 JIS Z 8101-1:2015 統計 − 用語と記号 − 第1部:確率及び一般統計用語 http://kikakurui.com[...] 2019-04-28
[13] 웹사이트 false negativeの意味・使い方 https://eow.alc.co.j[...]
[14] 문서
[15] 문서
[16] 서적 コンパクト統計学 新世社
[17] 문서
[18] 문서
[19] 문서
[20] 문서
[21] 문서
[22] 문서
[23] 문서
[24] 문서
[25] 문서
[26] 문서
[27] 문서
[28] 웹사이트 Florence Nightingale David http://www.agnesscot[...] 2015-02-28
[29] 문서
[30] 문서
[31] 문서
[32] 문서
[33] 문서
[34] 문서
[35] 문서
[36] 서적 Mittoff and Featheringham 1974
[37] 서적 Raiffa 1968
[38] 서적 Morascuilo and Levin 1970
[39] 문서
[40] 뉴스 新生児スクリーニングについて、通常のスクリーニングに比較して偽陽性となる確率が12倍という研究結果がある http://www.nlm.nih.g[...] 2006
[41] 문서
[42] 문서
[43] 웹사이트 Moorestown Ghost Research http://www.moorestow[...]
[44] 간행물 "On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference, Part I" Cambridge University Press 1967
[45] 서적 Probability Theory for Statistical Methods Cambridge University Press 1949
[46] 간행물 "On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference, Part I" Cambridge University Press 1967
[47] 간행물 "On the Problem of Two Samples" Cambridge University Press 1967
[48] 간행물 "The testing of statistical hypotheses in relation to probabilities a priori" Cambridge University Press 1967



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com