거짓 양성과 거짓 음성
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
거짓 양성(False Positive)과 거짓 음성(False Negative)은 통계에서 검사 결과의 오류를 나타내는 용어이다. 거짓 양성은 실제로는 음성인 것을 양성으로 잘못 판단하는 경우이며, 1종 오류라고도 한다. 반면, 거짓 음성은 실제로는 양성인 것을 음성으로 잘못 판단하는 경우이며, 2종 오류라고 한다. 거짓 양성률과 거짓 음성률은 각각 전체 음성 중 양성으로 잘못 판단되는 비율과 전체 양성 중 음성으로 잘못 판단되는 비율을 의미한다. 검사 알고리즘 개발 시, 거짓 양성과 거짓 음성은 서로 trade-off 관계에 있다.
더 읽어볼만한 페이지
- 가설 검정 - 귀무 가설
귀무 가설은 통계적 유의성 검정에서 검정되는 '영향 없음' 또는 '차이 없음'에 대한 명제로, 대립 가설과 반대되며, 증거를 통해 기각 여부를 판단하고 과학적 주장을 통계적 잡음과 구분하는 데 사용된다. - 가설 검정 - 유의 확률
유의 확률은 통계적 가설 검정에서 귀무 가설이 참일 때 관측된 결과의 극단성을 나타내는 확률값으로, 귀무 가설 기각 여부를 판단하는 기준이 되지만 오용될 수 있어 다른 통계적 추론 방법이 대안으로 제시된다. - 통계적 분류 - 서포트 벡터 머신
서포트 벡터 머신(SVM)은 지도 학습 모델로서 분류와 회귀 분석에 사용되며, 데이터 집합을 기반으로 새로운 데이터의 범주를 판단하는 비확률적 이진 선형 분류 모델을 생성하고, 커널 트릭을 통해 비선형 분류에도 활용될 수 있다. - 통계적 분류 - 민감도와 특이도
민감도와 특이도는 의학적 진단에서 검사의 정확성을 평가하는 지표로, 민감도는 실제 양성인 대상 중 양성으로 나타나는 비율, 특이도는 실제 음성인 대상 중 음성으로 나타나는 비율을 의미하며, 선별 검사에서 두 지표를 모두 높여 질병을 정확하게 진단하는 것을 목표로 한다. - 베이즈 통계학 - 주관주의
주관주의는 현실이 인식에 의존한다는 철학적 입장으로, 형이상학에서는 궁극적 실재가 인식에 달려있다고 보며, 윤리학에서는 윤리적 판단이 개인의 태도에 따라 달라진다고 보고, 확률론에서는 확률을 개인의 신념으로 해석한다. - 베이즈 통계학 - 사후 확률
사후 확률은 베이즈 통계학에서 증거가 주어졌을 때 모수의 확률을 나타내며, 베이즈 정리를 통해 계산하고, 사전 확률을 갱신하여 사후 확률 분포를 얻는 데 활용된다.
| 거짓 양성과 거짓 음성 | |
|---|---|
| 개요 | |
| 거짓 양성 | 실제로는 음성인데 양성으로 잘못 판정하는 경우 |
| 거짓 음성 | 실제로는 양성인데 음성으로 잘못 판정하는 경우 |
| 혼동 행렬 | |
![]() | |
| 실제 조건 | 양성 (Positive) | 음성 (Negative) |
| 예측 | 양성 (Positive) | 음성 (Negative) |
| 양성 (Positive) | 참 긍정 (True Positive, TP) | 거짓 긍정 (False Positive, FP) |
| 음성 (Negative) | 거짓 부정 (False Negative, FN) | 참 부정 (True Negative, TN) |
| 정의 및 계산 | |
| 용어 | 설명 |
| 참 긍정 (TP) | 양성으로 정확하게 예측된 경우 |
| 참 부정 (TN) | 음성으로 정확하게 예측된 경우 |
| 거짓 긍정 (FP) | 실제로는 음성인데 양성으로 잘못 예측된 경우 (제1종 오류) |
| 거짓 부정 (FN) | 실제로는 양성인데 음성으로 잘못 예측된 경우 (제2종 오류) |
| 정밀도 (Precision) | TP / (TP + FP) |
| 재현율 (Recall) | TP / (TP + FN) |
| 특이도 (Specificity) | TN / (TN + FP) |
| 정확도 (Accuracy) | (TP + TN) / (TP + TN + FP + FN) |
| F1 점수 (F1 score) | 2 * (정밀도 * 재현율) / (정밀도 + 재현율) |
| 예시 | |
| 의학적 진단 | 거짓 양성: 건강한 사람이 질병이 있다고 진단받는 경우 거짓 음성: 질병이 있는 사람이 건강하다고 진단받는 경우 |
| 스팸 필터링 | 거짓 양성: 정상 메일이 스팸으로 분류되는 경우 거짓 음성: 스팸 메일이 정상 메일함으로 들어오는 경우 |
| 법률 시스템 | 거짓 양성: 무고한 사람이 유죄 판결을 받는 경우 거짓 음성: 유죄인 사람이 무죄 판결을 받는 경우 |
| 오류 유형 | |
| 제1종 오류 (Type I error) | 귀무 가설이 참인데 기각하는 오류 (거짓 양성) |
| 제2종 오류 (Type II error) | 귀무 가설이 거짓인데 채택하는 오류 (거짓 음성) |
2. 거짓 양성 (False Positive, 1종 오류)
'''거짓 양성'''(false positiveeng)은 통계적으로 실제로는 음성인데 검사 결과가 양성으로 나타나는 오류를 말한다. 이는 특정 조건이 존재하지 않음에도 불구하고 존재한다고 잘못 판단하는 제1종 오류에 해당하며[3], 위양성(僞陽性) 또는 거짓 경보(false alarmeng)라고도 한다.[1]
일반적으로 검사 알고리즘을 개발할 때, 거짓 양성을 줄이면 거짓 음성(false negative)이 늘어나고, 반대로 거짓 음성을 줄이면 거짓 양성이 늘어나는 상충 관계(trade-offeng)가 필연적으로 발생한다.[2]
제1종 오류가 발생할 확률과, 검사 결과가 양성으로 나왔을 때 실제로 그것이 거짓일 확률(거짓 양성 위험)은 통계학적으로 구분되어야 한다.[3] 거짓 양성은 다양한 분야에서 발생할 수 있으며, 구체적인 사례는 하위 문단에서 다룬다.
2. 1. 예시
- 어떤 메일이 실제로는 스팸 메일이 아니지만, 스팸 메일 검사 프로그램이 스팸 메일로 잘못 판정하는 경우가 거짓 양성의 한 예이다.
- 의학 분야에서는 임신하지 않은 여성이 임신 테스트 결과 임신으로 나오는 경우가 있다.
- 법적인 맥락에서는 실제로는 무죄인 사람에게 유죄 판결을 내리는 심각한 오류도 거짓 양성에 해당한다. 이러한 오류는 개인의 삶에 치명적인 영향을 미칠 수 있다.
3. 거짓 음성 (False Negative, 2종 오류)
'''거짓 음성'''(false negative) 또는 '''2종 오류'''(type II error)는 통계적으로 실제로는 '양성'(참)이어야 할 상황이 검사 결과 '음성'(거짓)으로 잘못 나타나는 경우를 말한다. 예를 들어, 어떤 이메일이 실제로는 스팸 메일임에도 불구하고, 스팸 메일 검사 프로그램이 이를 정상 메일로 잘못 분류하는 경우가 거짓 음성에 해당한다.
거짓 음성 오류는 특정 조건이 실제로는 성립함에도 불구하고 검사 결과가 이를 놓치고 성립하지 않는다고 잘못 판단하는 것을 의미한다. 즉, 검사 결과가 오류를 범하여 해당 조건이 존재하지 않는다고 나타내는 것이다. 거짓 음성 오류는 단일 조건을 확인하는 검사에서 발생하는 제2종 오류와 동일한 개념으로 볼 수 있다.[2]
암 진단이나 보안 시스템과 같은 분야에서는 거짓 음성으로 인한 오탐지 비용(위험성)이 거짓 양성에 비해 클 수 있다. 예를 들어, 실제로 암에 걸린 환자를 암이 아니라고 진단하거나, 보안상 위험한 상황을 안전하다고 판단하는 경우 심각한 결과를 초래할 수 있다. 따라서 이러한 분야에서는 검사 알고리즘 등을 개발할 때 거짓 음성의 발생 가능성을 최소화하는 것을 중요하게 고려해야 한다.
하지만 실제로 검사 알고리즘을 개발할 때는 거짓 양성(1종 오류)과 거짓 음성(2종 오류) 사이에 trade-off(어느 한쪽의 오류를 줄이면 다른 쪽의 오류가 늘어나는 경향)가 필연적으로 발생하는 경우가 많다. 따라서 두 종류의 오류 발생 가능성과 그 위험성을 종합적으로 고려하여 적절한 균형점을 찾는 것이 중요하다.
3. 1. 예시
'''거짓 음성''' 또는 2종 오류는 통계적으로 실제로는 '양성'(참)이어야 할 상황이 검사 결과 '음성'(거짓)으로 잘못 나타나는 경우를 말한다. 몇 가지 예시는 다음과 같다.- 스팸 메일 필터링: 어떤 이메일이 실제로는 스팸 메일임에도 불구하고, 스팸 메일 검사 프로그램이 이를 정상 메일로 잘못 분류하는 경우이다.
- 임신 테스트: 검사 결과 여성이 임신하지 않았다고 나왔지만, 실제로는 임신한 상태인 경우이다. 즉, '임신'이라는 조건이 실제로 존재함에도 불구하고 검사가 이를 놓친 것이다.
- 범죄 수사 및 재판: 특정 혐의자가 실제로는 유죄이지만, 수사나 재판 과정에서의 오류 또는 증거 불충분 등으로 인해 무죄 판결을 받는 경우이다. 이는 '유죄'라는 실제 조건이 성립함에도 불구하고, 법적 판단 시스템이 이를 확인하지 못하고 '무죄'라는 잘못된 결론을 내리는 상황에 해당한다. 이러한 거짓 음성 판정은 진실 규명을 어렵게 하고 사회 정의 실현에 큰 장애가 될 수 있다.
이처럼 거짓 음성 오류는 특정 조건이 실제로 존재함에도 불구하고, 검사나 판단 과정에서 오류가 발생하여 해당 조건이 존재하지 않는다고 잘못된 결과를 내놓는 제2종 오류의 한 형태이다.[2] 특히 의학적 진단이나 보안 시스템, 법적 판단 등에서는 거짓 음성으로 인한 결과가 매우 심각할 수 있으므로, 검사나 시스템 설계 시 이를 최소화하기 위한 노력이 중요하다. 하지만 실제로 검사 알고리즘 등을 개발할 때는 거짓 양성(실제는 음성인데 양성으로 판정)과 거짓 음성 사이에 trade-off(어느 한쪽을 줄이면 다른 한쪽이 늘어나는 현상)가 발생하는 경우가 많아, 두 오류 사이의 균형을 맞추는 것이 중요한 과제가 된다.
4. 관련 용어
거짓 양성과 거짓 음성의 개념을 정확히 이해하고 활용하기 위해서는 여러 관련 통계 용어를 이해하는 것이 중요하다. 대표적으로 거짓 양성률(False Positive Rate, FPR)과 거짓 음성률(False Negative Rate, FNR)이 있으며, 이는 특정 검사나 판단의 정확성을 평가하는 기본적인 지표로 사용된다.
또한, 통계적 유의성을 판단하는 과정에서 p-값의 해석과 관련하여 거짓 발견율(False Discovery Rate, FDR)이나 거짓 양성 위험(False Positive Risk, FPR)과 같은 개념들이 사용된다. 이러한 용어들은 특히 연구 결과의 신뢰도를 평가할 때 중요하게 고려된다.
검사의 성능을 종합적으로 시각화하고 평가하는 방법으로는 수신자 조작 특성(Receiver Operating Characteristic, ROC) 곡선 분석 등이 활용된다. ROC 곡선은 검사의 민감도와 특이도 사이의 관계를 보여주어, 다양한 임계값 설정에 따른 검사 성능의 변화를 파악하는 데 도움을 준다.
4. 1. 거짓 양성률과 거짓 음성률
'''거짓 양성률'''(False Positive Rate, FPR)은 실제로 음성인 전체 사례 중에서 검사 결과가 양성으로 잘못 나타나는 비율을 의미한다. 즉, 특정 조건이 실제로는 존재하지 않음에도 불구하고 검사 결과가 양성으로 나올 조건부 확률이다.거짓 양성률은 통계적 유의 수준과 같은 의미로 사용되기도 한다. 검사의 특이도는 1에서 거짓 양성률(FPR)을 뺀 값(1 - FPR)과 같다.
통계적 가설 검정에서는 이 비율을 그리스 문자 ''α''(알파)로 표시하며, 1 − ''α''는 특이도로 정의된다. 특이도를 높이면 제1종 오류(거짓 양성)의 확률은 낮아지지만, 반대로 제2종 오류(거짓 음성)의 확률이 높아질 수 있다. 즉, 대립 가설이 참일 때 이를 잘못 기각할 가능성이 커진다.
반대로 '''거짓 음성률'''(False Negative Rate, FNR)은 실제로 양성인 전체 사례 중에서 검사 결과가 음성으로 잘못 나타나는 비율을 의미한다. 즉, 찾고자 하는 조건이 실제로는 존재함에도 불구하고 검사 결과가 음성으로 나올 조건부 확률이다.[2]
통계적 가설 검정에서는 이 비율을 그리스 문자 ''β''(베타)로 표시한다. 검사의 '검정력' 또는 '민감도'는 1에서 거짓 음성률(FNR)을 뺀 값(1 − ''β'')과 같다.
4. 2. 거짓 양성률 정의의 모호성
거짓 발견율(False Discovery Rate, FDR)이라는 용어는 Colquhoun (2014)[3]에 의해 "유의미한" 결과가 거짓 양성일 확률을 의미하는 데 사용되었다. 이후 Colquhoun (2017)[4]는 다중 비교 연구에서 사용되는 FDR 용어와의 혼동을 피하고자 동일한 개념에 대해 거짓 양성 위험(False Positive Risk, FPR)이라는 용어를 사용했다. 다중 비교 보정은 제1종 오류율만을 보정 대상으로 삼기 때문에, 그 결과는 보정된 p-값이다. 따라서 다른 p-값처럼 잘못 해석될 여지가 있다. 거짓 양성 위험(FPR)은 p-값보다 항상 높으며, 많은 경우 훨씬 더 높게 나타난다.[3][4]제1종 오류율(또는 p-값)과 거짓 양성 위험(FPR)을 혼동하는 것, 즉 전치 조건의 오류는 많은 문제를 일으켰다.[5] 이 분야는 용어 사용이 명확하지 않은 경우가 있어, 관련 연구를 접할 때는 각 용어의 정의를 반드시 확인해야 한다. p-값에만 의존하는 것의 위험성은 Colquhoun (2017)[4] 연구에서도 지적되었는데, 예를 들어 ''p'' = 0.001이라는 매우 낮은 값이 관찰되더라도 이것이 귀무 가설을 기각할 강력한 증거가 아닐 수도 있다는 것이다. 대립 가설이 귀무 가설보다 선호될 우도비가 100에 가깝더라도, 만약 연구 가설 자체가 현실적으로 발생하기 어렵거나(사전 확률이 낮음), 실제 효과가 존재할 사전 확률이 0.1에 불과하다면, ''p'' = 0.001이라는 결과조차 거짓 양성 위험(FPR)이 8%에 달할 수 있다. 이는 일반적인 유의수준 5%보다 높은 수치이다.
결과적으로, [4][6] 연구들은 모든 p-값을 제시할 때, 목표하는 거짓 양성 위험(예: 5%)을 달성하기 위해 어느 정도의 사전 확률(실제 효과가 존재할 확률)이 필요한지를 함께 명시해야 한다고 권고한다. 예를 들어, 어떤 단일 실험에서 ''p'' = 0.05를 얻었을 경우, 이 결과의 거짓 양성 위험(FPR)을 5% 수준으로 낮추려면 실험을 시작하기 전에 이미 실제 효과가 존재할 것이라고 87% 정도 확신하고 있었어야 한다는 계산이 나온다.
4. 3. 수신자 조작 특성(Receiver Operating Characteristic, ROC)
실제로 검사 알고리즘을 개발할 때는 거짓 양성과 거짓 음성 사이에 어느 한쪽을 줄이면 다른 한쪽이 늘어나는 상충 관계(trade-off)가 필연적으로 발생한다. 수신자 조작 특성(Receiver Operating Characteristic, ROC)은 이러한 다양한 유형의 오류 비율을 기반으로 하는 통계적 신호 처리의 매개변수를 다룬다.5. 균형점 (Trade-off)
실제로 검사 알고리즘을 개발할 때는 거짓 양성(제1종 오류)과 거짓 음성(제2종 오류) 사이에 상충 관계(trade-off)가 필연적으로 발생한다. 즉, 어느 한쪽 오류를 줄이려고 하면 다른 한쪽 오류가 늘어나는 경향이 있다. 예를 들어, 거짓 양성을 줄이면 거짓 음성이 늘어나고, 거짓 음성을 줄이면 거짓 양성이 늘어난다.
이러한 현상은 검사 알고리즘이 양성 또는 음성으로 판단하는 기준점, 즉 임계값(threshold)을 어떻게 설정하느냐와 관련이 깊다. 일반적으로 임계값을 높게 설정하면 검사 기준이 엄격해져서 실제 음성인 경우를 양성으로 잘못 판단하는 거짓 양성은 줄어들지만, 실제 양성인 경우를 놓쳐 음성으로 잘못 판단하는 거짓 음성은 늘어나게 된다. 반대로 임계값을 낮추면 검사 기준이 완화되어 거짓 음성은 줄어들지만 거짓 양성이 늘어날 가능성이 커진다.
따라서 검사 알고리즘을 설계할 때는 거짓 양성과 거짓 음성 중 어떤 오류를 더 중요하게 관리할 것인지, 혹은 두 오류 사이에서 어떤 균형점을 찾을 것인지를 신중하게 고려해야 한다. 이는 검사의 목적과 오류 발생 시의 위험성에 따라 달라질 수 있다. 예를 들어, 암 진단이나 보안 진단과 같이 거짓 음성의 위험(병을 놓치거나 보안 위협을 탐지하지 못하는 것)이 매우 큰 분야에서는 민감도를 높여 거짓 음성을 줄이는 방향으로 설계하는 것이 중요하지만, 이 경우 거짓 양성이 증가할 수 있음을 감안해야 한다.
통계적으로 이 관계는 다음과 같이 표현된다.
- '''거짓 양성률'''(False Positive Rate, FPR)은 실제로는 음성인 전체 대상 중에서 검사 결과가 양성으로 잘못 나오는 비율이다. 이는 통계적 가설 검정에서 유의 수준 ''α''와 같다. 검사의 '''특이도'''(Specificity)는 1 - ''α'' (즉, 1 - FPR)로 정의된다. 특이도를 높이면(거짓 양성을 줄이면) 제1종 오류는 감소하지만, 제2종 오류(거짓 음성)가 증가할 수 있다.
- '''거짓 음성률'''(False Negative Rate, FNR)은 실제로는 양성인 전체 대상 중에서 검사 결과가 음성으로 잘못 나오는 비율이다. 이는 통계적 가설 검정에서 ''β''로 표시된다. 검사의 '''검정력'''(Power) 또는 '''민감도'''(Sensitivity)는 1 - ''β'' (즉, 1 - FNR)로 정의된다.[2] 민감도를 높이면(거짓 음성을 줄이면) 제2종 오류는 감소하지만, 제1종 오류(거짓 양성)가 증가할 수 있다.
참조
[1]
웹사이트
False Positives and False Negatives
http://www.mathsisfu[...]
[2]
논문
Hypothesis testing, type I and type II errors
2009
[3]
논문
An investigation of the false discovery rate and the misinterpretation of ''p''-values
2014
[4]
논문
The reproducibility of research and the misinterpretation of p-values
2017
[5]
웹사이트
The problem with p-values
https://aeon.co/essa[...]
Aeon Magazine
2016-12-11
[6]
논문
The false positive risk: A proposal concerning what to do about p values
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com
