2. 2. 통계적 분류
실제 양성인데 양성으로 예측 (정답)거짓 양성 (False Positive, FP) 실제 음성인데 양성으로 예측 (제1종 오류) | 음성 (Negative) | 거짓 음성 (False Negative, FN) 실제 양성인데 음성으로 예측 (제2종 오류) | 참 음성 (True Negative, TN) 실제 음성인데 음성으로 예측 (정답) |
---|
위 표의 용어를 사용하여 정밀도와 재현율은 다음과 같이 정의된다.[14][4]
- 정밀도 (Precision): 분류기가 양성(Positive)으로 예측한 결과 중에서 실제로 양성인 샘플의 비율이다. 즉, 예측한 양성 결과가 얼마나 정확한지를 나타낸다. 양성 예측도(Positive Predictive Value, PPV)라고도 불린다.
:
- 재현율 (Recall): 실제 양성인 샘플 중에서 분류기가 양성으로 올바르게 예측한 샘플의 비율이다. 즉, 실제 양성 샘플을 얼마나 잘 찾아내는지를 나타낸다. 민감도(Sensitivity) 또는 참 양성률(True Positive Rate, TPR)이라고도 불린다.
:
정밀도와 재현율 외에도 분류 성능을 평가하는 데 사용되는 다른 지표들이 있다.[14][4]
- 참 음성률 (True Negative Rate, TNR): 실제 음성인 샘플 중에서 분류기가 음성으로 올바르게 예측한 샘플의 비율이다. 특이도(Specificity)라고도 불린다.
:
- 정확도 (Accuracy): 전체 샘플 중에서 분류기가 올바르게 예측한 샘플(참 양성 + 참 음성)의 비율이다.
:
분류 작업에서 특정 클래스 C에 대한 정밀도 점수가 1.0이면, 분류기가 클래스 C라고 예측한 모든 항목이 실제로 클래스 C에 속한다는 의미이다. 하지만 이 경우, 실제 클래스 C에 속하지만 분류기가 놓친 항목(거짓 음성)이 있을 수 있다. 반대로 재현율 점수가 1.0이면, 실제 클래스 C에 속하는 모든 항목을 분류기가 클래스 C로 예측했다는 의미이다. 하지만 이 경우, 실제로는 다른 클래스에 속하는 항목을 클래스 C로 잘못 예측(거짓 양성)했을 수 있다.
정밀도와 재현율은 종종 상충 관계(trade-off)에 있다. 즉, 하나의 지표를 높이려고 하면 다른 지표가 낮아지는 경향이 있다. 어떤 지표를 더 중요하게 생각할지는 상황에 따라 다르다.
- 연기 감지기: 화재 발생 시 경보를 울리지 못하는 경우(거짓 음성, FN)의 위험이 매우 크기 때문에, 약간의 오경보(거짓 양성, FP)를 감수하더라도 실제 화재를 놓치지 않도록 재현율을 높이는 방향으로 설계된다. 이 경우 정밀도는 낮아질 수 있다.
- 형사 사법 시스템: 블랙스톤의 비율("열 명의 죄인을 놓치는 것이 한 명의 무고한 사람을 고문하는 것보다 낫다")처럼, 무고한 사람을 유죄로 판결하는 것(거짓 양성, FP)을 더 심각한 오류로 간주한다. 따라서 유죄인 사람을 일부 놓치더라도(거짓 음성, FN), 무고한 사람을 처벌하지 않도록 정밀도를 높이는 방향으로 운영된다. 이 경우 재현율은 낮아질 수 있다.
- 뇌종양 제거 수술: 의사는 암세포를 모두 제거해야 재발을 막을 수 있으므로 재현율(모든 암세포 제거)을 높여야 한다. 하지만 동시에 건강한 뇌세포를 제거하면 환자의 기능이 손상될 수 있으므로 정밀도(암세포만 정확히 제거)도 중요하다. 넓은 부위를 제거하면 재현율은 높아지지만 정밀도는 낮아지고, 제거 부위를 최소화하면 정밀도는 높아지지만 재현율은 낮아질 수 있다.
정밀도와 재현율은 단독으로 사용되기보다는 함께 고려되는 경우가 많다. 정밀도-재현율 곡선(Precision-Recall curve)은 재현율 값의 변화에 따른 정밀도 값의 변화를 시각적으로 보여주는 그래프이다. 일반적으로 재현율이 증가하면 정밀도는 감소하는 경향을 보인다.
두 지표를 결합하여 하나의 값으로 평가하기도 한다. 대표적인 예로는 F-measure(정밀도와 재현율의 가중 조화 평균)와 매튜스 상관 계수(Matthews Correlation Coefficient, MCC)가 있다.[1][2] 정확도 역시 널리 사용되지만, 데이터의 클래스 분포가 불균형할 경우 성능을 제대로 반영하지 못할 수 있다는 단점이 있다.[1] 정밀도, 재현율, F-measure는 참 음성(TN)을 고려하지 않아 예측을 편향시킬 수 있다는 비판도 있다.[1] 이러한 문제를 보완하기 위해 코헨의 카파, 정보성(Informedness), 마킹성(Markedness) 등의 지표가 제안되기도 했다.[3] 수신자 조작 특성(Receiver Operating Characteristic, ROC) 곡선은 재현율(민감도)과 거짓 양성률(1-특이도)의 관계를 보여주며, 분류기의 성능과 임계값(threshold) 변화에 따른 영향을 분석하는 데 유용하게 사용된다.
3. 확률적 정의
정밀도와 재현율은 추정된 조건부 확률로 해석될 수 있다.[6] 정밀도는 예측된 클래스가 P일 때 실제 클래스가 P일 확률, 즉 로 주어진다. 재현율은 실제 클래스가 P일 때 예측된 클래스가 P일 확률, 즉 로 주어진다.[7] 여기서 는 예측된 클래스이고 는 실제 클래스를 의미한다(예: 는 실제 클래스가 양성임을 나타낸다). 따라서 정밀도와 재현율 모두 베이즈 정리와 관련이 있다.
이러한 확률적 해석을 통해 무능력 분류기(무작위로 예측하는 분류기)가 어떻게 작동하는지 쉽게 이해할 수 있다. 무능력 분류기의 경우, 분류 결과()와 실제 클래스()는 독립적이라고 가정한다. 따라서 특정 항목이 클래스 P에 속하면서 동시에 클래스 P로 예측될 결합 확률 는 각 사건의 무조건부 확률의 곱, 즉 로 정의된다.
예를 들어, 무능력 분류기의 정밀도는 다음과 같이 계산된다:
이는 단순히 클래스 P가 발생할 실제 확률(또는 데이터에서의 빈도)과 같다. 즉, 무능력 분류기의 정밀도는 분류기가 얼마나 자주 P라고 예측하는지와는 관계없이 실제 P의 비율에 따라 결정된다.
마찬가지로 무능력 분류기의 재현율은 다음과 같이 계산된다:
이는 분류기가 얼마나 자주 P라고 예측하는지에 대한 확률과 같다. 즉, 무능력 분류기의 재현율은 실제 클래스가 무엇인지와는 관계없이 분류기가 P라고 예측하는 비율에 따라 결정된다.
4. 불균형 데이터
분류 작업에서 데이터 내 각 클래스(범주)에 속하는 샘플의 수가 크게 차이 나는 경우, 이를 불균형 데이터라고 한다. 이러한 불균형 데이터셋에서는 정확도만으로 모델 성능을 평가하기 어려울 수 있으며, 정밀도와 재현율이 더 유용한 지표가 될 수 있다.
특히 거짓 양성(FP, 실제로는 아닌데 맞다고 잘못 예측) 또는 거짓 음성(FN, 실제로는 맞는데 아니라고 잘못 예측) 예측의 결과가 큰 비용이나 위험을 초래하는 상황에서는 정밀도와 재현율 중 어느 것을 더 중요하게 여길지 결정하는 것이 필요하다.
- 의학 진단: 병이 없는데 있다고 진단하는 거짓 양성(FP)은 환자에게 불필요한 치료, 비용, 정신적 고통을 안겨줄 수 있다. 따라서 이런 경우, 실제 병이 있는 환자를 놓치더라도(재현율 감소) 건강한 사람을 환자로 잘못 진단하지 않는 것, 즉 정밀도를 높이는 것이 더 중요할 수 있다.
- 사기 탐지: 실제 사기 거래를 놓치는 거짓 음성(FN)은 큰 금전적 손실로 이어질 수 있다. 따라서 정상 거래를 사기로 잘못 판단하는 경우가 생기더라도(정밀도 감소) 가능한 모든 사기 거래를 잡아내는 것, 즉 재현율을 높이는 것이 더 중요할 수 있다.
정확도는 전체 예측 중 올바르게 예측한 비율을 나타내지만, 불균형 데이터에서는 성능을 오해하게 만들 수 있다. 예를 들어, 음성 샘플이 95개이고 양성 샘플이 5개인 데이터셋에서 분류 모델이 모든 샘플을 음성으로 예측한다고 가정해 보자. 이 경우 정확도는 95%로 매우 높게 나타나지만, 실제로는 단 하나의 양성 샘플도 찾아내지 못한 성능이 낮은 모델이다.
이러한 정확도의 단점을 보완하기 위해 균형 정확도(Balanced Accuracy, bACC)와 같은 다른 지표들이 사용된다. 균형 정확도는 각 클래스별 정확도(참 양성 비율 TPR과 참 음성 비율 TNR)의 평균으로 계산된다.
앞서 언급한 예시(음성 95개, 양성 5개)에서 모든 샘플을 음성으로 예측하는 모델의 균형 정확도는 (0 + 1) / 2 = 0.5가 된다. 이는 무작위 추측과 비슷한 수준으로, 모델 성능을 더 현실적으로 보여준다.[8] 균형 정확도는 데이터 불균형 여부와 관계없이 모델의 전반적인 성능을 평가하는 데 유용하며, 특히 거짓 양성과 거짓 음성의 비용이 비슷하다고 가정될 때 효과적이다.
정밀도는 데이터의 클래스 비율(, 즉 양성 샘플 수 / 음성 샘플 수)에 영향을 받는다. 재현율(TPR)은 실제 양성 샘플 중에서 얼마나 잘 예측했는지를 보기 때문에 클래스 비율의 영향을 받지 않지만, 정밀도는 예측된 양성 중에서 실제 양성이 얼마나 있는지를 보기 때문에 클래스 비율에 따라 달라진다. 일반적으로 음성 샘플의 비율이 높아질수록(즉, 이 작아질수록) 정밀도는 낮아지는 경향이 있다.[9]
또 다른 관련 지표로는 예측된 양성 조건 비율(Predicted Positive Condition Rate, PPCR)이 있으며, 이는 전체 데이터 중에서 모델이 양성이라고 예측한 샘플의 비율을 나타낸다. 예를 들어, 검색 엔진이 100만 개의 문서 중 30개의 문서를 검색 결과로 보여줬다면, PPCR은 0.003%가 된다.
불균형 데이터를 다룰 때는 ROC 곡선보다 정밀도-재현율 곡선이 모델 성능을 평가하는 데 더 유익하다는 주장이 있다. Saito와 Rehmsmeier는 ROC 곡선이 불균형 데이터 상황에서는 성능에 대한 잘못된 인상을 줄 수 있다고 지적했다.[10]
이 외에도, 데이터의 불균형을 보정하기 위해 혼동 행렬의 각 요소에 가중치를 적용하여 표준적인 평가 지표들을 그대로 사용하는 접근 방식도 존재한다.[11]
5. F-measure
정밀도와 재현율을 결합한 지표 중 하나로 조화 평균을 사용하는 F-measure가 있다. 가장 널리 쓰이는 것은 정밀도(precision)와 재현율(recall)의 가중치를 동일하게 두는 '''F1 점수'''(F1 score)이다.
:
F1 점수는 정밀도와 재현율 두 값의 조화 평균으로 계산된다. 이 값은 두 지표가 비슷할 때는 산술 평균과 유사한 값을 보이지만, 한쪽으로 치우칠 경우 낮은 값에 더 큰 영향을 받는다. F-score는 특정 상황에서 평가 지표로서 편향될 수 있다는 비판도 있다.[1]
F-measure는 일반화된 형태인 지표로 표현할 수 있으며, 여기서 는 음이 아닌 실수 값이다. 값은 재현율에 정밀도보다 몇 배 더 중요도를 둘 것인지를 결정한다.
:
F1 점수() 외에 자주 사용되는 지표로는 재현율을 정밀도보다 중요하게 평가하는 지표()와 정밀도를 재현율보다 중요하게 평가하는 지표()가 있다.
F-measure는 1979년 판 레이스베르헌(van Rijsbergen)에 의해 유도되었으며, 그는 를 "정밀도보다 재현율에 배의 중요성을 부여하는 사용자에 대한 검색의 효과를 측정하는 지표"라고 설명했다. 이는 그의 효과성 지표 (여기서 P는 정밀도, R은 재현율)에 기반하며, 관계를 가진다. 이때 가중치 는 로 계산된다.
6. 한계 및 추가 고려 사항
정보 검색 시스템의 성능 지표에는 ROC 곡선 (AUC)[12] 아래 면적 또는 의사 R-제곱과 같은 다른 매개변수와 전략이 있다.
참조
[1]
논문
Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation
http://www.flinders.[...]
2011
[2]
논문
The exploitation of distributional information in syllable processing
[3]
학술대회
The Problem with Kappa
https://www.aclweb.o[...]
2012
[4]
서적
Advanced Data Mining Techniques
Springer
2008-02-01
[5]
웹사이트
Precision vs. Recall: Differences, Use Cases & Evaluation
https://www.v7labs.c[...]
[6]
논문
Deep Metric Learning to Rank
http://cs-people.bu.[...]
2019
[7]
서적
Information Retrieval Models: Foundations & Relationships
https://books.google[...]
Springer Nature
2022-05-31
[8]
논문
PREP-Mt: predictive RNA editor for plant mitochondrial genes
2005-04-12
[9]
논문
The Effect of Class Imbalance on Precision-Recall Curves
https://doi.org/10.1[...]
2021-04-01
[10]
논문
The Precision-Recall Plot Is More Informative than the ROC Plot When Evaluating Binary Classifiers on Imbalanced Datasets
2015-03-04
[10]
웹사이트
Precision-recall curves – what are they and how are they used?
https://acutecaretes[...]
2017-03
[11]
논문
Welding defect detection: coping with artifacts in the production line
https://link.springe[...]
2020
[12]
문서
What you wanted to know about AUC
http://fastml.com/wh[...]
[13]
논문
A Closer Look at Classification Evaluation Metrics and a Critical Reflection of Common Evaluation Practice
https://doi.org/10.1[...]
2024
[14]
서적
Advanced Data Mining Techniques
Springer
2008-02-01
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com