맨위로가기

정밀도와 재현율

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

정밀도와 재현율은 정보 검색 및 통계적 분류 분야에서 사용되는 성능 평가 지표이다. 정밀도는 검색된 문서 중 관련 문서의 비율을, 재현율은 관련 문서 중 검색된 문서의 비율을 나타낸다. 이들은 참 양성, 참 음성, 거짓 양성, 거짓 음성을 기반으로 정의되며, 불균형 데이터에서 정확도보다 유용할 수 있다. 정밀도와 재현율을 결합한 지표로 F-measure가 있으며, 불균형 데이터의 경우 정밀도-재현율 플롯이 ROC 플롯보다 더 유익할 수 있다.

더 읽어볼만한 페이지

  • 정보 검색 - 검색 엔진
    검색 엔진은 사용자가 입력한 검색어에 따라 웹 정보를 찾아 순위를 매겨 보여주는 도구로, 다양한 형태의 검색어를 처리하고, 알고리즘을 통해 결과를 순위화하며, 검색 최적화 및 정보 편향 문제와 사용자 경험 향상이라는 과제를 안고 있다.
  • 정보 검색 - 최근접 이웃 탐색
    최근접 이웃 탐색은 다차원 공간에서 주어진 질의와 가장 유사한 데이터를 찾는 최적화 문제로, 데이터 압축, 데이터 마이닝, 기계 학습 등 다양한 분야에서 활용되며, 효율적인 탐색을 위해 다양한 알고리즘이 개발되고 있고, 개인 정보 보호 및 데이터 편향성과 같은 윤리적 문제에 대한 고려도 중요해지고 있다.
  • 생물정보학 - Rosetta@home
    Rosetta@home은 분산 컴퓨팅 플랫폼 BOINC를 활용하여 단백질 구조 예측 연구를 수행하며, 신약 개발 및 질병 연구에 기여하는 것을 목표로 한다.
  • 생물정보학 - 발현체학
정밀도와 재현율

2. 정의

정밀도(Precision)와 재현율(Recall)은 특정 기준에 따라 검색되거나 분류된 결과가 얼마나 정확하고 완전한지를 측정하는 두 가지 중요한 지표이다. 이들은 주로 정보 검색통계적 분류 분야에서 모델이나 시스템의 성능을 평가하는 데 사용된다.


  • 정보 검색 분야: 검색된 결과(예: 웹 검색 엔진이 보여주는 문서 목록) 중에서 실제로 사용자가 찾으려 했던 관련성 높은 결과의 비율을 정밀도라고 한다. 반면, 전체 관련성 높은 결과 중에서 시스템이 실제로 찾아낸 결과의 비율을 재현율이라고 한다.

  • 통계적 분류 분야: 분류 모델이 예측한 결과와 실제 정답을 비교하여 성능을 평가한다. 분류 결과는 참 양성(True Positive, TP), 거짓 양성(False Positive, FP), 참 음성(True Negative, TN), 거짓 음성(False Negative, FN)의 네 가지 경우로 나뉘며, 이는 혼동 행렬(Confusion Matrix)로 정리된다.
  • 정밀도는 모델이 '양성(Positive)'이라고 예측한 것들 중에서 실제로 양성인 샘플의 비율을 나타낸다. 즉, \text{정밀도} = \frac{TP}{TP + FP} 로 계산되며, 양성 예측도(Positive Predictive Value, PPV)라고도 불린다.[14][4]
  • 재현율은 실제 양성인 샘플 중에서 모델이 '양성'이라고 올바르게 예측한 샘플의 비율을 나타낸다. 즉, \text{재현율} = \frac{TP}{TP + FN} 로 계산되며, 민감도(Sensitivity) 또는 참 양성률(True Positive Rate, TPR)이라고도 불린다.[14][4]


정밀도와 재현율 외에도 특이도(Specificity, 참 음성률)나 정확도(Accuracy) 등 다양한 지표가 함께 사용된다.[14][4] 정밀도와 재현율은 특히 각 클래스의 데이터 양이 불균형할 때 분류기의 성능을 더 정확하게 파악하는 데 유용하다. 일반적으로 두 지표는 서로 상충 관계(trade-off)에 있는 경우가 많아, 하나의 값을 높이면 다른 값이 낮아지는 경향이 있다. 따라서 응용 분야의 특성에 따라 어떤 지표를 더 중요하게 고려할지 결정해야 한다.

2. 1. 정보 검색

정보 검색 분야에서, 정밀도와 재현율은 검색된 문서(retrieved documents; 웹 검색 엔진에 의해 생성된 문서들) 및 관련 있는 문서(relevant documents; 웹 문서들 중 찾고자 하는 주제와 실제로 관련 있는 것들)에 의해 정의된다.

정보 검색 분야에서 정밀도(precision)는 검색된 문서들 중 관련 있는 문서들의 비율이다.

: \text{precision}=\frac



정보 검색 분야에서 재현율(recall)은 관련 있는 문서들 중 실제로 검색된 문서들의 비율이다.

: \text{recall}=\frac


2. 2. 통계적 분류

실제 양성인데 양성으로 예측 (정답)
거짓 양성 (False Positive, FP)
실제 음성인데 양성으로 예측 (제1종 오류)
음성 (Negative)거짓 음성 (False Negative, FN)
실제 양성인데 음성으로 예측 (제2종 오류)
참 음성 (True Negative, TN)
실제 음성인데 음성으로 예측 (정답)



위 표의 용어를 사용하여 정밀도와 재현율은 다음과 같이 정의된다.[14][4]


  • 정밀도 (Precision): 분류기가 양성(Positive)으로 예측한 결과 중에서 실제로 양성인 샘플의 비율이다. 즉, 예측한 양성 결과가 얼마나 정확한지를 나타낸다. 양성 예측도(Positive Predictive Value, PPV)라고도 불린다.

:\text{정밀도 (Precision)} = \frac{TP}{TP + FP}

  • 재현율 (Recall): 실제 양성인 샘플 중에서 분류기가 양성으로 올바르게 예측한 샘플의 비율이다. 즉, 실제 양성 샘플을 얼마나 잘 찾아내는지를 나타낸다. 민감도(Sensitivity) 또는 참 양성률(True Positive Rate, TPR)이라고도 불린다.

:\text{재현율 (Recall)} = \frac{TP}{TP + FN}

정밀도와 재현율 외에도 분류 성능을 평가하는 데 사용되는 다른 지표들이 있다.[14][4]

  • 참 음성률 (True Negative Rate, TNR): 실제 음성인 샘플 중에서 분류기가 음성으로 올바르게 예측한 샘플의 비율이다. 특이도(Specificity)라고도 불린다.

:\text{참 음성률 (TNR)} = \text{특이도 (Specificity)} = \frac{TN}{TN + FP}

  • 정확도 (Accuracy): 전체 샘플 중에서 분류기가 올바르게 예측한 샘플(참 양성 + 참 음성)의 비율이다.

:\text{정확도 (Accuracy)} = \frac{TP + TN}{TP + TN + FP + FN}

분류 작업에서 특정 클래스 C에 대한 정밀도 점수가 1.0이면, 분류기가 클래스 C라고 예측한 모든 항목이 실제로 클래스 C에 속한다는 의미이다. 하지만 이 경우, 실제 클래스 C에 속하지만 분류기가 놓친 항목(거짓 음성)이 있을 수 있다. 반대로 재현율 점수가 1.0이면, 실제 클래스 C에 속하는 모든 항목을 분류기가 클래스 C로 예측했다는 의미이다. 하지만 이 경우, 실제로는 다른 클래스에 속하는 항목을 클래스 C로 잘못 예측(거짓 양성)했을 수 있다.

정밀도와 재현율은 종종 상충 관계(trade-off)에 있다. 즉, 하나의 지표를 높이려고 하면 다른 지표가 낮아지는 경향이 있다. 어떤 지표를 더 중요하게 생각할지는 상황에 따라 다르다.

  • 연기 감지기: 화재 발생 시 경보를 울리지 못하는 경우(거짓 음성, FN)의 위험이 매우 크기 때문에, 약간의 오경보(거짓 양성, FP)를 감수하더라도 실제 화재를 놓치지 않도록 재현율을 높이는 방향으로 설계된다. 이 경우 정밀도는 낮아질 수 있다.
  • 형사 사법 시스템: 블랙스톤의 비율("열 명의 죄인을 놓치는 것이 한 명의 무고한 사람을 고문하는 것보다 낫다")처럼, 무고한 사람을 유죄로 판결하는 것(거짓 양성, FP)을 더 심각한 오류로 간주한다. 따라서 유죄인 사람을 일부 놓치더라도(거짓 음성, FN), 무고한 사람을 처벌하지 않도록 정밀도를 높이는 방향으로 운영된다. 이 경우 재현율은 낮아질 수 있다.
  • 뇌종양 제거 수술: 의사는 암세포를 모두 제거해야 재발을 막을 수 있으므로 재현율(모든 암세포 제거)을 높여야 한다. 하지만 동시에 건강한 뇌세포를 제거하면 환자의 기능이 손상될 수 있으므로 정밀도(암세포만 정확히 제거)도 중요하다. 넓은 부위를 제거하면 재현율은 높아지지만 정밀도는 낮아지고, 제거 부위를 최소화하면 정밀도는 높아지지만 재현율은 낮아질 수 있다.


정밀도와 재현율은 단독으로 사용되기보다는 함께 고려되는 경우가 많다. 정밀도-재현율 곡선(Precision-Recall curve)은 재현율 값의 변화에 따른 정밀도 값의 변화를 시각적으로 보여주는 그래프이다. 일반적으로 재현율이 증가하면 정밀도는 감소하는 경향을 보인다.

두 지표를 결합하여 하나의 값으로 평가하기도 한다. 대표적인 예로는 F-measure(정밀도와 재현율의 가중 조화 평균)와 매튜스 상관 계수(Matthews Correlation Coefficient, MCC)가 있다.[1][2] 정확도 역시 널리 사용되지만, 데이터의 클래스 분포가 불균형할 경우 성능을 제대로 반영하지 못할 수 있다는 단점이 있다.[1] 정밀도, 재현율, F-measure는 참 음성(TN)을 고려하지 않아 예측을 편향시킬 수 있다는 비판도 있다.[1] 이러한 문제를 보완하기 위해 코헨의 카파, 정보성(Informedness), 마킹성(Markedness) 등의 지표가 제안되기도 했다.[3] 수신자 조작 특성(Receiver Operating Characteristic, ROC) 곡선은 재현율(민감도)과 거짓 양성률(1-특이도)의 관계를 보여주며, 분류기의 성능과 임계값(threshold) 변화에 따른 영향을 분석하는 데 유용하게 사용된다.

3. 확률적 정의

정밀도와 재현율은 추정된 조건부 확률로 해석될 수 있다.[6] 정밀도는 예측된 클래스가 P일 때 실제 클래스가 P일 확률, 즉 \mathbb{P}(C=P|\hat{C}=P)로 주어진다. 재현율은 실제 클래스가 P일 때 예측된 클래스가 P일 확률, 즉 \mathbb{P}(\hat{C}=P|C=P)로 주어진다.[7] 여기서 \hat{C}는 예측된 클래스이고 C는 실제 클래스를 의미한다(예: C=P는 실제 클래스가 양성임을 나타낸다). 따라서 정밀도와 재현율 모두 베이즈 정리와 관련이 있다.

이러한 확률적 해석을 통해 무능력 분류기(무작위로 예측하는 분류기)가 어떻게 작동하는지 쉽게 이해할 수 있다. 무능력 분류기의 경우, 분류 결과(\hat{C}=P)와 실제 클래스(C=P)는 독립적이라고 가정한다. 따라서 특정 항목이 클래스 P에 속하면서 동시에 클래스 P로 예측될 결합 확률 \mathbb{P}(C=P,\hat{C}=P)는 각 사건의 무조건부 확률의 곱, 즉 \mathbb{P}(C=P) \times \mathbb{P}(\hat{C}=P)로 정의된다.

예를 들어, 무능력 분류기의 정밀도는 다음과 같이 계산된다:

\text{Precision} = \mathbb{P}(C=P|\hat{C}=P) = \frac{\mathbb{P}(C=P,\hat{C}=P)}{\mathbb{P}(\hat{C}=P)} = \frac{\mathbb{P}(C=P)\mathbb{P}(\hat{C}=P)}{\mathbb{P}(\hat{C}=P)} = \mathbb{P}(C=P)

이는 단순히 클래스 P가 발생할 실제 확률(또는 데이터에서의 빈도)과 같다. 즉, 무능력 분류기의 정밀도는 분류기가 얼마나 자주 P라고 예측하는지와는 관계없이 실제 P의 비율에 따라 결정된다.

마찬가지로 무능력 분류기의 재현율은 다음과 같이 계산된다:

\text{Recall} = \mathbb{P}(\hat{C}=P|C=P) = \frac{\mathbb{P}(C=P,\hat{C}=P)}{\mathbb{P}(C=P)} = \frac{\mathbb{P}(C=P)\mathbb{P}(\hat{C}=P)}{\mathbb{P}(C=P)} = \mathbb{P}(\hat{C}=P)

이는 분류기가 얼마나 자주 P라고 예측하는지에 대한 확률과 같다. 즉, 무능력 분류기의 재현율은 실제 클래스가 무엇인지와는 관계없이 분류기가 P라고 예측하는 비율에 따라 결정된다.

4. 불균형 데이터

분류 작업에서 데이터 내 각 클래스(범주)에 속하는 샘플의 수가 크게 차이 나는 경우, 이를 불균형 데이터라고 한다. 이러한 불균형 데이터셋에서는 정확도만으로 모델 성능을 평가하기 어려울 수 있으며, 정밀도와 재현율이 더 유용한 지표가 될 수 있다.

특히 거짓 양성(FP, 실제로는 아닌데 맞다고 잘못 예측) 또는 거짓 음성(FN, 실제로는 맞는데 아니라고 잘못 예측) 예측의 결과가 큰 비용이나 위험을 초래하는 상황에서는 정밀도와 재현율 중 어느 것을 더 중요하게 여길지 결정하는 것이 필요하다.


  • 의학 진단: 병이 없는데 있다고 진단하는 거짓 양성(FP)은 환자에게 불필요한 치료, 비용, 정신적 고통을 안겨줄 수 있다. 따라서 이런 경우, 실제 병이 있는 환자를 놓치더라도(재현율 감소) 건강한 사람을 환자로 잘못 진단하지 않는 것, 즉 정밀도를 높이는 것이 더 중요할 수 있다.
  • 사기 탐지: 실제 사기 거래를 놓치는 거짓 음성(FN)은 큰 금전적 손실로 이어질 수 있다. 따라서 정상 거래를 사기로 잘못 판단하는 경우가 생기더라도(정밀도 감소) 가능한 모든 사기 거래를 잡아내는 것, 즉 재현율을 높이는 것이 더 중요할 수 있다.


정확도는 전체 예측 중 올바르게 예측한 비율을 나타내지만, 불균형 데이터에서는 성능을 오해하게 만들 수 있다. 예를 들어, 음성 샘플이 95개이고 양성 샘플이 5개인 데이터셋에서 분류 모델이 모든 샘플을 음성으로 예측한다고 가정해 보자. 이 경우 정확도는 95%로 매우 높게 나타나지만, 실제로는 단 하나의 양성 샘플도 찾아내지 못한 성능이 낮은 모델이다.

\text{정확도}=\frac{TP+TN}{TP+TN+FP+FN} \,

이러한 정확도의 단점을 보완하기 위해 균형 정확도(Balanced Accuracy, bACC)와 같은 다른 지표들이 사용된다. 균형 정확도는 각 클래스별 정확도(참 양성 비율 TPR과 참 음성 비율 TNR)의 평균으로 계산된다.

\text{균형 정확도}= \frac{TPR + TNR}{2}\,

앞서 언급한 예시(음성 95개, 양성 5개)에서 모든 샘플을 음성으로 예측하는 모델의 균형 정확도는 (0 + 1) / 2 = 0.5가 된다. 이는 무작위 추측과 비슷한 수준으로, 모델 성능을 더 현실적으로 보여준다.[8] 균형 정확도는 데이터 불균형 여부와 관계없이 모델의 전반적인 성능을 평가하는 데 유용하며, 특히 거짓 양성과 거짓 음성의 비용이 비슷하다고 가정될 때 효과적이다.

정밀도는 데이터의 클래스 비율(r = P/N, 즉 양성 샘플 수 / 음성 샘플 수)에 영향을 받는다. 재현율(TPR)은 실제 양성 샘플 중에서 얼마나 잘 예측했는지를 보기 때문에 클래스 비율의 영향을 받지 않지만, 정밀도는 예측된 양성 중에서 실제 양성이 얼마나 있는지를 보기 때문에 클래스 비율에 따라 달라진다. 일반적으로 음성 샘플의 비율이 높아질수록(즉, r이 작아질수록) 정밀도는 낮아지는 경향이 있다.[9]

\text{정밀도} = \frac{TP}{TP+FP} = \frac{P \cdot TPR}{P \cdot TPR+ N \cdot FPR} = \frac{TPR}{TPR+ \frac{1}{r} FPR}.

또 다른 관련 지표로는 예측된 양성 조건 비율(Predicted Positive Condition Rate, PPCR)이 있으며, 이는 전체 데이터 중에서 모델이 양성이라고 예측한 샘플의 비율을 나타낸다. 예를 들어, 검색 엔진이 100만 개의 문서 중 30개의 문서를 검색 결과로 보여줬다면, PPCR은 0.003%가 된다.

\text{예측된 양성 조건 비율}=\frac{TP+FP}{TP+FP+TN+FN} \,

불균형 데이터를 다룰 때는 ROC 곡선보다 정밀도-재현율 곡선이 모델 성능을 평가하는 데 더 유익하다는 주장이 있다. Saito와 Rehmsmeier는 ROC 곡선이 불균형 데이터 상황에서는 성능에 대한 잘못된 인상을 줄 수 있다고 지적했다.[10]

이 외에도, 데이터의 불균형을 보정하기 위해 혼동 행렬의 각 요소에 가중치를 적용하여 표준적인 평가 지표들을 그대로 사용하는 접근 방식도 존재한다.[11]

5. F-measure

정밀도와 재현율을 결합한 지표 중 하나로 조화 평균을 사용하는 F-measure가 있다. 가장 널리 쓰이는 것은 정밀도(precision)와 재현율(recall)의 가중치를 동일하게 두는 '''F1 점수'''(F1 score)이다.

:F_1 = 2 \cdot \frac{\mathrm{precision} \cdot \mathrm{recall}}{ \mathrm{precision} + \mathrm{recall}}

F1 점수는 정밀도와 재현율 두 값의 조화 평균으로 계산된다. 이 값은 두 지표가 비슷할 때는 산술 평균과 유사한 값을 보이지만, 한쪽으로 치우칠 경우 낮은 값에 더 큰 영향을 받는다. F-score는 특정 상황에서 평가 지표로서 편향될 수 있다는 비판도 있다.[1]

F-measure는 일반화된 형태인 F_\beta 지표로 표현할 수 있으며, 여기서 \beta는 음이 아닌 실수 값이다. \beta 값은 재현율에 정밀도보다 몇 배 더 중요도를 둘 것인지를 결정한다.

:F_\beta = (1 + \beta^2) \cdot \frac{\mathrm{precision} \cdot \mathrm{recall} }{ \beta^2 \cdot \mathrm{precision} + \mathrm{recall}}

F1 점수(\beta=1) 외에 자주 사용되는 지표로는 재현율을 정밀도보다 중요하게 평가하는 F_2 지표(\beta=2)와 정밀도를 재현율보다 중요하게 평가하는 F_{0.5} 지표(\beta=0.5)가 있다.

F-measure는 1979년 판 레이스베르헌(van Rijsbergen)에 의해 유도되었으며, 그는 F_\beta를 "정밀도보다 재현율에 \beta배의 중요성을 부여하는 사용자에 대한 검색의 효과를 측정하는 지표"라고 설명했다. 이는 그의 효과성 지표 E_{\alpha} = 1 - \frac{1}{\frac{\alpha}{P} + \frac{1-\alpha}{R}} (여기서 P는 정밀도, R은 재현율)에 기반하며, F_\beta = 1 - E_{\alpha} 관계를 가진다. 이때 가중치 \alpha\alpha=\frac{1}{1 + \beta^2}로 계산된다.

6. 한계 및 추가 고려 사항

정보 검색 시스템의 성능 지표에는 ROC 곡선 (AUC)[12] 아래 면적 또는 의사 R-제곱과 같은 다른 매개변수와 전략이 있다.

참조

[1] 논문 Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation http://www.flinders.[...] 2011
[2] 논문 The exploitation of distributional information in syllable processing
[3] 학술대회 The Problem with Kappa https://www.aclweb.o[...] 2012
[4] 서적 Advanced Data Mining Techniques Springer 2008-02-01
[5] 웹사이트 Precision vs. Recall: Differences, Use Cases & Evaluation https://www.v7labs.c[...]
[6] 논문 Deep Metric Learning to Rank http://cs-people.bu.[...] 2019
[7] 서적 Information Retrieval Models: Foundations & Relationships https://books.google[...] Springer Nature 2022-05-31
[8] 논문 PREP-Mt: predictive RNA editor for plant mitochondrial genes 2005-04-12
[9] 논문 The Effect of Class Imbalance on Precision-Recall Curves https://doi.org/10.1[...] 2021-04-01
[10] 논문 The Precision-Recall Plot Is More Informative than the ROC Plot When Evaluating Binary Classifiers on Imbalanced Datasets 2015-03-04
[10] 웹사이트 Precision-recall curves – what are they and how are they used? https://acutecaretes[...] 2017-03
[11] 논문 Welding defect detection: coping with artifacts in the production line https://link.springe[...] 2020
[12] 문서 What you wanted to know about AUC http://fastml.com/wh[...]
[13] 논문 A Closer Look at Classification Evaluation Metrics and a Critical Reflection of Common Evaluation Practice https://doi.org/10.1[...] 2024
[14] 서적 Advanced Data Mining Techniques Springer 2008-02-01



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com