맨위로가기

이항 분류

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

이항 분류는 데이터를 두 개의 범주 중 하나로 나누는 문제로, 통계학, 컴퓨터 과학, 기계 학습 등 다양한 분야에서 활용된다. 이진 분류는 질병 진단, 품질 관리, 검색 결과 분류 등에서 사용되며, 결정 트리, 베이즈 네트워크, 신경망과 같은 다양한 분류기를 통해 수행된다. 이진 분류의 성능은 정확도, 정밀도, 재현율, 특이도, F1 점수, ROC 곡선 및 AUC 등을 통해 평가되며, 민감도와 특이도는 임상 검사에서 중요한 지표로 사용된다. 또한, 연속형 데이터를 이진 데이터로 변환하는 과정에서 정보 손실이 발생할 수 있으며, 이는 절사값 설정에 따라 예측도의 왜곡을 초래할 수 있다.

더 읽어볼만한 페이지

  • 통계적 분류 - 서포트 벡터 머신
    서포트 벡터 머신(SVM)은 지도 학습 모델로서 분류와 회귀 분석에 사용되며, 데이터 집합을 기반으로 새로운 데이터의 범주를 판단하는 비확률적 이진 선형 분류 모델을 생성하고, 커널 트릭을 통해 비선형 분류에도 활용될 수 있다.
  • 통계적 분류 - 민감도와 특이도
    민감도와 특이도는 의학적 진단에서 검사의 정확성을 평가하는 지표로, 민감도는 실제 양성인 대상 중 양성으로 나타나는 비율, 특이도는 실제 음성인 대상 중 음성으로 나타나는 비율을 의미하며, 선별 검사에서 두 지표를 모두 높여 질병을 정확하게 진단하는 것을 목표로 한다.
  • 기계 학습 - 비지도 학습
    비지도 학습은 레이블이 없는 데이터를 통해 패턴을 발견하고 데이터 구조를 파악하는 것을 목표로 하며, 주성분 분석, 군집 분석, 차원 축소 등의 방법을 사용한다.
  • 기계 학습 - 지도 학습
    지도 학습은 레이블된 데이터를 사용하여 입력 데이터와 출력 레이블 간의 관계를 학습하는 기계 학습 분야로, 예측 모델 생성, 알고리즘 선택, 모델 최적화, 정확도 평가 단계를 거치며, 회귀 및 분류 문제에 적용되고 다양한 확장 기법과 성능 평가 방법을 활용한다.
이항 분류
개요
이름이항 분류
로마자 표기ihang bullyu
영어Binary classification
일본어二項分類 (Nikō bunrui)
설명기계 학습 및 통계적 분류에서 이항 분류는 두 개의 클래스 레이블 중 하나로 분류하는 작업임.
분류기는 데이터의 각 인스턴스에 대해 "예" 또는 "아니오"(yes or no)로 답해야 함.
이항 분류 작업의 예는 다음과 같음.
의료 검사는 환자가 특정 질병을 가지고 있는지 없는지를 판단함.
품질 관리는 제조된 제품이 사양을 충족하는지 여부를 판단함.
정보 검색은 페이지를 검색 결과에 포함해야 하는지 여부를 판단함.
평가
평가 방법이항 분류기는 다양한 방법으로 평가할 수 있음.
일반적인 방법은 다음과 같음.
정확도
정밀도
재현율
F1 점수
AUC (곡선 아래 영역)
정확도정확도는 분류기가 올바르게 분류한 인스턴스의 비율임.
정밀도정밀도는 분류기가 양성으로 예측한 인스턴스 중 실제로 양성인 인스턴스의 비율임.
재현율재현율은 실제로 양성인 인스턴스 중 분류기가 양성으로 예측한 인스턴스의 비율임.
F1 점수F1 점수는 정밀도와 재현율의 조화 평균임.
AUC (곡선 아래 영역)AUC는 분류기가 다양한 임계값에서 얼마나 잘 수행되는지를 측정하는 척도임.
같이 보기
관련 항목다중 클래스 분류
통계적 분류

2. 이진 분류의 개념

이진 분류는 기계 학습에서 어떤 데이터를 두 개의 클래스(범주) 중 하나로 분류하는 문제를 말한다. 컴퓨터 과학에서는 임상 검사와 같이 복잡하고 어려운 분류 작업을 자동화하는 데 관심을 두고 있다.[1]

이진 분류에는 다음과 같은 방법들이 사용된다.



각 분류기는 관측 횟수, 특징 벡터의 차원, 데이터의 잡음 등 여러 요소를 고려하여 선택된다. 예를 들어, 랜덤 포레스트는 3D 포인트 클라우드에서 SVM 분류기보다 성능이 좋다.[2][3]

2. 1. 이진 분류의 예시

임상 검사에서 환자가 특정 질병에 걸렸는지 여부를 분류한다(분류 속성은 질병).[1] 공장에서의 품질 관리에서, 제품이 출하 가능한 품질인지, 아니면 폐기해야 하는지 판단한다(분류 속성은 품질).[1] 어떤 페이지나 기사를 검색 결과에 포함할지 여부를 결정한다(분류 속성은 해당 기사의 관련성, 예를 들어 특정 단어가 포함되어 있는지 여부).[1]

3. 이진 분류의 평가

이진 분류기의 성능을 평가하기 위해 다양한 지표들이 사용된다. 임상 검사의 성능 측정에는 민감도나 특이도와 같은 개념이 자주 사용되며, 이는 이항 분류기 평가에도 활용 가능하다.

어떤 사람이 질병에 걸렸는지 검사한다고 가정할 때, 다음과 같은 경우가 있을 수 있다.


  • 진양성(True Positive): 질병에 걸렸고, 검사 결과도 양성
  • 위음성(False Negative): 질병에 걸렸지만, 검사 결과는 음성
  • 진음성(True Negative): 질병에 걸리지 않았고, 검사 결과도 음성
  • 위양성(False Positive): 질병에 걸리지 않았지만, 검사 결과는 양성


진양성, 위음성, 진음성, 위양성의 비율을 모두 합하면 100%가 된다.

  • 민감도(Sensitivity)는 양성으로 판정되어야 할 사람 중 실제로 양성으로 판정된 비율이다. 즉, (진양성)/(진양성 + 위음성)으로 계산된다. 이는 "환자를 양성으로 판정할 확률"을 의미하며, 민감도가 높으면 질병이 있는 사람을 놓치는 경우가 줄어든다.
  • 특이도(Specificity)는 음성으로 판정되어야 할 사람 중 실제로 음성으로 판정된 비율이다. 즉, (진음성)/(진음성 + 위양성)으로 계산된다. 이는 "환자가 아닌 사람을 음성으로 판정할 확률"을 의미하며, 특이도가 높으면 건강한 사람을 환자로 잘못 판정하는 경우가 줄어든다.


민감도와 특이도의 관계ROC 곡선을 사용하여 시각화하여 분석할 수 있다.

이론적으로는 민감도와 특이도가 모두 100%를 달성하는 것이 가능하지만, 실제로는 트레이드오프 관계가 있어 둘 다 100%로 만드는 것은 어려운 경우가 많다. 이는 양성 또는 음성을 판정하는 기준이 명확하지 않은 경우가 많기 때문이다. 예를 들어, 체질량 지수를 사용하여 비만 여부를 판정할 때, 민감도를 높이기 위해 임계값을 낮추면 위양성 비율이 높아져 특이도가 낮아지는 경향이 있다.

민감도와 특이도 외에도, 양성 예측도음성 예측도가 이항 분류 시험의 성능 척도로 사용된다. 양성 예측도는 "검사 결과가 양성으로 나왔을 때 실제로 질병에 걸렸을 확률"을 의미하며, (진양성)/(진양성 + 위양성)으로 계산된다. 음성 예측도는 "검사 결과가 음성으로 나왔을 때 실제로 질병에 걸리지 않았을 확률"을 의미한다.

하지만 민감도와 특이도는 모집단에 영향을 받지 않지만, 예측도는 모집단에 따라 달라진다는 차이점이 있다. 예를 들어, 민감도와 특이도가 모두 99%인 검사가 있다고 가정하자. 만약 건강한 사람 1000명과 질병에 걸린 사람 1000명, 총 2000명에게 검사를 시행하면 양성 예측도와 음성 예측도는 모두 99%가 된다. 그러나 2000명 중 질병에 걸린 사람이 100명이라면, 양성 예측도는 약 84%로 낮아지고, 음성 예측도는 매우 높아진다.

3. 1. 혼동 행렬 (Confusion Matrix)

분류기의 예측 결과와 실제 값을 비교하여 나타내는 표이다.

특정 데이터 집합의 분류에서, 실제 데이터 범주와 할당된 범주를 기반으로 다음과 같은 조합이 가능하다: 진양성(TP, 올바른 양성 할당), 진음성(TN, 올바른 음성 할당), 거짓 양성(FP, 잘못된 양성 할당), 거짓 음성(FN, 잘못된 음성 할당).

테스트 결과 양성테스트 결과 음성
조건 양성양성거짓 음성
조건 음성거짓 양성음성



이 표는 2x2 분할표로, 행은 실제 값(조건 양성 또는 조건 음성), 열은 분류 값(테스트 결과 양성 또는 테스트 결과 음성)을 나타낸다.

이항 분류 평가의 일반적인 접근 방식은 표준 패턴의 두 가지 비율을 계산하는 것이다. 분할표에서 계산 가능한 8가지 기본 비율은 4개의 상호 보완 쌍(각 쌍은 합이 1)으로 구성된다. 각 숫자를 해당 행 또는 열의 합계로 나누어 "진양성 행 비율" 또는 "거짓 음성 열 비율"과 같이 일반화할 수 있는 8개의 숫자를 얻는다.

두 쌍의 열 비율과 두 쌍의 행 비율이 있으며, 각 쌍에서 하나의 비율을 선택하여 네 개의 숫자를 요약할 수 있다. 나머지 네 숫자는 보완 관계에 있다.
행 비율:


  • 진양성률(TPR) = (TP/(TP+FN)), 즉 '''민감도''' 또는 재현율. 조건이 있는 모집단에서 검사가 정확한 비율이다.
  • 거짓 음성률(FNR) = (FN/(TP+FN))은 보완 관계이다.
  • 진음성률(TNR) = (TN/(TN+FP), 즉 '''특이도'''(SPC).
  • 거짓 양성률(FPR) = (FP/(TN+FP))은 보완 관계이며, 유병률과 독립적이다.

열 비율:

  • 양성 예측도(PPV, 즉 정밀도) (TP/(TP+FP)). 검사 결과가 주어진 모집단에서 검사가 정확한 비율이다.
  • 거짓 발견율(FDR) (FP/(TP+FP))은 보완 관계이다.
  • 음성 예측도(NPV) (TN/(TN+FN))
  • 거짓 누락률(FOR) (FN/(TN+FN))은 보완 관계이며, 유병률에 대한 의존성이라고도 한다.


진단 검사에서는 진양성률과 진음성률( 민감도 및 특이도)이, 정보 검색에서는 양성 예측도와 진양성률(정밀도와 재현율)이 주로 사용된다.

어떤 쌍의 지표를 사용할지에 대한 일반적인 규칙은 없지만, 컬런 본(Cullerne Bown)은 결정 순서도를 제안했다.[1]

상호 보완적인 비율 쌍의 비율을 취하여 4개의 우도비(두 열 비율, 두 행 비율)를 얻을 수 있다. 주로 열(조건) 비율에 대해 수행되어 진단 검사에서 우도비를 생성한다. 이 비율 그룹 중 하나의 비율을 취하면 진단 오즈비(DOR)가 생성된다. DOR은 (TP×TN)/(FP×FN) = (TP/FN)/(FP/TN)으로 정의되며, 오즈비로 해석되고 유병률과 독립적이다.

임상 검사의 성능 측정에는 민감도나 특이도가 사용된다. 이는 이항 분류기 평가에도 활용 가능하다. 질병 유무 검사에서, 질병이 있고 검사 결과가 양성이면 "진양성", 질병이 있는데 음성이면 "거짓 음성", 질병이 없고 음성이면 "진음성", 건강한데 양성이면 "거짓 양성"이다. 진양성, 거짓 음성, 진음성, 거짓 양성의 비율 합은 100%이다.

  • '''민감도'''는 양성 판정되어야 할 사람 중 실제 양성 판정된 비율, 즉 (진양성)/(진양성 + 거짓 음성)이다. "환자를 양성으로 판정할 확률"로, 민감도가 높으면 환자를 놓치는 경우가 줄어든다. (품질 관리에서는 문제 제품의 시장 유통 확률이 줄어든다.)
  • '''특이도'''는 음성 판정되어야 할 사람 중 실제 음성 판정된 비율, 즉 (진음성)/(진음성 + 거짓 양성)이다. "환자가 아닌 자를 음성으로 판정할 확률"로, 특이도가 높으면 건강한 사람을 환자로 간주하는 경우가 줄어든다. (품질 관리에서는 문제 없는 제품을 버리는 일이 줄어 손실이 감소한다.)


수신자 조작 특성 곡선을 통해 민감도와 특이도의 관계, 분류기 성능을 시각화하고 연구할 수 있다.

이론적으로 민감도와 특이도는 독립적이며 둘 다 100% 달성 가능하지만(파란 공과 빨간 공 분류 등), 실제로는 트레이드오프가 있어 둘 다 100%가 되기 어렵다. 판정 속성이 명확하지 않고, 어떤 범위를 양성/음성으로 판정하는 경우가 많기 때문이다. 비만도 조사 체질량 지수가 대표적 예이다. 민감도를 높이려면 임계값을 낮춰 가능한 많은 사람을 비만으로 판정(진양성 비율 증가, 거짓 음성 비율 감소)하지만, 거짓 양성 비율도 높아져 정상인이 비만으로 판정될 확률이 높아지고 특이도가 나빠진다.

이항 분류 시험 성능 척도로 '''양성 예측도'''와 '''음성 예측도'''가 있다. 양성 예측도는 "검사 결과 양성일 때 실제 질병 확률"로, (진양성)/(진양성 + 거짓 양성)이다. 즉, 양성 결과 중 진양성 비율이다. 음성 예측도도 마찬가지로 계산된다.

민감도와 특이도는 개체군과 독립적이지만, 예측도는 개체군에 의존한다.

예를 들어, 99% 민감도와 특이도를 가진 검사로 건강한 1000명과 질병에 걸린 1000명을 검사하면 진양성과 진음성이 각각 990명, 거짓 양성과 거짓 음성이 각각 10명으로, 양성/음성 예측도는 99%이다.

하지만 2000명 중 질병에 걸린 사람이 100명이면 진양성 99명, 거짓 음성 1명, 진음성 1881명, 거짓 양성 19명이 된다. 양성 판정 99+19명 중 진양성은 99명뿐이므로, 양성 판정 시 실제 질병 확률은 84%이다. 음성 판정 시 실제 질병 확률은 0.05%이다.

colspan="2" rowspan="2" style="border:none;"|실제 상태
양성음성
검사
결과
양성진양성거짓 양성
(제1종 오류)
양성 예측률 =
진양성의 수
   검사 양성의 수
음성거짓 음성
(제2종 오류)
진음성음성 예측률 =
진음성의 수
 검사 음성의 수
colspan="2" style="border:none;" |민감도 =
진양성의 수
진양성+거짓 음성
특이도 =
진음성의 수
거짓 양성+진음성


3. 2. 주요 평가 지표

이항 분류의 주요 평가 지표
지표설명수식관련 개념
정확도 (Accuracy)전체 예측 중 올바르게 예측된 비율(TP + TN) / (TP + TN + FP + FN)
정밀도 (Precision)양성으로 예측된 것 중 실제로 양성인 비율TP / (TP + FP)양성 예측도
재현율 (Recall) / 민감도 (Sensitivity)실제 양성 중 양성으로 예측된 비율TP / (TP + FN)진양성률
특이도 (Specificity)실제 음성 중 음성으로 예측된 비율TN / (TN + FP)진음성률
F1 점수 (F1 Score)정밀도와 재현율의 조화 평균2 * (Precision * Recall) / (Precision + Recall)
ROC 곡선 (Receiver Operating Characteristic curve) 및 AUC (Area Under the Curve)거짓 양성률(FPR)에 대한 진양성률(TPR)의 그래프를 나타내며, AUC는 곡선 아래 면적을 의미한다.


  • '''TP''': 진양성
  • '''TN''': 진음성
  • '''FP''': 거짓 양성
  • '''FN''': 거짓 음성


민감도는 양성으로 판정되어야 할 사람 중 실제로 양성으로 판정된 비율((진양성)/(진양성 + 거짓 음성))로, "환자를 양성으로 판정할 확률"이다. 민감도가 높으면 환자를 놓치는 경우가 줄어든다. 특이도는 음성으로 판정되어야 할 사람 중 실제로 음성으로 판정된 비율((진음성)/(진음성 + 거짓 양성))로, "환자가 아닌 사람을 음성으로 판정할 확률"이다. 특이도가 높으면 건강한 사람을 환자로 간주하는 경우가 줄어든다.[1]

양성 예측도는 "어떤 사람의 검사 결과가 양성이었을 때, 실제로 질병에 걸렸을 확률"이며, (진양성)/(진양성 + 거짓 양성)으로 계산된다. 음성 예측률도 비슷하게 계산할 수 있다.

3. 3. 평가 지표의 선택

어떤 평가 지표를 사용할지는 문제의 특성과 목표에 따라 달라진다. 예를 들어, 암 진단과 같이 질병을 놓치는 것(거짓 음성)이 심각한 결과를 초래하는 경우 재현율(민감도)이 중요한 지표가 된다. 반면, 스팸 메일 필터링과 같이 잘못된 양성(정상 메일을 스팸으로 분류)이 불편을 야기하는 경우 정밀도가 더 중요한 지표가 될 수 있다.

임상 검사의 성능을 측정할 때, 민감도나 특이도와 같은 개념이 자주 사용된다. 이러한 개념은 임의의 이항 분류기의 평가에 활용할 수 있다.

  • '''민감도''': 양성으로 판정되어야 할 사람 수(개체 수) 중 실제로 양성으로 판정된 사람 수의 비율이다. 즉, (진양성)/(진양성 + 위음성)이다. "환자를 양성으로 판정할 확률"로, 민감도가 높으면 환자를 놓치는 경우가 줄어든다.
  • '''특이도''': 음성으로 판정되어야 할 사람 수(개체 수) 중 실제로 음성으로 판정된 사람 수의 비율이다. 즉, (진음성)/(진음성 + 위양성)이다. "환자가 아닌 자를 음성으로 판정할 확률"로, 특이도가 높으면 건강한 사람을 환자로 간주하는 경우가 줄어든다.


민감도와 특이도의 관계나 분류기의 성능은, 수신자 조작 특성 곡선을 사용하여 시각화하고 연구할 수 있다.

이론상, 민감도와 특이도는 독립적이며, 둘 다 100%를 달성하는 것도 가능하다. 실제로는, 어떤 종류의 트레이드오프가 있어서, 둘 다 100%로 만들 수 없는 경우가 많다. 일반적으로 속성은 0과 1과 같은 이해하기 쉬운 값이 아니라, 어떤 범위를 양성 또는 음성으로 판정하는 경우가 많기 때문이다. 예를 들어, 비만도를 조사하는 체질량 지수가 전형적인 예이다. 민감도를 높이고 싶은 경우, 임계값을 낮게 설정하면, 가능한 많은 사람을 비만으로 판정한다. 즉, 진양성의 비율이 증가하고, 위음성의 비율이 감소한다. 따라서, 민감도는 좋아진다. 하지만 단점으로는, 위양성의 비율도 높아지기 때문에, 정상적인 사람이 비만으로 판정될 확률이 높아지고, 결과적으로 특이도가 나빠진다.

민감도와 특이도에 더하여, 이항 분류 시험의 성능 척도로 양성 예측률와 음성 예측률가 있다. 양성 예측도는 "어떤 사람의 검사 결과가 양성이었을 때, 실제로 질병에 걸렸을 확률"이다. 계산식은 (진양성)/(진양성 + 위양성)이 된다. 즉, 양성으로 나온 결과 중, 진양성이 차지하는 비율이다. 음성 예측도도 마찬가지로 계산할 수 있다.

하지만, 민감도와 특이도는 검사 결과의 양성과 음성의 비율에 의존하지 않는다는 의미에서 개체군과 독립적이지만, 예측도는 개체군에 의존하고 있다는 차이점을 인식할 필요가 있다.

예를 들어, 99%의 민감도와 99%의 특이도를 가진 임상 검사가 있다고 하자. 건강한 1000명과 질병에 걸린 1000명의 총 2000명에 대해 이 검사를 시행한다. 검사 결과는 진양성과 진음성이 각각 990명, 위양성과 위음성이 각각 10명이 될 것이다. 이 경우의 양성 예측도와 음성 예측도는 99%가 된다.

하지만, 2000명 중 질병에 걸린 사람이 100명이었을 경우, 진양성이 99명, 위음성이 1명, 진음성이 1881명, 위양성이 19명이 된다. 즉, 양성으로 판정되는 것은 99+19명이며, 이 중 진양성은 99명뿐이다. 따라서, 양성이라고 판정된 사람이 정말로 질병에 걸렸을 확률은 84%밖에 되지 않는다. 한편, 음성이라고 판정된 사람은 안심해도 좋다. 음성이라고 판정되었는데 실제로는 질병에 걸렸을 확률은(이 경우) 0.05%밖에 되지 않는다.

colspan="2" |실제 상태
양성음성
검사
결과
양성진양성거짓 양성
(제1종 오류)
음성거짓 음성
(제2종 오류)
진음성
colspan="2" |양성 예측률 =
진양성의 수 / 검사 양성의 수
음성 예측률 =
진음성의 수 / 검사 음성의 수
colspan="2" |민감도 =
진양성의 수 / (진양성+거짓 음성)
특이도 =
진음성의 수 / (거짓 양성+진음성)


4. 통계적 이진 분류

통계적 분류는 기계 학습의 한 분야로, 주어진 데이터를 기반으로 분류 규칙을 학습하고, 이를 사용하여 새로운 데이터를 분류하는 방법이다. 이는 지도 학습의 한 유형으로, 범주가 미리 정의되어 있으며 새로운 확률적 관측값을 해당 범주로 분류하는 데 사용된다. 범주가 두 개뿐일 때 이 문제는 통계적 이진 분류라고 한다.

이항 분류는 다음과 같은 분야에서 활용된다.


  • 임상 검사: 환자가 특정 질병에 걸렸는지 여부를 판단한다. (분류 속성은 질병)
  • 품질 관리: 공장에서 생산된 제품이 출하 가능한 품질인지, 아니면 폐기해야 하는지 판단한다. (분류 속성은 품질)
  • 검색 엔진: 특정 페이지나 기사를 검색 결과에 포함할지 여부를 결정한다. (분류 속성은 해당 기사의 관련성, 예를 들어 특정 단어가 포함되어 있는지 여부)


분류는 통계학의 학문 분야이며, 컴퓨터 과학에서도 연구되고 있다. 특히 데이터를 자동으로 분류하는 학습 시스템(기계 학습)에 대한 연구가 이루어지고 있다.

분류는 때로는 단순한 작업이 될 수도 있다. 예를 들어 파란색 공과 빨간색 공이 총 100개 있을 때, 이것을 분류하는 것은 색각이 정상적인 사람이라면 매우 간단하다. 그러나 임상 검사의 경우처럼 분류가 간단하지 않고, 틀리는 경우도 있다. 컴퓨터 과학에서의 관심도 그러한 어려운 분류의 자동화에 있다.

4. 1. 통계적 이진 분류 방법

로지스틱 회귀: 종속 변수가 범주형 데이터일 때 사용되는 회귀 분석 방법이다.

의사 결정 트리: 의사 결정 규칙을 나무 형태로 표현하여 데이터를 분류하는 방법이다.

랜덤 포레스트: 여러 개의 결정 트리를 결합하여 분류 성능을 향상시키는 방법이다.

서포트 벡터 머신: 데이터를 가장 잘 구분하는 초평면(hyperplane)을 찾아 분류하는 방법이다.

신경망: 인간의 뇌 신경망을 모방하여 만든 기계 학습 모델이다.

베이즈 네트워크

프로빗 모형

유전자 프로그래밍

다중 표현 프로그래밍

선형 유전자 프로그래밍[2][3]

5. 연속형 데이터를 이진 데이터로 변환

연속형 변수를 이진 변수로 변환하는 것을 이분법이라고 한다. 혈액 수치와 같이 결과가 연속형 값인 검사는 절사값을 정의하여 인위적으로 이진화할 수 있으며, 검사 결과는 결과 값이 절사값보다 높거나 낮은지에 따라 양성 또는 음성으로 지정된다.

그러나 이러한 변환은 정보 손실을 유발한다. 절사값에 가까운 값과 먼 값 모두 동일한 "양성" 또는 "음성"으로 나타나 예측도에 차이가 발생할 수 있다.

5. 1. 절사값 (Cutoff Value)

이항 분류는 연속형 함수를 이진 변수로 변환하는 이분법의 한 형태일 수 있다. 대부분의 혈액 수치와 같이 결과가 연속형 값인 검사는 절사값을 정의하여 인위적으로 이진화할 수 있으며, 검사 결과는 결과 값이 절사값보다 높거나 낮은지에 따라 양성 또는 음성으로 지정된다.

그러나 이러한 변환은 정보 손실을 유발하는데, 이는 결과적인 이진 분류가 값이 절사값보다 ''얼마나'' 높거나 낮은지를 알려주지 않기 때문이다. 결과적으로, 절사값에 가까운 연속형 값을 이진 값으로 변환할 때, 결과적인 양성 예측도 또는 음성 예측도는 일반적으로 연속형 값에서 직접 제공되는 예측도보다 높다. 이러한 경우, 검사가 양성 또는 음성이라는 지정은 부적절하게 높은 확실성을 나타내는 것처럼 보이지만, 실제로는 불확실성 구간에 있는 값이다. 예를 들어, hCG의 소변 농도를 연속형 값으로 사용할 때, 50mIU/ml을 절사값으로 하여 52mIU/ml의 hCG를 측정한 소변 임신 테스트는 "양성"으로 나타날 수 있지만, 실제로는 불확실성 구간에 있으며, 이는 원래의 연속형 값을 알아야만 명확해질 수 있다. 반면에, 절사값에서 매우 멀리 떨어진 검사 결과는 일반적으로 연속형 값에서 제공되는 예측도보다 낮은 결과적인 양성 또는 음성 예측도를 갖는다. 예를 들어, 200000mIU/ml의 소변 hCG 값은 임신 가능성이 매우 높지만, 이진 값으로 변환하면 52mIU/ml의 값과 마찬가지로 "양성"으로 나타난다.

5. 2. 정보 손실

연속형 변수를 이진 변수로 변환하면 정보 손실이 발생할 수 있다. 혈액 수치와 같이 결과가 연속형 값인 검사는 절사값을 정의하여 인위적으로 이진화할 수 있으며, 검사 결과는 결과 값이 절사값보다 높거나 낮은지에 따라 양성 또는 음성으로 지정된다.

그러나 이러한 변환은 정보 손실을 유발하는데, 이는 결과적인 이진 분류가 값이 절사값보다 ''얼마나'' 높거나 낮은지를 알려주지 않기 때문이다. 결과적으로, 절사값에 가까운 연속형 값을 이진 값으로 변환할 때, 결과적인 양성 예측도 또는 음성 예측도는 일반적으로 연속형 값에서 직접 제공되는 예측도보다 높다. 이러한 경우, 검사가 양성 또는 음성이라는 지정은 부적절하게 높은 확실성을 나타내는 것처럼 보이지만, 실제로는 불확실성 구간에 있는 값이다. 예를 들어, hCG의 소변 농도를 연속형 값으로 사용할 때, 50mIU/ml을 절사값으로 하여 52mIU/ml의 hCG를 측정한 소변 임신 테스트는 "양성"으로 나타날 수 있지만, 실제로는 불확실성 구간에 있으며, 이는 원래의 연속형 값을 알아야만 명확해질 수 있다. 반면에, 절사값에서 매우 멀리 떨어진 검사 결과는 일반적으로 연속형 값에서 제공되는 예측도보다 낮은 결과적인 양성 또는 음성 예측도를 갖는다. 예를 들어, 200000mIU/ml의 소변 hCG 값은 임신 가능성이 매우 높지만, 이진 값으로 변환하면 52mIU/ml의 값과 마찬가지로 "양성"으로 나타난다.

참조

[1] 논문 Sensitivity and Specificity versus Precision and Recall, and Related Dilemmas https://rdcu.be/dL1w[...]
[2] 논문 Automatic Identification of Window Regions on Indoor Point Clouds Using LiDAR and Cameras 2014
[3] 논문 Simplified markov random fields for efficient semantic labeling of 3D point clouds http://nameless.cis.[...] 2012



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com