수신자 조작 특성

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

수신자 조작 특성(ROC)은 신호 탐지 분석에서 사용되는 기술로, 레이더 기술 개발 과정에서 처음 사용되었으며, 이후 심리학, 의학, 기계 학습 등 다양한 분야에서 활용된다. ROC 곡선은 분류 모델의 성능을 평가하기 위해 사용되며, 참 양성률과 거짓 양성률을 시각적으로 나타낸다. ROC 공간에서 곡선 아래 면적(AUC)은 모델의 성능을 나타내는 지표로, 1에 가까울수록 성능이 우수함을 의미하지만, AUC의 한계와 비판도 존재한다. 다중 클래스 분류 문제에 대한 ROC 곡선의 확장과 함께, z-점수를 활용하여 ROC 곡선을 분석하는 방법도 있다.

수신자 조작 특성

개요

이름	수신자 조작 특성 (受信者操作特性, Receiver Operating Characteristic)
약자	ROC
유형	이진 분류기 진단 도구

목적

주요 목적	이진 분류기의 성능 시각화 및 평가
활용	임계값 설정에 따른 분류 성능 변화 분석 다양한 분류기 모델 간의 성능 비교 최적의 분류 모델 선택

구성 요소

축	X축: 특이도 (Specificity) 또는 위양성률 (False Positive Rate, FPR) (1 - 특이도) Y축: 민감도 (Sensitivity) 또는 진양성률 (True Positive Rate, TPR)
곡선	ROC 곡선 (ROC curve): 다양한 임계값에서 FPR과 TPR의 변화를 나타내는 그래프
AUC	AUC (Area Under the Curve): ROC 곡선 아래 면적으로, 분류기의 전반적인 성능을 나타내는 지표 (1에 가까울수록 좋음)

해석

AUC 값	0.5: 무작위 분류기와 동일한 성능 0.7 ~ 0.8: 준수한 성능 0.8 ~ 0.9: 좋은 성능 0.9 이상: 매우 우수한 성능
곡선 형태	좌상단에 가까울수록 좋은 성능 (민감도와 특이도가 모두 높음) 대각선에 가까울수록 낮은 성능

장점

임계값 독립적	임계값 설정에 관계없이 분류기의 고유한 성능을 평가 가능
시각적 표현	직관적인 그래프를 통해 성능을 쉽게 이해 가능
모델 비교	다양한 분류기 모델의 성능을 객관적으로 비교 가능

단점

불균형 데이터	데이터 불균형이 심할 경우, AUC 값이 높게 나타날 수 있음 (주의 필요)
비용 고려 불가	오분류에 따른 비용을 고려하지 않음

활용 분야

의학 진단	질병 진단 모델의 성능 평가
신용 평가	신용 위험 평가 모델의 성능 평가
스팸 필터링	스팸 메일 분류 모델의 성능 평가
자연어 처리	텍스트 분류 모델의 성능 평가

📚 더 읽어볼만한 페이지

통계적 분류 - 서포트 벡터 머신
통계적 분류 - 민감도와 특이도
민감도와 특이도는 의학적 진단에서 검사의 정확성을 평가하는 지표로, 민감도는 실제 양성인 대상 중 양성으로 나타나는 비율, 특이도는 실제 음성인 대상 중 음성으로 나타나는 비율을 의미하며, 선별 검사에서 두 지표를 모두 높여 질병을 정확하게 진단하는 것을 목표로 한다.
데이터 마이닝 - 클러스터 분석
클러스터 분석은 유사한 특성을 가진 데이터 객체들을 그룹으로 묶는 기계 학습 기법으로, 다양한 알고리즘과 모델을 기반으로 하며 여러 분야에서 활용되고 클러스터링 결과는 다양한 방식으로 평가된다.
데이터 마이닝 - 이상 탐지
이상 탐지는 일반적인 관측치와 다른 이상치를 식별하여 침입 탐지, 사기 탐지 등에 활용되며, 통계적 방법, 밀도 기반 방법 등 다양한 방법이 존재하고 성능 평가를 위한 공개 데이터 세트가 사용된다.
통계학 - 확률
확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다.
통계학 - 사분위수
사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.

1. 개요
2. 역사
3. 기본 개념
4. ROC 공간
5. ROC 곡선
6. 곡선 아래 면적 (AUC: Area Under the Curve)
- 6.1. AUC의 한계 및 비판
7. 다중 클래스 분류
8. z-점수 (z-score)

2. 역사

ROC 곡선은 1941년 제2차 세계 대전 중 영국에서 레이더 기술의 필요성에 의해 개발되었다. 진주만 공습 이후, 미군은 레이더 신호로부터 일본 항공기를 정확하게 탐지하는 예측 능력을 향상시키기 위한 연구를 시작했고, "수신기 조작 특성"이라는 명칭도 이와 같은 배경에서 유래했다.

이후 ROC 분석은 심리학에서 자극의 지각적 탐지를 설명하는 데 도입되었다. 1950년대에는 심리물리학에서 인간(그리고 때로는 인간이 아닌 동물)의 약한 신호 감지를 평가하는 데 사용되었다. 의학, 방사선학, 생체 인식, 자연 재해 예측, 기상학, 모델 성능 평가, 등 다양한 분야에서 수십 년 동안 사용되어 왔으며, 머신 러닝 및 데이터 마이닝 연구에서도 점점 더 많이 사용되고 있다.

의학에서 ROC 분석은 진단 검사 평가에 광범위하게 사용되어 왔으며, 방사선학에서는 새로운 방사선 기술을 평가하는 일반적인 기술이다. 실험 의학에서는 검사의 진단 정확도를 평가하고, 검사의 최적 절단점을 선택하며, 여러 검사의 진단 정확도를 비교하는 데 널리 사용된다.

기계 학습 기술 평가에도 ROC 곡선이 유용하다는 것이 입증되었다. 기계 학습에서 ROC의 첫 번째 응용은 다양한 분류 알고리즘을 비교하고 평가하는 데 ROC 곡선의 가치를 입증한 Spackman에 의해 이루어졌다. ROC 곡선은 기상학에서 예보 검증에도 사용된다.

3. 기본 개념

이진 분류 문제에서 분류 모델(분류기)은 특정 클래스(양성 또는 음성)를 예측한다. 분류 결과는 다음 네 가지 경우로 나뉜다.

* 참 양성(True Positive, TP): 예측이 양성(p)이고 실제 값도 양성(p)인 경우.
* 거짓 양성(False Positive, FP): 예측은 양성(p)이지만 실제 값은 음성(n)인 경우.
* 참 음성(True Negative, TN): 예측과 실제 값이 모두 음성(n)인 경우.
* 거짓 음성(False Negative, FN): 예측은 음성(n)이지만 실제 값은 양성(p)인 경우.

예를 들어, 어떤 사람이 특정 질병을 앓고 있는지 진단하는 검사를 생각해보자.

* 거짓 양성(FP): 검사 결과는 양성이지만 실제로는 질병이 없는 경우.
* 거짓 음성(FN): 검사 결과는 음성이지만 실제로는 질병을 앓고 있는 경우.

어떤 조건에 대해 P개의 양성 인스턴스와 N개의 음성 인스턴스가 있는 실험에서, 네 가지 결과는 2×2 대응표(contingency table) 또는 혼동 행렬(confusion matrix)로 나타낼 수 있다.

👆

좌우로 밀어서 보기

	예측: 양성	예측: 음성
실제: 양성	참 양성(TP)	거짓 음성(FN)
실제: 음성	거짓 양성(FP)	참 음성(TN)

오른쪽 그림 위는 어떤 질환에 대한 특정 검사 결과의 분포를 음성자(파란색)와 양성자(빨간색) 별로 나타낸 것이다. 이 예시에서는 음성자가 전체적으로 검사 결과가 작은 값을 보인다. 임계값을 정하고, 그 값 이상인 경우 양성, 그렇지 않으면 음성으로 판정한다.

* 참 음성(TN): 음성자를 음성으로 판정
* 거짓 양성(FP): 음성자를 양성으로 판정
* 거짓 음성(FN): 양성자를 음성으로 판정
* 참 양성(TP): 양성자를 양성으로 판정

양성자를 제대로 양성으로 판정하는 비율을 민감도라고 하고, 음성자를 제대로 음성으로 판정하는 비율을 특이도라고 한다. 또한 1에서 특이도를 뺀 값(음성자 중 위양성이 되는 비율)을 위양성률이라고 한다.

가로축에 위양성률, 세로축에 민감도를 놓고, 임계값을 큰 값에서 작은 값으로 변화시키면 오른쪽 그림 아래와 같은 곡선이 그려진다. 이것을 ROC 곡선이라고 한다.

4. ROC 공간

ROC 공간은 가로축을 위양성률(FPR), 세로축을 민감도(TPR)로 정의하는 2차원 평면이다. ROC 공간에서 각 점은 특정 임계값에서의 분류 모델의 성능을 나타낸다. 왼쪽 하단 (0, 0)은 항상 음성으로 예측하는 경우, 오른쪽 상단 (1, 1)은 항상 양성으로 예측하는 경우를 나타낸다. 이상적인 분류기는 왼쪽 상단 (0, 1)에 위치하며, 이는 100% 민감도와 100% 특이도를 의미한다. (0, 1) 지점은 완벽한 분류라고도 불린다.

일반적으로 ROC 공간에서 왼쪽 하단으로 갈수록 '보수적'이며, 오른쪽 상단으로 갈수록 '모험적'이다. 붉은 대각선은 무작위적 추정치를 나타낸다. 예를 들어 구분자가 90% 확률로 "있음"이라고 추정한다면, 90%의 확률로 "있음"을 맞추게 되지만 동시에 위양성률도 90%가 된다. 무작위 추정은 ROC 공간에서 (0, 0)과 (1, 1)을 잇는 대각선으로 표현된다. 이 대각선은 분류 성능이 무작위 추정과 같음을 의미한다. ROC 곡선이 대각선보다 위에 있을수록 모델의 성능이 더 우수하다. 대각선 위의 점은 좋은 분류 결과(무작위보다 좋음)를 나타내고, 선 아래의 점은 나쁜 결과(무작위보다 나쁨)를 나타낸다.

100개의 양성 인스턴스와 100개의 음성 인스턴스에서 나온 네 가지 예측 결과 A, B, C, C′는 다음과 같다.

👆

좌우로 밀어서 보기

👆

좌우로 밀어서 보기


A	B	C	C′
혼동 행렬

TP = 63	FN = 37	100
FP = 28	TN = 72	100
91	109	200

👆

좌우로 밀어서 보기

TP = 77	FN = 23	100
FP = 77	TN = 23	100
154	46	200

👆

좌우로 밀어서 보기

TP = 24	FN = 76	100
FP = 88	TN = 12	100
112	88	200

👆

좌우로 밀어서 보기

TP = 76	FN = 24	100
FP = 12	TN = 88	100
88	112	200

평가 지표TPR = 0.63TPR = 0.77TPR = 0.24TPR = 0.76FPR = 0.28FPR = 0.77FPR = 0.88FPR = 0.12PPV = 0.69PPV = 0.50PPV = 0.21PPV = 0.86F1 = 0.66F1 = 0.61F1 = 0.23F1 = 0.81ACC = 0.68ACC = 0.50ACC = 0.18ACC = 0.82

방법 A의 결과는 A, B, C 중에서 가장 좋은 예측력을 보여준다. B의 결과는 무작위 추측 선(대각선)에 있으며, B의 정확도는 50%이다. 그러나 C를 중심점 (0.5, 0.5)을 중심으로 미러링하면 결과 방법 C′이 A보다 훨씬 더 좋다. 원래 C 방법은 음의 예측력을 갖지만, 결정을 단순히 반전하면 양의 예측력을 갖는 새로운 예측 방법 C′으로 이어진다.

5. ROC 곡선

ROC 곡선은 신호 탐지 분석에서 얻어진 자료에 대한 민감도와 반응 편향의 결합 효과를 이해하는 데 유용하다. 이 곡선은 수용자의 신호 탐지에 있어서 특성을 나타내며, 휘어진 정도는 신호 탐지의 민감도를 나타낸다. 만약 관찰자의 민감도가 크면 곡선은 왼쪽 위로 굽게 된다.

이진 분류에서 각 인스턴스에 대한 클래스 예측은 종종 인스턴스에 대해 계산된 연속 확률 분포를 기반으로 이루어진다. 예를 들어, 질병이 있는 사람과 건강한 사람의 혈액 단백질 수준이 각각 평균 2 g/dL 및 1 g/dL인 정규 분포를 따른다고 가정해 보자. 의료 검사는 혈액 샘플에서 특정 단백질의 수준을 측정하고 특정 임계값 이상의 모든 숫자를 질병을 나타내는 것으로 분류할 수 있다.

--

위 그림에서 음성자(파란색)는 전체적으로 검사 결과가 작은 값을 나타낸다. 임계값을 정하고, 그 값 이상인 경우 양성, 그렇지 않으면 음성이라고 한다.

* [[진음성]] (True Negative): 음성자를 음성으로 판정
* [[위양성]] (False Positive): 음성자를 양성으로 판정
* [[위음성]] (False Negative): 양성자를 음성으로 판정
* [[진양성]] (True Positive): 양성자를 양성으로 판정

양성자를 제대로 양성으로 포착하는 비율을 민감도 (sensitivity), 음성자를 제대로 음성으로 판단하는 비율을 특이도 (specificity)라고 부른다. 또한 1-특이도(= 음성자 중 위양성이 되는 비율)를 위양성률이라고 부른다.

가로축에 위양성률, 세로축에 민감도를 플롯하고, 임계값을 변화시키면 위와 같은 ROC 곡선이 그려진다. 처음에는 민감도가 올라가고, 늦게 위양성도가 올라간다. 최종적으로는 민감도와 위양성도 모두 100%가 된다. 검사가 유효하다면, 이 곡선은 45°의 선에서 왼쪽 위로 벗어난다. 벗어날수록, 검사로서 유효하다.

ROC 곡선 아래의 면적을 AUC (Area Under the Curve)라고 부르며, 분류 모델의 평가 지표로 사용된다. AUC가 1일 때가 최량이며, 무작위로 전혀 무효한 모델에서는 0.5가 된다. AUC는 C 통계량과 같다.

6. 곡선 아래 면적 (AUC: Area Under the Curve)

ROC 곡선 아래 면적(Area Under the Curve, AUC)은 ROC 곡선의 성능을 하나의 숫자로 요약하는 지표이다. AUC는 0과 1 사이의 값을 가지며, 1에 가까울수록 모델의 성능이 우수함을 의미한다. AUC는 무작위로 선택된 양성 샘플이 무작위로 선택된 음성 샘플보다 더 높은 예측값을 가질 확률로 해석될 수 있다. 즉, 분류기가 양성과 음성을 얼마나 잘 구별하는지를 나타낸다.

AUC는 만-휘트니 U 검정 통계량과 밀접하게 관련되어 있으며, 머신러닝에서 모델 비교를 위해 자주 사용된다. AUC가 0.5이면 무작위 추정과 동일한 성능을, 1이면 완벽한 성능을 나타낸다.

신용 점수 분야에서는 AUC를 재조정한 지니 계수(Gini coefficient,

G_1 = 2 \operatorname{AUC} - 1

)를 사용하기도 한다.

AUC는 원래 레이더 기술에서 잡음 속 적기를 탐지하는 수신자의 특성을 측정하기 위해 개발되었으며, 현재는 임상 검사 등 다양한 분야에서 활용되고 있다.

6.1. AUC의 한계 및 비판

몇몇 연구에서는 이진 분류를 평가하는 척도로서 ROC 곡선과 그 곡선 아래 영역(AUC)의 특정 응용 프로그램이 해당 응용 프로그램과 관련된 정보를 포착하지 못한다고 비판한다.

이러한 연구에서 설명된 ROC 곡선에 대한 주요 비판은 전체 AUC를 계산하기 위해 민감도와 특이도가 낮은 영역(둘 다 0.5 미만)을 통합한다는 점이다.

이 연구 저자들에 따르면, 곡선 아래 영역의 해당 부분(민감도와 특이도가 낮은 부분)은 이진 예측이 좋지 않은 결과를 얻는 혼동 행렬과 관련이 있으므로 전반적인 성능 평가에 포함되어서는 안 된다. 또한, AUC의 해당 부분은 어떤 분야에서든 이진 분류를 수행하는 과학자에게는 거의 관심이 없는 높은 또는 낮은 혼동 행렬 임계값을 가진 공간을 나타낸다.

ROC 곡선과 AUC에 대한 또 다른 비판은 정밀도와 음성 예측 값에 대해 아무것도 알려주지 않는다는 것이다. 예를 들어, 0.9와 같은 높은 ROC AUC는 [0, 1] 범위에서 0.2와 0.1과 같은 낮은 정밀도와 음성 예측 값에 해당할 수 있다. 만약 이진 분류 결과 0.9의 ROC AUC를 얻었고 이 지표에만 집중한다면, 이진 검사가 훌륭하다고 지나치게 낙관할 수 있다. 그러나 정밀도와 음성 예측 값의 값을 살펴본다면, 해당 값이 낮다는 것을 발견할 수 있다.

ROC AUC는 민감도와 특이도를 요약하지만 정밀도와 음성 예측 값에 대해서는 알려주지 않는다.

7. 다중 클래스 분류

다중 클래스 분류 문제에서 ROC 곡선을 확장하는 것은 간단하지 않다. 여러 클래스가 있을 때 흔히 사용되는 두 가지 접근 방식은 (1) 모든 쌍별 AUC 값의 평균과 (2) 표면 아래 부피(VUS)를 계산하는 것이다.

모든 쌍별 클래스에 대해 평균을 구하려면, 다른 클래스가 없는 것처럼 해당 두 클래스의 예제만 사용하여 각 클래스 쌍에 대한 AUC를 계산한 다음, 모든 가능한 쌍에 대해 이러한 AUC 값을 평균한다. c개의 클래스가 있으면 c(c − 1) / 2개의 가능한 클래스 쌍이 존재한다.

표면 아래 부피(VUS) 접근 방식은 곡선 대신 초곡면을 그리고 해당 초곡면 아래의 초부피를 측정하는 것이다. c개의 클래스에 대한 분류기에 사용할 수 있는 모든 가능한 결정 규칙은 참 양성률 (TPR¹, . . , TPR^c)로 설명할 수 있다. 이 일련의 비율이 점을 정의하고, 모든 가능한 결정 규칙의 집합은 초곡면을 정의하는 점들의 구름을 생성한다.

이 정의를 사용하면 VUS는 분류기가 각 클래스에서 무작위로 선택된 예제 하나씩을 가진 집합이 주어졌을 때 모든 c개의 예제를 올바르게 레이블링할 수 있는 확률이다. 각 클래스에서 예제 하나로 구성된 입력 집합을 알고 있는 분류기의 구현은 먼저 각 클래스에 대한 예제의 c²개의 가능한 쌍에 대한 적합도 점수를 계산한 다음, 헝가리안 알고리즘을 사용하여 각 클래스에 정확히 하나의 예제를 할당하는 모든 c!개의 가능한 방법 중에서 c개의 선택된 점수의 합을 최대화할 수 있다.

8. z-점수 (z-score)

표준 점수를 ROC 곡선에 적용하면 곡선은 직선으로 변환된다. 이 z-점수는 평균이 0이고 표준 편차가 1인 정규 분포를 기반으로 한다. 기억 강도 이론에서 zROC는 선형일 뿐만 아니라 기울기가 1.0이라고 가정해야 한다. 대상(피험자가 기억해야 하는 학습된 객체)과 미끼(피험자가 기억하려고 시도하는 학습되지 않은 객체)의 정규 분포가 zROC를 선형으로 만드는 요인이다.

zROC 곡선의 선형성은 대상과 미끼 강도 분포의 표준 편차에 따라 달라진다. 표준 편차가 같으면 기울기는 1.0이 된다. 대상 강도 분포의 표준 편차가 미끼 강도 분포의 표준 편차보다 크면 기울기는 1.0보다 작아진다. 대부분의 연구에서 zROC 곡선 기울기는 지속적으로 1 아래로 떨어지는 것으로 나타났으며, 일반적으로 0.5에서 0.9 사이이다. 많은 실험에서 zROC 기울기가 0.8로 나타났다. 기울기가 0.8이라는 것은 대상 강도 분포의 가변성이 미끼 강도 분포의 가변성보다 25% 더 크다는 것을 의미한다.

사용되는 또 다른 변수는 d' (d 프라임) (위에 "기타 척도"에서 논의)이며, z-값으로 쉽게 표현할 수 있다. d' 는 일반적으로 사용되는 매개변수이지만, 이는 위에 제시된 강도 이론의 매우 강력한 가정을 엄격히 준수할 때만 관련이 있다는 점을 인식해야 한다.

ROC 곡선의 z-점수는 특별한 경우를 제외하고는 항상 선형으로 가정된다. Yonelinas 친숙도-회상 모델은 인식 기억에 대한 2차원 설명이다. 피험자는 특정 입력에 대해 단순히 예 또는 아니오로 대답하는 대신, 원래 ROC 곡선처럼 작동하는 친숙한 느낌을 입력에 제공한다. 하지만 변하는 것은 회상(R)에 대한 매개변수이다. 회상은 전부 또는 전무한 것으로 간주되며 친숙함보다 우선한다. 회상 구성 요소가 없으면 zROC의 예상 기울기는 1이 된다. 그러나 회상 구성 요소를 추가하면 zROC 곡선은 위로 오목하게 되어 기울기가 감소한다. 이러한 모양과 기울기의 차이는 일부 항목이 회상되기 때문에 추가된 변동 요소의 결과이다. 전향성 기억 상실증 환자는 회상할 수 없으므로 Yonelinas zROC 곡선은 1.0에 가까운 기울기를 갖는다.

수신자 조작 특성

개요

이름	수신자 조작 특성 (受信者操作特性, Receiver Operating Characteristic)
약자	ROC
유형	이진 분류기 진단 도구

목적

주요 목적	이진 분류기의 성능 시각화 및 평가
활용	임계값 설정에 따른 분류 성능 변화 분석 다양한 분류기 모델 간의 성능 비교 최적의 분류 모델 선택

구성 요소

축	X축: 특이도 (Specificity) 또는 위양성률 (False Positive Rate, FPR) (1 - 특이도) Y축: 민감도 (Sensitivity) 또는 진양성률 (True Positive Rate, TPR)
곡선	ROC 곡선 (ROC curve): 다양한 임계값에서 FPR과 TPR의 변화를 나타내는 그래프
AUC	AUC (Area Under the Curve): ROC 곡선 아래 면적으로, 분류기의 전반적인 성능을 나타내는 지표 (1에 가까울수록 좋음)

해석

AUC 값	0.5: 무작위 분류기와 동일한 성능 0.7 ~ 0.8: 준수한 성능 0.8 ~ 0.9: 좋은 성능 0.9 이상: 매우 우수한 성능
곡선 형태	좌상단에 가까울수록 좋은 성능 (민감도와 특이도가 모두 높음) 대각선에 가까울수록 낮은 성능

장점

임계값 독립적	임계값 설정에 관계없이 분류기의 고유한 성능을 평가 가능
시각적 표현	직관적인 그래프를 통해 성능을 쉽게 이해 가능
모델 비교	다양한 분류기 모델의 성능을 객관적으로 비교 가능

단점

불균형 데이터	데이터 불균형이 심할 경우, AUC 값이 높게 나타날 수 있음 (주의 필요)
비용 고려 불가	오분류에 따른 비용을 고려하지 않음

활용 분야

의학 진단	질병 진단 모델의 성능 평가
신용 평가	신용 위험 평가 모델의 성능 평가
스팸 필터링	스팸 메일 분류 모델의 성능 평가
자연어 처리	텍스트 분류 모델의 성능 평가