혼동 행렬

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 혼동 행렬의 개념
- 2.1. 이진 분류 혼동 행렬
- 2.2. 다중 클래스 혼동 행렬
3. 혼동 행렬의 예시
4. 혼동 행렬 관련 지표
- 4.1. 각 지표의 의미와 중요성
5. 혼동 행렬의 활용 및 주의사항
- 5.1. 데이터 불균형 문제
참조

1. 개요

혼동 행렬은 예측 분석에서 분류 모델의 성능을 평가하기 위해 사용되는 2x2 표이다. 실제 값과 예측 값의 조합을 진양성, 거짓 음성, 거짓 양성, 진음성으로 나타내며, 이진 분류뿐 아니라 다중 클래스 분류에도 적용된다. 데이터 불균형 문제에 유의하여 정확도 외 다른 지표들을 함께 고려해야 한다.

더 읽어볼만한 페이지

통계적 분류 - 서포트 벡터 머신
서포트 벡터 머신(SVM)은 지도 학습 모델로서 분류와 회귀 분석에 사용되며, 데이터 집합을 기반으로 새로운 데이터의 범주를 판단하는 비확률적 이진 선형 분류 모델을 생성하고, 커널 트릭을 통해 비선형 분류에도 활용될 수 있다.
통계적 분류 - 민감도와 특이도
민감도와 특이도는 의학적 진단에서 검사의 정확성을 평가하는 지표로, 민감도는 실제 양성인 대상 중 양성으로 나타나는 비율, 특이도는 실제 음성인 대상 중 음성으로 나타나는 비율을 의미하며, 선별 검사에서 두 지표를 모두 높여 질병을 정확하게 진단하는 것을 목표로 한다.
기계 학습 - 비지도 학습
비지도 학습은 레이블이 없는 데이터를 통해 패턴을 발견하고 데이터 구조를 파악하는 것을 목표로 하며, 주성분 분석, 군집 분석, 차원 축소 등의 방법을 사용한다.
기계 학습 - 지도 학습
지도 학습은 레이블된 데이터를 사용하여 입력 데이터와 출력 레이블 간의 관계를 학습하는 기계 학습 분야로, 예측 모델 생성, 알고리즘 선택, 모델 최적화, 정확도 평가 단계를 거치며, 회귀 및 분류 문제에 적용되고 다양한 확장 기법과 성능 평가 방법을 활용한다.

혼동 행렬
개요
다른 이름	오류 행렬, 분류 행렬
정의	분류 모델의 성능을 시각화하는 표
용도	머신러닝에서 분류기의 성능 분석 및 평가
구성 요소	참 긍정 (True Positive, TP) 참 부정 (True Negative, TN) 거짓 긍정 (False Positive, FP) 거짓 부정 (False Negative, FN)
측정 지표
정확도 (Accuracy)	전체 샘플 중 정확하게 예측된 샘플의 비율
정밀도 (Precision)	긍정으로 예측된 샘플 중 실제 긍정 샘플의 비율
재현율 (Recall)	실제 긍정 샘플 중 긍정으로 정확하게 예측된 샘플의 비율
F1 점수 (F1 Score)	정밀도와 재현율의 조화 평균
활용 분야
머신러닝	분류 모델 성능 평가 및 개선
통계	가설 검정 및 데이터 분석
정보 검색	검색 시스템 성능 평가
의료 진단	질병 진단 정확도 평가

2. 혼동 행렬의 개념

분류 모델의 성능을 평가할 때 사용되는 혼동 행렬은 모델의 예측 결과와 실제 값을 비교하여 한눈에 파악할 수 있도록 돕는 도구이다. 특히, 이진 분류 문제에서 유용하게 활용되지만, 다중 클래스 분류 문제에도 적용 가능하다.

혼동 행렬은 다음과 같은 방식으로 이해할 수 있다. 예를 들어, 암 진단 여부를 예측하는 문제를 생각해보자.

실제 분류: 12명의 사람 중 8명은 실제로 암(양성, 클래스 1)을 가지고 있고, 4명은 암이 없다(음성, 클래스 0).

개인 번호	1	2	3	4	5	6	7	8	9	10	11	12
실제 분류	1	1	1	1	1	1	1	1	0	0	0	0

예측 분류: 어떤 분류기를 통해 12명을 분류한 결과, 9명은 정확하게 예측했지만 3명은 잘못 예측했다. 암이 있는 2명(샘플 1, 2)을 암이 없다고 예측했고, 암이 없는 1명(샘플 9)을 암이 있다고 예측했다.

개인 번호	1	2	3	4	5	6	7	8	9	10	11	12
실제 분류	1	1	1	1	1	1	1	1	0	0	0	0
예측 분류	0	0	1	1	1	1	1	1	1	0	0	0

이러한 예측 결과는 다음과 같은 네 가지 경우의 수로 나눌 수 있다.

진양성(TP): 실제로 암이 있고, 예측도 암인 경우.
거짓 음성(FN): 실제로 암이 있지만, 예측은 암이 없는 경우.
거짓 양성(FP): 실제로 암이 없지만, 예측은 암인 경우.
진음성(TN): 실제로 암이 없고, 예측도 암이 없는 경우.

위의 표를 정리하여 예측 결과에 따른 분류를 추가하면 다음과 같다.

개인 번호	1	2	3	4	5	6	7	8	9	10	11	12
실제 분류	1	1	1	1	1	1	1	1	0	0	0	0
예측 분류	0	0	1	1	1	1	1	1	1	0	0	0
결과	거짓 음성	거짓 음성	진양성	진양성	진양성	진양성	진양성	진양성	거짓 양성	진음성	진음성	진음성

이러한 혼동 행렬은 예측 분석에서 모델의 성능을 평가하고 개선하는 데 중요한 정보를 제공한다.

2. 1. 이진 분류 혼동 행렬

이진 분류 혼동 행렬은 예측 결과와 실제 값을 기준으로 4가지 경우의 수를 나타낸다. 이 4가지 경우의 수는 다음과 같다.

진양성(True Positive, TP): 실제 값이 양성이고 예측 결과도 양성인 경우.
거짓 음성(False Negative, FN): 실제 값은 양성이지만 예측 결과는 음성인 경우.
거짓 양성(False Positive, FP): 실제 값은 음성이지만 예측 결과는 양성인 경우.
진음성(True Negative, TN): 실제 값이 음성이고 예측 결과도 음성인 경우.

이 4가지 경우의 수를 2x2 행렬 형태로 나타낸 것이 이진 분류 혼동 행렬이다.

rowspan="2" style="border:none;" \|	style="border:none;" \|	예측된 상태
전체 모집단	양성	음성
실제 상태	양성	진양성 (TP)	거짓 음성 (FN)
실제 상태	음성	거짓 양성 (FP)	진음성 (TN)
^출처:^[4]^[5]^[6]^[7]^[8]^[9]^[10]

예를 들어, 12명의 사람들을 대상으로 암 진단 여부를 예측하는 분류기가 있다고 가정하자. 실제 암 환자는 8명(양성), 암이 아닌 사람은 4명(음성)이다. 분류 결과, 9개는 정확하게 예측했고 3개는 틀렸다. 암 환자 2명을 암이 아니라고 잘못 예측했고(거짓 음성), 암이 아닌 사람 1명을 암이라고 잘못 예측했다(거짓 양성).

개인 번호	1	2	3	4	5	6	7	8	9	10	11	12
실제 분류	1	1	1	1	1	1	1	1	0	0	0	0
예측 분류	0	0	1	1	1	1	1	1	1	0	0	0
결과	거짓 음성	거짓 음성	진양성	진양성	진양성	진양성	진양성	진양성	거짓 양성	진음성	진음성	진음성

이를 혼동 행렬로 나타내면 다음과 같다.

rowspan="2" style="border:none;" \|	style="border:none;" \|	예측된 상태
합계: 12	암 (7)	비암 (5)
실제 상태	암 (8)	6	2
실제 상태	비암 (4)	1	3

혼동 행렬에서 정확한 예측은 대각선에 표시되고, 대각선 밖의 값은 오류를 나타낸다. 따라서 혼동 행렬을 통해 예측 오류를 시각적으로 쉽게 확인할 수 있다.

2. 2. 다중 클래스 혼동 행렬

혼동 행렬은 이진 분류뿐만 아니라 클래스가 3개 이상인 다중 클래스 분류에서도 사용할 수 있다.^[16] 다음은 두 화자 간의 휘파람 언어 통신을 요약한 표이다. 5가지 모음에 대한 예측 결과와 실제 값을 비교하여 나타내며, 명확성을 위해 값이 0인 셀은 생략되었다.^[12]^[17]

	i	a	o	u
i	15	1
e	1	1
a		79	5
o		4	15	3
u			2	2

이진 분류 혼동 행렬과 마찬가지로, 대각선에 위치한 값은 올바르게 예측된 경우를 나타내고, 대각선 밖에 위치한 값은 잘못 예측된 경우를 나타낸다.

3. 혼동 행렬의 예시

7비암
5rowspan="2"암
862비암
413

개인 번호	1	2	3	4	5	6	7	8	9	10	11	12
실제 분류	1	1	1	1	1	1	1	1	0	0	0	0
예측 분류	0	0	1	1	1	1	1	1	1	0	0	0
결과	style=background:#ffdddd \|	style=background:#ffdddd \|	style=background:#ccffcc \|	style=background:#ccffcc \|	style=background:#ccffcc \|	style=background:#ccffcc \|	style=background:#ccffcc \|	style=background:#ccffcc \|	style=background:#ffcccc \|	style=background:#bbeebb \|	style=background:#bbeebb \|	style=background:#bbeebb \|

rowspan="2" style="border:none;" \|	style="border:none;" \|	예측된 상태
전체 모집단 = P + N	양성 (PP)	음성 (PN)
rowspan="2"	양성 (P)	TP	FN
음성 (N)	FP	TN
colspan="4" style="border:none;" \|

	고양이	고양이 이외
고양이	6 참 양성 (TP)	2 거짓 음성 (FN)
고양이 이외	1 거짓 양성 (FP)	3 참 음성 (TN)

	예측: 암	예측: 비암
실제: 암	6 (진양성)	2 (거짓 음성)
실제: 비암	1 (거짓 양성)	3 (진음성)

혼동 행렬

1. 개요

더 읽어볼만한 페이지

2. 혼동 행렬의 개념

2. 1. 이진 분류 혼동 행렬

2. 2. 다중 클래스 혼동 행렬

3. 혼동 행렬의 예시

4. 혼동 행렬 관련 지표

4. 1. 각 지표의 의미와 중요성

5. 혼동 행렬의 활용 및 주의사항

5. 1. 데이터 불균형 문제

참조

	양성	음성
양성	참 양성 (TP)	거짓 음성 (FN)
음성	거짓 양성 (FP)	참 음성 (TN)

	고양이	개
고양이	6	2
개	1	3