다중 클래스 분류

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

다중 클래스 분류는 둘 이상의 클래스 중 하나로 샘플을 분류하는 기계 학습 문제이다. 기존의 다중 클래스 분류 기법은 이진 분류로의 변환, 이진 분류로부터의 확장, 그리고 계층적 분류로 분류할 수 있다. 이진 분류로의 변환에는 '일대다' 방식과 '일대일' 방식이 있으며, 이진 분류기를 확장하여 다중 클래스 문제를 해결하는 전략으로는 신경망, k-최근접 이웃, 나이브 베이즈, 결정 트리, 서포트 벡터 머신 등이 있다. 또한, 다중 클래스 분류 기술은 학습 패러다임에 따라 배치 학습, 온라인 학습, 프로그래시브 학습으로 분류할 수 있으며, 다중 클래스 분류 시스템의 성능은 정확도 또는 매크로 F1 점수 등의 평가 지표를 사용하여 평가한다.

다중 클래스 분류

개요

분야	통계적 분류
유형	지도 학습
설명	여러 클래스 간의 구분을 다룸

세부 사항

관련 항목	이진 분류 다중 레이블 분류

📚 더 읽어볼만한 페이지

통계적 분류 - 서포트 벡터 머신
통계적 분류 - 민감도와 특이도
민감도와 특이도는 의학적 진단에서 검사의 정확성을 평가하는 지표로, 민감도는 실제 양성인 대상 중 양성으로 나타나는 비율, 특이도는 실제 음성인 대상 중 음성으로 나타나는 비율을 의미하며, 선별 검사에서 두 지표를 모두 높여 질병을 정확하게 진단하는 것을 목표로 한다.
토막글 틀에 과도한 변수를 사용한 문서 - 전향
전향은 종교적 개종이나 노선 변경을 의미하며, 근대 이후 정치적 이념 변화를 지칭하는 용어로 확장되어 개인의 신념 변화, 정치적 압력 등 다양한 요인으로 발생하며, 사회주의·공산주의로부터의 전향, 전향 문학, 냉전 시대 이후의 전향 현상 등을 폭넓게 논의한다.
토막글 틀에 과도한 변수를 사용한 문서 - 포토마스크
포토마스크는 반도체, 디스플레이, 인쇄 회로 기판 제조 시 웨이퍼에 회로 패턴을 전사하는 마스크로, 기술 발전을 거듭하며 융용 실리카 기판과 금속 흡수막을 사용하고 위상 천이 마스크, EUV 마스크 등의 고급 기술이 개발되어 반도체 미세화에 기여하고 있지만, 높은 제작 비용과 기술적 어려움은 해결해야 할 과제이다.
토론 이름공간 토막글 - 전향
전향은 종교적 개종이나 노선 변경을 의미하며, 근대 이후 정치적 이념 변화를 지칭하는 용어로 확장되어 개인의 신념 변화, 정치적 압력 등 다양한 요인으로 발생하며, 사회주의·공산주의로부터의 전향, 전향 문학, 냉전 시대 이후의 전향 현상 등을 폭넓게 논의한다.
토론 이름공간 토막글 - 포토마스크
포토마스크는 반도체, 디스플레이, 인쇄 회로 기판 제조 시 웨이퍼에 회로 패턴을 전사하는 마스크로, 기술 발전을 거듭하며 융용 실리카 기판과 금속 흡수막을 사용하고 위상 천이 마스크, EUV 마스크 등의 고급 기술이 개발되어 반도체 미세화에 기여하고 있지만, 높은 제작 비용과 기술적 어려움은 해결해야 할 과제이다.

1. 개요
2. 일반적인 전략
3. 학습 패러다임
4. 평가

2. 일반적인 전략

기존의 다중 클래스 분류 기법은 크게 이진 분류로의 변환, 이진 분류로부터의 확장, 계층적 분류로 나눌 수 있다.

* 이진 분류로의 변환: 다중 클래스 문제를 여러 개의 이진 분류 문제로 바꾸어 해결하는 방식이다. 일대다 방식과 일대일 방식이 대표적이며, 문제 변환 기법이라고도 한다.
* 이진 분류로부터의 확장: 신경망, 의사 결정 트리, k-최근접 이웃, 나이브 베이즈, 서포트 벡터 머신 등 이진 분류 알고리즘을 확장하여 다중 클래스 문제를 해결하는 방식이다. 알고리즘 적응 기술이라고도 한다.
* 계층적 분류: 출력 공간을 트리 형태로 나누어 다중 클래스 문제를 해결하는 방식이다. 각 상위 노드는 여러 하위 노드로 분할되며, 이 과정은 각 하위 노드가 하나의 클래스만을 나타낼 때까지 반복된다.

2.1. 이진 분류로의 변환

다중 클래스 분류 문제를 여러 개의 이진 분류 문제로 변환하는 방법에는 '하나 대 나머지'와 '하나 대 하나' 방식이 있다. 이러한 방식을 통해 다중 클래스 문제를 다수의 이진 문제로 단순화하는 기법을 문제 변환 기법이라고 한다.

2.1.1. 일대다 (One-vs.-rest)

일대다 (One-vs.-rest, OvR 또는 One-vs.-all, OvA 또는 One-against-all, OAA) 전략은 각 클래스마다 하나의 분류기를 훈련시키는 것이다. 해당 클래스의 샘플을 양성 샘플로, 다른 모든 샘플을 음성 샘플로 사용한다. 이 전략은 기본 분류기가 클래스 레이블뿐만 아니라 실수 값 점수를 생성해야 한다(스코어링 규칙 참조). 개별 클래스 레이블만으로는 모호성이 발생하여 단일 샘플에 대해 여러 클래스가 예측될 수 있다.

의사 코드에서 이진 분류 학습기 L^영어에서 구성된 OvR 학습기의 훈련 알고리즘은 다음과 같다.

* 입력:
* L^영어 학습기 (이진 분류기에 대한 훈련 알고리즘)
* 샘플 X^영어
* 레이블 y^영어: 여기서 y{{sub^영어 ∈ {1, …, K^영어}는 샘플 X{{sub^영어에 대한 레이블이다.
* 출력:
* 분류기의 목록 f{{sub^영어 for k^영어 ∈ {1, …, K^영어}
* 절차:
* {1, …, K^영어}의 각 k^영어에 대해
* 새로운 레이블 벡터 z^영어를 생성한다. 여기서 z{{sub^영어 = y{{sub^영어 if y{{sub^영어 = k^영어 이고, 그렇지 않은 경우 z{{sub^영어 = 0 이다.
* X^영어, z^영어에 L^영어을 적용하여 f{{sub^영어를 얻는다.

결정을 내린다는 것은 모든 분류기를 보이지 않는 샘플 x^영어에 적용하고 해당 분류기가 가장 높은 신뢰 점수를 보고하는 레이블 k^영어를 예측하는 것을 의미한다.

: $\hat{y} = \underset{k \in \{1 \ldots K\}}{\arg\!\max}\; f_k(x)$

이 전략은 널리 사용되지만 여러 문제점을 겪는 휴리스틱이다. 첫째, 신뢰 값의 척도가 이진 분류기 간에 다를 수 있다. 둘째, 클래스 분포가 훈련 세트에서 균형을 이루더라도 이진 분류 학습기는 불균형한 분포를 보인다. 일반적으로 음성의 집합이 양성의 집합보다 훨씬 크기 때문이다.

2.1.2. 일대일 (One-vs.-one)

일대일(One-vs.-one) 축소 방법은 K-방향 다중 클래스 문제에 대해 K(K-1)/2개의 이진 분류기를 훈련한다. 각 분류기는 원래 훈련 세트에서 한 쌍의 클래스에 대한 샘플을 받아서 이 두 클래스를 구별하는 법을 배운다. 예측 시에는 투표 방식을 적용한다. 모든 K(K-1)/2개의 분류기가 보이지 않는 샘플에 적용되며, 가장 많은 "+1" 예측을 받은 클래스가 결합된 분류기에 의해 예측된다.

일대일 방법은 일대다(OvR) 방법과 마찬가지로 입력 공간의 일부 영역이 동일한 수의 투표를 받을 수 있다는 모호성을 겪는다.

2.2. 이진 분류로부터의 확장

신경망, 의사 결정 트리, k-최근접 이웃, 나이브 베이즈, 서포트 벡터 머신, 극단적 학습 기계 등 여러 알고리즘이 이진 분류기를 확장하여 다중 클래스 분류 문제를 해결하도록 개발되었다. 이러한 기술을 알고리즘 적응 기술이라고도 한다.

2.2.1. 신경망 (Neural Networks)

다중 클래스 퍼셉트론은 다중 클래스 문제에 대한 자연스러운 확장 기능을 제공한다. 이진 출력을 갖는 출력 계층에 하나의 뉴런만 있는 대신, N개의 이진 뉴런을 사용하여 다중 클래스 분류를 수행할 수 있다. 실제로 신경망의 마지막 계층은 일반적으로 소프트맥스 함수 계층이며, 이는 N개의 로지스틱 분류기를 N-1개의 다른 로지스틱 분류기의 합으로 클래스별로 정규화한 대수적 단순화이다. 신경망 기반 분류는 획기적인 개선을 가져왔고, 다양한 관점에서 사고할 수 있는 여지를 제공했다.

2.2.2. k-최근접 이웃 (k-Nearest Neighbors)

k-최근접 이웃(kNN)은 가장 오래된 비모수적 분류 알고리즘 중 하나로 여겨진다. 알려지지 않은 예제를 분류하기 위해 해당 예제에서 다른 모든 훈련 예제까지의 거리를 측정한다. k개의 가장 작은 거리를 식별하고, 이 k개의 최근접 이웃에 의해 가장 많이 표현되는 클래스가 출력 클래스 레이블로 간주된다.

2.2.3. 나이브 베이즈 (Naive Bayes)

나이브 베이즈 분류기는 최대 사후 확률(MAP) 원리에 기반한 분류기이다. 이 접근 방식은 2개 이상의 클래스를 갖는 경우로 자연스럽게 확장 가능하며, 조건부 독립이라는 단순화된 가설에도 불구하고 좋은 성능을 보이는 것으로 나타났다.

2.2.4. 결정 트리 (Decision Trees)

의사 결정 트리 학습은 강력한 분류 기법이다. 이 트리는 일반화를 잘 수행하기 위해 사용 가능한 특징의 값을 기반으로 훈련 데이터를 분할하려고 시도한다. 이 알고리즘은 이진 또는 다중 클래스 분류 문제를 자연스럽게 처리할 수 있다. 리프 노드는 관련된 K개의 클래스 중 하나를 참조할 수 있다.

2.2.5. 서포트 벡터 머신 (Support Vector Machines)

서포트 벡터 머신은 마진, 즉 분리 초평면에서 가장 가까운 예제까지의 최소 거리를 최대화한다는 아이디어를 기반으로 한다. 기본 SVM은 이진 분류만 지원하지만, 다중 클래스 분류 사례도 처리할 수 있도록 확장되었다. 이러한 확장에서는 서로 다른 클래스를 분리하기 위해 최적화 문제에 추가 매개변수와 제약 조건이 추가된다.

2.2.6. 다중 표현 프로그래밍 (Multi Expression Programming)

다중 표현 프로그래밍(MEP)은 컴퓨터 프로그램을 생성하기 위한 진화 알고리즘이다(분류 작업에도 사용할 수 있다). MEP는 하나의 염색체에 여러 개의 프로그램을 인코딩한다는 고유한 특징을 가지고 있다. 이러한 각 프로그램은 클래스에 대한 출력을 생성하는 데 사용될 수 있으며, 따라서 MEP는 다중 클래스 분류 문제를 해결하는 데 자연스럽게 적합하다.

2.3. 계층적 분류 (Hierarchical Classification)

계층적 분류는 출력 공간을 트리로 분할하여 다중 클래스 분류 문제를 해결한다. 각 상위 노드는 여러 하위 노드로 분할되며, 각 하위 노드가 하나의 클래스만 나타낼 때까지 이 과정이 계속된다. 계층적 분류를 기반으로 하는 여러 방법이 제안되었다.

3. 학습 패러다임

학습 패러다임에 따라, 기존의 다중 클래스 분류 기술은 배치 학습과 온라인 학습으로 분류할 수 있다. 배치 학습 알고리즘은 모든 데이터 샘플을 미리 사용할 수 있어야 한다. 전체 훈련 데이터를 사용하여 모델을 훈련한 다음, 발견된 관계를 사용하여 테스트 샘플을 예측한다. 반면에 온라인 학습 알고리즘은 순차적인 반복을 통해 점진적으로 모델을 구축한다. 반복 t에서 온라인 알고리즘은 샘플 x_t를 수신하고 현재 모델을 사용하여 레이블 ŷ_t를 예측한다. 그런 다음 알고리즘은 x_t의 실제 레이블인 y_t를 수신하고 샘플-레이블 쌍 (x_t, y_t)을 기반으로 모델을 업데이트한다. 최근에는 프로그래시브 학습 기술이라고 하는 새로운 학습 패러다임이 개발되었다. 프로그래시브 학습 기술은 새로운 샘플로부터 학습할 수 있을 뿐만 아니라, 새로운 데이터 클래스를 학습하면서 지금까지 학습한 지식을 유지할 수 있다.

4. 평가

다중 클래스 분류 시스템의 성능은 종종 시스템의 예측과 기준 레이블을 비교하여 평가 지표를 통해 평가된다. 일반적인 평가 지표는 정확도 또는 매크로 F1 점수이다.