지도 학습

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 지도 학습의 정의 및 작동 방식
- 2.1. 훈련 단계와 일반화 단계
- 2.2. 변수의 명칭
3. 주요 과제
- 3.1. 회귀 (Regression)
- 3.2. 분류 (Classification)
  - 3.2.1. 회귀와 분류의 관계
4. 평가 방법
5. 편향-분산 트레이드오프 (Bias-Variance Tradeoff)
6. 지도 학습 알고리즘
7. 지도 학습의 응용
8. 일반적인 문제점
9. 일반화
참조

1. 개요

지도 학습은 입력 변수와 목표 변수 간의 관계를 모델링하는 기계 학습의 한 유형이다. 훈련 데이터를 기반으로 미지의 입력에 대한 예측을 수행하며, 훈련 샘플 유형 결정, 훈련 세트 수집, 특징 표현 결정, 학습 알고리즘 결정 및 평가 단계를 거친다. 주요 과제는 회귀와 분류이며, 회귀는 연속형 변수를, 분류는 범주형 변수를 예측한다. 편향-분산 트레이드오프는 지도 학습의 핵심 과제 중 하나로, 알고리즘의 유연성과 일반화 성능 사이의 균형을 맞추는 것을 의미한다. 서포트 벡터 머신, 선형 회귀 등 다양한 알고리즘이 존재하며, 생물정보학, 컴퓨터 비전 등 다양한 분야에 응용된다. 과적합, 귀납적 편향 등의 문제점이 있으며, 준지도 학습, 능동 학습 등으로 일반화될 수 있다.

더 읽어볼만한 페이지

통계학에 관한 - 비지도 학습
비지도 학습은 레이블이 없는 데이터를 통해 패턴을 발견하고 데이터 구조를 파악하는 것을 목표로 하며, 주성분 분석, 군집 분석, 차원 축소 등의 방법을 사용한다.
통계학에 관한 - 회귀 분석
회귀 분석은 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링하고 분석하는 통계적 기법으로, 최소 제곱법 개발 이후 골턴의 연구로 '회귀' 용어가 도입되어 다양한 분야에서 예측 및 인과 관계 분석에 활용된다.
컴퓨터에 관한 - N형 반도체
N형 반도체는 전자를 주된 전하 운반체로 사용하는 반도체이다.
컴퓨터에 관한 - CMOS
CMOS는 상보적 금속 산화막 반도체의 약자로, 저전력 소비를 특징으로 하며, P형과 N형 MOSFET을 결합하여 논리 게이트를 구현하는 디지털 회로 설계 방식 및 공정 계열이다.
기계 학습 - 비지도 학습
비지도 학습은 레이블이 없는 데이터를 통해 패턴을 발견하고 데이터 구조를 파악하는 것을 목표로 하며, 주성분 분석, 군집 분석, 차원 축소 등의 방법을 사용한다.
기계 학습 - 강화 학습
강화 학습은 에이전트가 환경과의 상호작용을 통해 누적 보상을 최대화하는 최적의 정책을 학습하는 기계 학습 분야이며, 몬테카를로 방법, 시간차 학습, Q-러닝 등의 핵심 알고리즘과 탐험과 활용의 균형, 정책 경사법 등의 다양한 연구 주제를 포함한다.

지도 학습
지도
개요
정의	기계 학습의 한 종류로, 입력 값과 그에 대한 원하는 출력 값을 함께 학습하여 새로운 입력에 대한 출력을 예측하는 방법이다.
학습 데이터	입력 데이터와 그에 대한 정답(레이블) 쌍으로 구성된 데이터셋을 사용한다.
주요 목표	학습된 모델을 사용하여 보지 못한 새로운 입력 데이터에 대해 정확한 출력을 예측하는 것이다.
학습 과정
데이터 준비	학습에 사용할 입력 데이터와 그에 대한 올바른 출력 값을 준비한다.
모델 선택	문제의 특성에 맞는 적절한 모델(알고리즘)을 선택한다. 선형 회귀, 로지스틱 회귀, 결정 트리, 서포트 벡터 머신, 인공 신경망 등 다양한 알고리즘이 사용된다.
모델 학습	준비된 학습 데이터를 이용하여 모델의 매개변수(파라미터)를 조정한다.
모델 평가	학습된 모델의 성능을 평가한다. 일반적으로 학습에 사용하지 않은 별도의 평가 데이터셋을 사용한다.
모델 개선	모델 평가 결과에 따라 모델을 개선한다. 매개변수 조정, 모델 변경, 추가 학습 데이터 활용 등 다양한 방법이 사용된다.
분류와 회귀
분류 (Classification)	주어진 입력 값을 미리 정의된 여러 클래스 중 하나로 분류하는 문제이다. 스팸 메일 분류, 이미지 인식, 의료 진단 등에 활용된다.
회귀 (Regression)	주어진 입력 값에 대한 연속적인 실수 값을 예측하는 문제이다. 주가 예측, 집값 예측, 날씨 예측 등에 활용된다.
주요 알고리즘
선형 회귀	입력 데이터와 출력 데이터 사이의 선형 관계를 모델링하는 알고리즘이다.
로지스틱 회귀	입력 데이터가 특정 클래스에 속할 확률을 예측하는 알고리즘이다. 주로 이진 분류 문제에 사용된다.
결정 트리	데이터를 분할하는 규칙을 나무 구조로 표현하는 알고리즘이다. 분류와 회귀 문제에 모두 사용 가능하다.
서포트 벡터 머신	데이터를 분류하는 최적의 초평면을 찾는 알고리즘이다. 분류 문제에 주로 사용된다.
인공 신경망	인간의 신경망 구조를 모방한 알고리즘이다. 복잡한 패턴을 학습할 수 있으며, 분류, 회귀 등 다양한 문제에 사용된다.
k-NN	새로운 데이터와 가장 가까운 k개의 학습 데이터를 기반으로 분류하거나 회귀하는 알고리즘이다.
나이브 베이즈	베이즈 정리를 기반으로 한 간단한 확률 분류 알고리즘이다.
응용 분야
컴퓨터 비전	이미지 인식, 객체 검출, 얼굴 인식 등에 사용된다.
자연어 처리	텍스트 분류, 감성 분석, 기계 번역 등에 사용된다.
의료	질병 진단, 약물 개발, 환자 모니터링 등에 사용된다.
금융	신용 평가, 주가 예측, 이상 거래 감지 등에 사용된다.
추천 시스템	영화 추천, 상품 추천, 뉴스 추천 등에 사용된다.
로보틱스	로봇 제어, 환경 인식, 경로 계획 등에 사용된다.
장점
높은 정확도	대량의 데이터와 적절한 모델을 사용하면 높은 예측 정확도를 얻을 수 있다.
다양한 문제 해결	분류, 회귀, 객체 인식, 자연어 처리 등 다양한 문제를 해결할 수 있다.
자동화	모델 학습과 예측 과정을 자동화할 수 있어 효율적이다.
단점
데이터 의존성	학습 데이터의 품질과 양에 따라 성능이 크게 달라진다.
과적합 문제	학습 데이터에만 지나치게 맞춰져 새로운 데이터에 대한 예측 성능이 떨어지는 과적합 문제가 발생할 수 있다.
해석의 어려움	일부 복잡한 모델(예: 심층 신경망)은 왜 그런 예측을 했는지 설명하기 어려울 수 있다.
관련 개념
준지도 학습	레이블이 있는 데이터와 레이블이 없는 데이터를 모두 사용하여 학습하는 방법이다.
비지도 학습	레이블이 없는 데이터를 사용하여 학습하는 방법이다. 클러스터링, 차원 축소 등에 사용된다.
강화 학습	에이전트가 환경과 상호작용하면서 보상을 최대화하는 정책을 학습하는 방법이다.

2. 지도 학습의 정의 및 작동 방식

지도 학습은 입력 변수(x)와 목표 변수(y) 간의 관계를 모델링하는 기계 학습의 한 유형이다. 훈련 데이터는 입력 벡터와 해당 레이블(정답)의 쌍으로 구성되며, 알고리즘은 이 데이터를 기반으로 미지의 입력에 대한 예측을 수행한다.

지도 학습 문제를 해결하기 위한 단계는 다음과 같다.

1. 훈련 샘플 유형 결정: 필적 분석을 예로 들면, 훈련 데이터로 단일 문자, 단어, 문장, 또는 문단 등을 사용할 수 있다.

2. 훈련 세트 수집: 실제 사용 환경을 대표할 수 있도록 전문가나 측정을 통해 입력과 해당 출력을 수집한다.

3. 입력 특징 표현 결정: 입력 객체는 특징 벡터로 변환되는데, 차원의 저주를 피하기 위해 특징의 수는 너무 많지 않아야 하면서도, 출력을 정확하게 예측할 수 있을 만큼 충분한 정보를 포함해야 한다.

4. 함수 구조 및 학습 알고리즘 결정: 서포트 벡터 머신이나 결정 트리 등을 사용할 수 있다.

5. 설계 완료 및 학습 알고리즘 실행: 일부 지도 학습 알고리즘은 제어 매개변수를 결정해야 하며, 이는 검증 세트나 교차 검증을 통해 조정할 수 있다.

6. 정확도 평가: 매개변수 조정 및 학습 후에는 훈련 세트와 별도의 테스트 세트를 사용하여 결과 함수의 성능을 측정한다.

$N$ 개의 훈련 예제 집합 $\{(x_1, y_1), ..., (x_N,\; y_N)\}$ 이 주어졌을 때, $x_i$ 는 $i$ 번째 예제의 특징 벡터이고, $y_i$ 는 그 레이블(클래스)이다. 학습 알고리즘의 목표는 입력 공간 $X$ 에서 출력 공간 $Y$ 로 매핑되는 함수 $g: X \to Y$ 를 찾는 것이다. 이 함수 $g$ 는 가능한 함수들의 공간 $G$ (가설 공간)의 원소이다.

$g$ 는 점수 함수 $f: X \times Y \to \mathbb{R}$ 를 사용하여 나타낼 수 있으며, 이 경우 $g(x) = \underset{y}{\arg\max} \; f(x,y)$ 로 정의된다. 점수 함수의 공간은 $F$ 로 나타낸다.

$G$ 와 $F$ 는 어떤 함수 공간이든 될 수 있지만, 많은 학습 알고리즘은 확률적 모델을 사용한다. 예를 들어, $g(x) = \underset{y}{\arg\max} \; P(y|x)$ 형태의 조건부 확률 모델이나, $f(x,y) = P(x,y)$ 형태의 결합 확률 모델이 있다. 나이브 베이즈와 선형 판별 분석은 결합 확률 모델이며, 로지스틱 회귀는 조건부 확률 모델이다.

$f$ 또는 $g$ 를 선택하는 방법에는 경험적 위험 최소화와 구조적 위험 최소화가 있다.^[6] 경험적 위험 최소화는 훈련 데이터에 가장 잘 맞는 함수를 찾고, 구조적 위험 최소화는 편향/분산 트레이드오프를 제어하는 벌칙 함수를 포함한다.

훈련 집합은 독립 동일 분포 쌍 $(x_i, \;y_i)$ 의 표본으로 구성된다고 가정한다. 함수가 훈련 데이터에 얼마나 잘 맞는지 측정하기 위해 손실 함수 $L: Y \times Y \to \mathbb{R}^{\ge 0}$ 가 정의된다. 훈련 예제 $(x_i,\;y_i)$ 에 대해 값 $\hat{y}$ 를 예측하는 손실은 $L(y_i,\hat{y})$ 이다. 함수 $g$ 의 위험 $R(g)$ 은 $g$ 의 기대 손실로 정의되며, 훈련 데이터에서 $R_{emp}(g) = \frac{1}{N} \sum_i L(y_i, g(x_i))$ 와 같이 추정할 수 있다.

판별 모델은 서로 다른 출력 값들을 잘 구분하는 함수 g를 찾으려고 하기 때문에 판별적 훈련 방법이다. 반면, f(x,y) = P(x,y)가 결합 확률 분포이고 손실 함수가 음의 로그 우도 $- \sum_i \log P(x_i, y_i)$ 인 경우, 위험 최소화 알고리즘은 f를 데이터가 생성되는 방식을 설명하는 생성 모델로 간주할 수 있기 때문에 생성적 훈련을 수행한다고 한다. 생성적 훈련 알고리즘은 판별적 훈련 알고리즘보다 단순하고 계산 효율이 높은 경우가 많으며, 나이브 베이즈와 선형 판별 분석처럼 해를 닫힌 형태로 계산할 수 있는 경우도 있다.

지도 학습은 미지의 확률 분포 $p(\mathbf{x},\mathbf{y})$ 를 대상으로 학습을 수행한다. 실제 응용에서는 입력( $\mathbf{x}$ )과 출력( $\mathbf{y}$ )을 정의할 수 있으며, 예를 들어 $\mathbf{y}$ 는 $\mathbf{x}$ 에 미지의 함수 $F$ 를 적용한 값 $F(\mathbf{x})$ 에 작은 노이즈가 더해진 것이다. 알고리즘에는 $p(\mathbf{x},\mathbf{y})$ 에 따른 $\mathbf{x}$ 와 $\mathbf{y}$ 의 쌍 $(\mathbf{x}_1,\mathbf{y}_1),\ldots,(\mathbf{x}_n,\mathbf{y}_n )$ 이 훈련 데이터로 주어진다. 알고리즘은 훈련 데이터에 속하지 않는 데이터 $\mathbf{x}$ 에 대해 조건부 확률 분포 $p(\mathbf{y}\mid \mathbf{x})$ 또는 그로부터 결정되는 값을 잘 근사해야 한다.^[9]

기계 학습의 정의에 따르면, 지도 학습의 과제, 경험, 성능 지표는 다음과 같다.

지도 학습
과제	경험	성능 지표
$p(\mathbf{y}\mid \mathbf{x})$ 또는 그로부터 결정되는 값을 잘 근사	훈련 데이터 $(\mathbf{x}_1,\mathbf{y}_1),\ldots,(\mathbf{x}_n,\mathbf{y}_n )$	손실 함수의 기댓값

알고리즘이 미지의 $\mathbf{x}$ 로부터 $p(\mathbf{y}\mid \mathbf{x})$ 를 구하는 연산을 일반화 또는 추론이라고 하며, 작업에 따라 예측, 판단, 인식 등으로 불리기도 한다. 훈련 데이터에는 $\mathbf{x}_i$ 로부터 추론해야 하는 $\mathbf{y}_i$ 가 정답으로 붙어 있다.

2. 1. 훈련 단계와 일반화 단계

지도 학습 모델은 훈련 알고리즘과 일반화 알고리즘의 쌍으로 구성된다. 훈련 알고리즘은 훈련 데이터를 입력으로 받아 파라미터라고 불리는 값 θ를 출력한다. 파라미터는 훈련 데이터에서 유용한 정보를 추출한 "학습 결과"이며, 일반화 단계에서 사용된다. 일반화 알고리즘은 입력 x 외에 파라미터 θ를 입력으로 받아

p(\mathbf{y}\mid \mathbf{x})

(또는 그로부터 결정되는 값)을 구한다. 즉, 훈련 알고리즘은 훈련 데이터를 통해 파라미터를 학습하고, 일반화 알고리즘은 학습된 파라미터를 사용하여 새로운 입력에 대한 예측을 수행한다.^[6]

2. 2. 변수의 명칭

지도 학습에서 변수 '''x'''는 '''설명 변수''', '''예측 변수''', '''독립 변수'''라고도 불린다.^[10]^[11]

지도 학습에서 변수 '''y'''는 '''목표 변수''', '''종속 변수''', '''반응 변수'''라고도 불린다.^[10]^[11]

3. 주요 과제

지도 학습은 크게 회귀와 분류로 나뉜다.^[11]^[12] 회귀는 목표 변수가 양적 변수인 경우이고, 분류는 유한 집합에 값을 가지는 범주형 변수인 경우이다.

전형적인 훈련 데이터는 벡터(문제) ${\mathbf x}_i$ 와 라벨(답) $y_i$ 의 쌍으로 $({\mathbf x}_1, y_1), ({\mathbf x}_2, y_2), ...$ 와 같이 주어진다. 여기서 $({\mathbf x}_i, y_i)$ 는 $i$ 번째 데이터를 나타내고, $y_i$ 는 라벨, ${\mathbf x}_i$ 는 벡터를 나타낸다.

분류 문제에서는 $y_i$ 가 이산값을, 회귀 문제에서는 실수값을 취한다. 이러한 데이터에 어떤 기준으로든 가장 잘 맞는 함수 관계 $y=f(x)$ 를 찾는 "학습"을 통해 미지의 데이터 ${\mathbf x}$ 에 대해 예측 $y = f({\mathbf x})$ 을 얻을 수 있다.

3. 1. 회귀 (Regression)

지도 학습에서 목표 변수 가 양적 변수인 경우를 '''회귀''' (regression)라고 한다.^[11]^[12]

회귀의 목표는 입력 가 주어졌을 때,

p(\mathbf{y}\mid \mathbf{x})

에 대한 정보를 예측하는 것이다. 일반적으로

\mathbf{y}=F(\mathbf{x})+\mathbf{\varepsilon}

처럼 가 미지의 함수 의 상 에 임의의 노이즈 가 더해진 데이터인 경우에, 입력 에서 의 가능한 한 정확한 예측값

\hat{\mathbf{y}}

을 출력하는 것이 요구된다. 회귀에서 다루는 목표 변수 는 연속량이며, 일반적으로 실수를 여러 개 나열한 수치 벡터이다.

다른 지도 학습 알고리즘과 마찬가지로, 회귀 알고리즘은

p(\mathbf{x},\mathbf{y})

에 따라 선택된 훈련 데이터 집합

D=\{(\mathbf{x}_1,\mathbf{y}_1),\ldots,(\mathbf{x}_n,\mathbf{y}_n )\}

을 입력으로 받을 수 있으며, 이러한 훈련 데이터를 바탕으로 입력 에 해당하는 의 예측값

\hat{\mathbf{y}}=\hat{F}_D(\mathbf{x})

을 출력한다. 예측의 정확성은 손실 함수

L(\hat{\mathbf{y}},\mathbf{y})

에 의해 측정된다. 회귀에서는 손실 함수

L(\hat{\mathbf{y}},\mathbf{y})

로서 '''제곱 오차 손실'''

L(\hat{\mathbf{y}},\mathbf{y})=||\hat{\mathbf{y}}-\mathbf{y}||^2

을 사용하는 경우가 많다.

회귀의 목표는 '''일반화 오차''' ('''예측 오차''', '''예측 손실'''이라고도 함)

E[L(\hat{\mathbf{y}}(\mathbf{x}),\mathbf{y})]=\iint L(\hat{\mathbf{y}}(\mathbf{x}),\mathbf{y}) p(\mathbf{x},\mathbf{y})\mathrm{d}\mathbf{x}\mathrm{d}\mathbf{y}

를 작게 유지하는 것이다. 여기서

\hat{\mathbf{y}}(\mathbf{x})=M(\mathbf{x},\theta)

는 일반화 알고리즘의 출력이며, 는 기댓값을 나타낸다.

3. 2. 분류 (Classification)

분류(Classification)는 지도 학습의 한 종류로, 주어진 입력 데이터가 어떤 클래스(Class)에 속하는지 예측하는 문제이다. 예를 들어, 사진을 보고 '고양이'인지 '개'인지 판별하는 것이 분류 문제에 해당한다. 각 클래스는 "고양이", "개"와 같이 클래스 레이블(혹은 단순히 레이블)이라는 이름으로 불린다.^[13]

분류 알고리즘은 크게 두 가지 접근법으로 나뉜다.

결정론적 접근법: 입력 데이터가 속할 것으로 예상되는 클래스 레이블을 직접 출력한다. 예를 들어, "고양이" 또는 "개"와 같이 하나의 답을 제시한다. 이 경우, 주로 0-1 손실(0-1 Loss) 함수를 사용하여 알고리즘의 성능을 평가한다.^[14] 0-1 손실 함수는 예측이 틀렸을 때 1, 맞았을 때 0의 값을 부여한다.
확률론적 접근법: 각 클래스에 속할 확률(확신도)을 출력한다. 예를 들어, "고양이일 확률 70%, 개일 확률 30%"와 같이 예측 결과를 제시한다. 이 경우, 각 확률은 0과 1 사이의 값을 가지며, 모든 클래스에 대한 확률의 합은 1이 된다. 이러한 확률론적 접근법에서는 주로 교차 엔트로피 손실 함수를 사용하여 알고리즘의 성능을 평가한다.^[14]

확률론적 접근법에서 훈련 데이터는 원-핫 벡터(one-hot vector) 형태로 표현된다. 원-핫 벡터는 정답 클래스에 해당하는 값만 1이고, 나머지는 모두 0인 벡터이다. 예를 들어, "고양이" 클래스가 1번, "개" 클래스가 2번이라면, 고양이 사진의 훈련 데이터는 (1, 0), 개 사진의 훈련 데이터는 (0, 1)로 표현된다. 이러한 데이터 표현 방식을 원-핫 표현(one-hot representation) 이라고 한다.^[15]

3. 2. 1. 회귀와 분류의 관계

신뢰도를 사용하는 분류 알고리즘은 회귀 알고리즘을 활용하여 설계할 수 있다. 우선 훈련 데이터를 원-핫 벡터로 부호화하여 회귀 알고리즘을 훈련시킨다. 하지만 회귀 알고리즘의 출력은 신뢰도와 달리 특정 조건을 만족하지 않기 때문에, 소프트맥스 변환을 통해 회귀의 출력을 분류의 신뢰도로 변환한다.^[14]

반대로 신뢰도를 사용한 분류 작업을 회귀 작업에 활용할 수도 있으며, 이 경우에는 소프트맥스 변환의 역변환을 적용해야 한다.

4. 평가 방법

훈련 데이터로부터 유추된 함수는 파라미터 최적화를 위해 평가되어야 한다. 이러한 평가를 위해 교차 검증이 이용되며, 검증 집합(Validation Set)을 훈련 집합, 검증 집합, 테스트 집합의 세 가지로 나눈다.

교차 검증을 통해 훈련된 각 함수에 대해 정밀도와 재현율을 측정할 수 있으며, 그 정의는 아래와 같다.^[22]


		실제 결과 / 분류
		참	거짓
추론된 결과 / 분류	참	tp (true positive)	fp (false positive)
추론된 결과 / 분류	거짓	fn (false negative)	tn (true negative)

정밀도와 재현율은 다음과 같이 정의된다.^[22]

: $\mbox{Precision}=\frac{tp}{tp+fp} \,$

: $\mbox{Recall}=\frac{tp}{tp+fn} \,$

5. 편향-분산 트레이드오프 (Bias-Variance Tradeoff)

첫 번째 문제는 ''편향''과 ''분산'' 사이의 트레이드오프이다.^[2] 여러 개의 서로 다르지만 동등하게 좋은 훈련 데이터 세트가 있다고 가정할 때, 특정 입력 $x$ 에 대해 학습 알고리즘이 편향되어 있다는 것은, 이러한 각 데이터 세트로 훈련될 때 $x$ 에 대한 올바른 출력을 예측하는 데 체계적으로 잘못될 때를 의미한다. 특정 입력 $x$ 에 대해 학습 알고리즘의 분산이 높다는 것은 서로 다른 훈련 세트로 훈련될 때 다른 출력 값을 예측할 때를 의미한다. 학습된 분류기의 예측 오류는 학습 알고리즘의 편향과 분산의 합과 관련이 있다.^[3]

일반적으로 편향과 분산 사이에는 트레이드오프가 존재한다. 낮은 편향을 가진 학습 알고리즘은 데이터에 잘 맞도록 "유연성"이 있어야 한다. 그러나 학습 알고리즘이 너무 유연하면 각 훈련 데이터 세트에 다르게 맞춰지므로 분산이 높아진다. 많은 지도 학습 방법의 핵심적인 측면은 편향과 분산 사이의 이러한 트레이드오프를 (자동으로 또는 사용자가 조정할 수 있는 편향/분산 매개변수를 제공하여) 조정할 수 있다는 것이다.

두 번째 문제는 "진정한" 함수(분류기 또는 회귀 함수)의 복잡성에 비례하여 사용 가능한 훈련 데이터의 양과 관련이 있다. 진정한 함수가 단순하다면, 높은 편향과 낮은 분산을 가진 "비유연적인" 학습 알고리즘이 소량의 데이터로부터 이를 학습할 수 있다. 그러나 진정한 함수가 매우 복잡한 경우(예: 여러 가지 서로 다른 입력 특징 간의 복잡한 상호 작용이 포함되어 있고 입력 공간의 여러 부분에서 다르게 동작하는 경우) 함수는 높은 분산과 낮은 편향을 가진 "유연적인" 학습 알고리즘과 함께 많은 양의 훈련 데이터를 사용해야만 학습할 수 있다.

세 번째 문제는 입력 공간의 차원이다. 입력 특징 벡터의 차원이 크면, 실제 함수가 그 특징 중 소수의 특징에만 의존하더라도 함수 학습이 어려울 수 있다. 많은 "추가적인" 차원들이 학습 알고리즘을 혼란스럽게 하고 분산(variance)을 높이기 때문이다. 따라서 차원이 큰 입력 데이터는 일반적으로 분산을 낮추고 편향을 높이도록 분류기를 조정해야 한다. 실제로, 엔지니어가 입력 데이터에서 관련 없는 특징을 수동으로 제거할 수 있다면 학습된 함수의 정확도가 향상될 가능성이 높다. 또한, 관련 특징을 식별하고 관련 없는 특징을 버리려는 특징 선택을 위한 많은 알고리즘이 있다. 이것은 지도 학습 알고리즘을 실행하기 전에 입력 데이터를 저차원 공간으로 매핑하려는 더 일반적인 전략인 차원 축소의 한 예이다.

회귀에서는 입력 $\mathbf{x}$ 에 대응하는 $\mathbf{y}$ 의 예측값 $\hat{\mathbf{y}}=\hat{F}_D(\mathbf{x})$ 을 출력하는 것을 요구받고, $\hat{\mathbf{y}}$ 는 $\mathbf{y}$ 의 기댓값에 가까운 것이 바람직하고, 게다가 $\hat{\mathbf{y}}$ 의 분산은 작은 것이 바람직하다. 하지만 이 두 가지 요건은 트레이드오프 관계에 있다^[16]：

$p(\mathbf{x},\mathbf{y})$ 를 $\mathbb{R}^{\ell}\times\mathbb{R}^k$ 위의 확률분포로 하고, $D$ 를 $\mathbb{R}^{\ell}\times\mathbb{R}^k$ 위의 어떤 확률분포에 따라 선택된 훈련 데이터의 집합으로 하고^[17], $\hat{F}$ 를 회귀 알고리즘으로 하고, $D$ 에 의해 이 회귀 알고리즘을 훈련하여 얻어진 함수를 $\hat{\mathbf{y}}=\hat{F}_D(\mathbf{x})$ 로 하고, 오차 함수를 제곱 오차

$L(\hat{\mathbf{y}},\mathbf{y})=||\hat{\mathbf{y}}-\mathbf{y}||^2$

에 의해 정의하고, 더욱이 $(\mathbf{x},\mathbf{y})\sim p$ 를 $D$ 와 독립적으로 선택하고,

$\bar{\mathbf{y}}(\mathbf{x})=E_{\mathbf{y}\sim p|_{\mathbf{x}}}[\mathbf{y}|\mathbf{x}]$

$\bar{F}(\mathbf{x})=E_D[\hat{F}_D(\mathbf{x})]$

으로 한다.

이 때, 예측 오차의 훈련 데이터 집합 $D$ 에 관한 기댓값(기대 예측 오차^[18])

$E_D[E_{(\mathbf{x},\mathbf{y})\sim p}[L(\hat{F}_D(\mathbf{x}),\mathbf{y})]=E_{(\mathbf{x},\mathbf{y})\sim p,D}[||\hat{F}_D(\mathbf{x})-\mathbf{y}||^2]$

는 이하를 만족한다:

$E_{(\mathbf{x},\mathbf{y})\sim p,D}[||\hat{F}_D(\mathbf{x})-\mathbf{y}||^2]=\mathsf{Var}(\hat{F})+\mathsf{Bias}^2(\hat{F})+\mathsf{Noise}(p)$

여기서,

$\mathsf{Var}(\hat{F})=E_{\mathbf{x}\sim p|_{\mathbf{x}},D}(||\hat{F}_D(\mathbf{x})-\bar{F}(\mathbf{x})||^2)$

$\mathsf{Bias}^2(\hat{F})=E_{\mathbf{x}\sim p|_{\mathbf{x}}}(||\bar{F}(\mathbf{x})-\bar{\mathbf{y}}(\mathbf{x})||^2)$

$\mathsf{Noise}(\hat{F})=E_{(\mathbf{x},\mathbf{y})\sim p}(||\bar{\mathbf{y}}(\mathbf{x})-\mathbf{y}||^2)$

(편향과 분산의 트레이드오프)

증명:

$\begin{align}&{1\over 2}(E_{(\mathbf{x},\mathbf{y})\sim p,D}[||\hat{F}_D(\mathbf{x})-\mathbf{y}||^2]-\mathsf{Var}(\hat{F})-\mathsf{Bias}^2(\hat{F})-\mathsf{Noise}(p))\\&={1\over 2}E_{(\mathbf{x},\mathbf{y})\sim p,D}[||\hat{F}_D(\mathbf{x})-\mathbf{y}||^2$

||\hat{F}_D(\mathbf{x})-\bar{F}(\mathbf{x})||^2
||\bar{F}(\mathbf{x})-\bar{\mathbf{y}}(\mathbf{x})||^2
||\bar{\mathbf{y}}(\mathbf{x})-\mathbf{y}||^2

]\\&= E_{(\mathbf{x},\mathbf{y})\sim p,D}[

\hat{F}_D(\mathbf{x})\cdot\mathbf{y}

+\hat{F}_D(\mathbf{x})\cdot\bar{F}(\mathbf{x})+\bar{F}(\mathbf{x})\cdot\bar{\mathbf{y}}(\mathbf{x})+\bar{\mathbf{y}}(\mathbf{x})\cdot\mathbf{y}

||\bar{F}(\mathbf{x})||^2
||\bar{\mathbf{y}}(\mathbf{x})||^2

]=(1)\end{align}

여기서

\begin{align}&E_{(\mathbf{x},\mathbf{y})\sim p,D}[-\hat{F}_D(\mathbf{x})\cdot\mathbf{y}+\hat{F}_D(\mathbf{x})\cdot\bar{F}(\mathbf{x})]\\&=-E_{(\mathbf{x},\mathbf{y})\sim p}[E_D[\hat{F}_D(\mathbf{x})]\cdot\mathbf{y}+E_D[\hat{F}_D(\mathbf{x})]\cdot\bar{F}(\mathbf{x})\\&=E_{(\mathbf{x},\mathbf{y})\sim p}[-\bar{F}(\mathbf{x})\cdot\mathbf{y}+||\bar{F}(\mathbf{x})||^2]\end{align}

이므로,

\begin{align}(1)&= E_{(\mathbf{x},\mathbf{y})\sim p}[

\bar{F}(\mathbf{x})\cdot\mathbf{y}

+\bar{F}(\mathbf{x})\cdot\bar{\mathbf{y}}(\mathbf{x})+\bar{\mathbf{y}}(\mathbf{x})\cdot\mathbf{y}

||\bar{\mathbf{y}}(\mathbf{x})||^2

]\\&=E_{(\mathbf{x},\mathbf{y})\sim p}[(\bar{F}(\mathbf{x})-\bar{\mathbf{y}}(\mathbf{x}))(\bar{\mathbf{y}}(\mathbf{x})-\mathbf{y})]\\&=E_{\mathbf{x}}[(\bar{F}(\mathbf{x})-\bar{\mathbf{y}}(\mathbf{x}))(\bar{\mathbf{y}}(\mathbf{x})-E_{\mathbf{y}\sim p|_{\mathbf{x}}}[\mathbf{y}])]\\&=0\end{align}

위에서는 회귀의 경우에 대해 서술했지만, 신뢰도를 출력하는 분류에서도 마찬가지이다.

6. 지도 학습 알고리즘

다양한 지도 학습 알고리즘이 존재하며, 각각 장단점이 있다. 모든 지도 학습 문제에 가장 잘 작동하는 단일 학습 알고리즘은 없다(무료 점심 정리 참조).^[1]

가장 널리 사용되는 학습 알고리즘은 다음과 같다.^[2]

서포트 벡터 머신^[3]
선형 회귀^[4]
로지스틱 회귀^[5]
나이브 베이즈^[6]
선형 판별 분석^[7]
결정 트리^[8]
k-최근접 이웃 알고리즘^[9]
인공 신경망 (예: 다층 퍼셉트론)^[10]
유사도 학습^[11]
분석적 학습^[12]
역전파^[14]
부스팅(메타 알고리즘)^[15]
베이즈 통계학^[16]
사례 기반 추론^[17]
귀납 논리 프로그래밍^[19]
가우시안 프로세스 회귀^[20]
유전 프로그래밍^[21]
데이터 처리의 그룹 방법^[22]
커널 추정기
학습 오토마타
학습 분류기 시스템
학습 벡터 양자화
최소 메시지 길이(결정 트리, 결정 그래프 등)
다중 선형 부분 공간 학습
최대 엔트로피 분류기
조건부 확률장
최근접 이웃 알고리즘
대략적으로 정확한 학습(PAC) 학습
리플 다운 규칙, 지식 습득 방법론
기호 기계 학습 알고리즘
부기호 기계 학습 알고리즘
최소 복잡도 기계(MCM)
랜덤 포레스트
분류기 앙상블
서수 분류
데이터 전처리
불균형 데이터셋 처리
통계적 관계 학습
Proaftn, 다기준 분류 알고리즘
은닉 마르코프 모델
회귀 분석

7. 지도 학습의 응용

지도 학습은 다음과 같은 다양한 분야에서 응용된다.

생물정보학
화학정보학
* 정량적 구조-활성 상관관계
데이터베이스 마케팅
필기체 인식
정보 검색
* 랭크 학습
정보 추출
컴퓨터 비전에서의 객체 인식
광학 문자 인식
스팸 탐지
패턴 인식
음성 인식
지도 학습은 생물 시스템에서 하향적 인과관계의 특수한 경우이다.
위성 영상을 이용한 지형 분류^[7]
조달 과정에서의 지출 분류^[8]

8. 일반적인 문제점

입력 특징 벡터의 차원이 크면, 실제 함수가 그 특징 중 소수의 특징에만 의존하더라도 함수 학습이 어려울 수 있다. 많은 "추가적인" 차원들이 학습 알고리즘을 혼란스럽게 하고 분산(variance)을 높이기 때문이다. 따라서 차원이 큰 입력 데이터는 일반적으로 분산을 낮추고 편향(bias)을 높이도록 분류기를 조정해야 한다. 실제로, 엔지니어가 입력 데이터에서 관련 없는 특징을 수동으로 제거할 수 있다면 학습된 함수의 정확도가 향상될 가능성이 높다. 또한, 관련 특징을 식별하고 관련 없는 특징을 버리려는 특징 선택을 위한 많은 알고리즘이 있다. 이것은 지도 학습 알고리즘을 실행하기 전에 입력 데이터를 저차원 공간으로 매핑하려는 더 일반적인 전략인 차원 축소의 한 예이다.

원하는 출력값(감독적 목표 변수)의 잡음 정도도 문제가 될 수 있다. 원하는 출력값이 사람의 실수나 센서 오류로 인해 자주 잘못된 경우, 학습 알고리즘은 훈련 예제와 정확히 일치하는 함수를 찾으려고 시도해서는 안 된다. 데이터에 너무 세심하게 맞추려고 시도하면 과적합으로 이어진다. 학습하려는 함수가 학습 모델에 너무 복잡한 경우 측정 오류(확률적 잡음)가 없더라도 과적합될 수 있다. 이러한 상황에서 모델링할 수 없는 목표 함수의 일부가 훈련 데이터를 "손상"시키는데, 이 현상을 결정론적 잡음이라고 한다. 어떤 유형의 잡음이 있더라도 더 높은 편향, 더 낮은 분산 추정기를 사용하는 것이 좋다.

실제로는 과적합을 방지하기 위한 조기 종료와 잡음이 많은 훈련 예제를 감독 학습 알고리즘을 훈련하기 전에 탐지하고 제거하는 것과 같이 출력값의 잡음을 줄이기 위한 여러 가지 방법이 있다. 잡음이 많은 훈련 예제를 식별하는 여러 알고리즘이 있으며, 훈련 전에 의심스러운 잡음이 많은 훈련 예제를 제거하면 일반화 오차가 통계적 유의성을 가지고 감소했다.^[4]^[5]

9. 일반화

표준 지도 학습 문제를 일반화하는 방법은 다음과 같다.

준지도 학습 또는 약한 지도: 원하는 출력 값은 훈련 데이터의 일부에 대해서만 제공된다. 나머지 데이터는 레이블이 없거나 부정확하게 레이블이 지정되어 있다.
능동 학습: 모든 훈련 예제가 처음에 주어진다고 가정하는 대신, 능동 학습 알고리즘은 일반적으로 사람 사용자에게 질문하여 대화형으로 새로운 예제를 수집한다. 질문은 종종 레이블이 없는 데이터를 기반으로 하는데, 이는 준지도 학습과 능동 학습을 결합한 시나리오이다.
구조 예측: 원하는 출력 값이 구문 트리 또는 레이블이 지정된 그래프와 같은 복잡한 객체인 경우 표준 방법을 확장해야 한다.
순위 학습: 입력이 객체 집합이고 원하는 출력이 해당 객체의 순위인 경우에도 표준 방법을 확장해야 한다.

반교사 학습의 한 종류는 일부 데이터는 레이블이 있고 일부 데이터는 레이블이 없는 경우이다. 다른 경우는 학습 목표가 데이터 레이블보다 많은 경우이다. 예를 들어, 이미지의 박스 레이블만으로 분할의 역할을 하는 경우가 있다.^[21]

참조

_[1] 서적 Foundations of Machine Learning The MIT Press
_[2] 논문 Neural networks and the bias/variance dilemma http://delta-apache-[...]
_[3] 논문 Variance and Bias for General Loss Functions http://www-bcf.usc.e[...]
_[4] 논문 Identifying and Eliminating Mislabeled Training Instances http://jair.org/medi[...]
_[5] 학회논문 Improving Classification Accuracy by Identifying and Removing Instances that Should Be Misclassified
_[6] 서적 The Nature of Statistical Learning Theory https://books.google[...] Springer Verlag
_[7] 논문 Supervised Classification of RADARSAT-2 Polarimetric Data for Different Land Features
_[8] 웹사이트 Key Technologies for Agile Procurement https://publication.[...] 2022-06-16
_[9] 참고자료 GBC
_[10] 참고자료 瀧
_[11] 참고자료 ESL
_[12] 참고자료 金森
_[13] 참고자료 瀧
_[14] 참고자료 瀧
_[15] 참고자료 瀧
_[16] 웹사이트 Lecture 12: Bias-Variance Tradeoff https://www.cs.corne[...] 코넬대학교 2020-11-10
_[17] 기타
_[18] 참고자료 金森
_[19] 참고자료 金森
_[20] 참고자료 ESL
_[21] 논문 A Survey on Deep Learning-based Architectures for Semantic Segmentation on 2D Images https://www.tandfonl[...] 2022-12-31
_[22] 서적 Advanced Data Mining Techniques Springer

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com