통계적 학습이론

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

통계적 학습이론은 지도, 비지도, 온라인, 강화 학습 등 다양한 학습 종류 중 지도 학습을 중심으로 다룬다. 지도 학습은 입력과 출력 간의 함수를 추론하는 것으로, 회귀와 분류 문제로 나뉜다. 회귀는 연속적인 출력값을, 분류는 별개의 라벨 집합의 출력을 예측한다. 통계적 학습이론의 형식은 훈련 집합, 가설 공간, 손실 함수, 기대 위험 및 경험적 위험을 포함하며, 경험적 위험 최소화를 통해 학습 알고리즘을 구현한다. 과적합 문제를 해결하기 위해 정규화 기법이 사용되며, 섀터링 넘버를 통해 경험적 위험의 제한을 설정할 수 있다.

더 읽어볼만한 페이지

추정 이론 - 기댓값 최대화 알고리즘
추정 이론 - 델파이 기법
델파이 기법은 전문가들의 의견을 반복적인 피드백을 통해 수렴하여 문제를 해결하는 하향식 의견 도출 방법으로, 익명성, 정보 흐름의 구조화, 정기적인 피드백을 특징으로 하며 다양한 분야에서 활용된다.
기계 학습 - 비지도 학습
비지도 학습은 레이블이 없는 데이터를 통해 패턴을 발견하고 데이터 구조를 파악하는 것을 목표로 하며, 주성분 분석, 군집 분석, 차원 축소 등의 방법을 사용한다.
기계 학습 - 지도 학습
지도 학습은 레이블된 데이터를 사용하여 입력 데이터와 출력 레이블 간의 관계를 학습하는 기계 학습 분야로, 예측 모델 생성, 알고리즘 선택, 모델 최적화, 정확도 평가 단계를 거치며, 회귀 및 분류 문제에 적용되고 다양한 확장 기법과 성능 평가 방법을 활용한다.

통계적 학습이론
통계적 학습 이론
분야	기계 학습
하위 분야	계산 학습 이론
유형	기계 학습 이론
관련 주제	편향-분산 트레이드오프 계산 학습 이론 경험적 위험 최소화 PAC 학습 VC 이론

2. 학습의 종류

학습의 목표는 이해와 예측이다. 학습은 지도 학습, 비지도 학습, 온라인 학습, 강화 학습을 비롯한 여러 범주로 분류된다. 통계적 학습이론의 관점에서는 지도 학습이 가장 잘 이해된다.^[12] 지도 학습은 훈련된 데이터 집합으로부터 학습하는 것을 포함한다. 훈련의 모든 포인트는 입·출력쌍이며, 입력은 출력에 매핑된다. 학습 문제는 학습된 함수가 미래의 입력으로부터의 결과를 예측하는 데 사용될 수 있도록, 입력과 출력 사이를 매핑하는 함수를 추론하는 것으로 구성된다.

출력 유형에 따르는 지도학습 문제는, 회귀문제이거나 분류문제 중 하나이다. 출력값에 연속범위가 있다면 회귀문제이다. 옴의 법칙으로 예를 들면, 회귀분석은 전압을 입력으로, 전류를 출력으로 수행될 수 있다. 회귀분석은 전압과 전류 사이의 함수적 관계는 다음과 같이 ''R''로 파악된다.

:''U=RI''

분류 문제에서 출력은 별개의 라벨 집합의 요소가 된다. 분류는 기계학습 응용에서 매우 일반적이다. 이를테면, 안면인식에서는 사람의 얼굴 화상이 입력되고, 출력 라벨은 그 사람의 이름이 된다. 입력은 화상에서 픽셀을 나타내는 다차원 벡터로 표현된다.

훈련 집합을 기반으로 함수를 학습한 다음에는, 해당 함수가 훈련 집합에 나타나지 않는 데이터의 테스트 집합에서 그 유효성이 평가된다.

2. 1. 지도 학습

학습의 목표는 이해와 예측이다. 학습은 지도 학습, 비지도 학습, 온라인 학습 및 강화 학습을 비롯한 여러 범주로 분류된다. 통계적 학습이론의 관점에서는 지도 학습이 가장 잘 이해된다.^[12] 지도 학습은 훈련된 데이터 집합으로부터 학습하는 것을 포함한다. 훈련의 모든 포인트는 입·출력쌍이며, 입력은 출력에 매핑된다. 학습 문제는 학습된 함수가 미래의 입력으로부터의 결과를 예측하는 데 사용될 수 있도록, 입력과 출력 사이를 매핑하는 함수를 추론하는 것으로 구성된다.

출력 유형에 따르는 지도학습 문제는, 회귀문제이거나 분류문제 중 하나이다. 출력값에 연속범위가 있다면 회귀문제이다. 옴의 법칙으로 예를 들면, 회귀분석은 전압을 입력으로, 전류를 출력으로 수행될 수 있다. 회귀분석은 전압과 전류 사이의 함수적 관계는 다음과 같이 ''R''로 파악된다.

:''U=RI''

분류 문제에서 출력은 별개의 라벨 집합의 요소가 된다. 분류는 기계학습 응용에서 매우 일반적이다. 이를테면, 안면인식에서는 사람의 얼굴 화상이 입력되고, 출력 라벨은 그 사람의 이름이 된다. 입력은 화상에서 픽셀을 나타내는 다차원 벡터로 표현된다.

훈련 집합을 기반으로 함수를 학습한 다음에는, 해당 함수가 훈련 집합에 나타나지 않는 데이터의 테스트 집합에서 그 유효성이 평가된다.

2. 1. 1. 회귀 분석

회귀 분석에서 가장 흔히 사용되는 손실 함수는 제곱 손실 함수(혹은 L2 노름)이다. 이 친숙한 손실 함수는 최소 자승 회귀에 사용된다. 형태는 다음과 같다.

:

V(f(\mathbf{x}),y) = (y - f(\mathbf{x}))^2

절대값 손실(혹은 L1 노름)도 때때로 사용된다.

:

V(f(\mathbf{x}),y) = |y - f(\mathbf{x})|

2. 1. 2. 통계적 분류

어떤 의미에서 0-1 지표 함수는 분류에 가장 자연스러운 손실 함수이다. 예측된 출력이 실제 출력과 같으면 값 0을 갖고, 예측된 출력이 실제 출력과 다르면 값 1을 갖는다.

Y = \{-1, 1\}

인 이진 분류의 경우, 다음과 같다.

:

V(f(\mathbf{x}),y) = \theta(- y f(\mathbf{x}))

여기서

\theta

는 헤비사이드 계단 함수이다.

2. 2. 비지도 학습

학습은 지도 학습, 비지도 학습, 온라인 학습 및 강화 학습을 비롯한 여러 범주로 분류된다. 통계적 학습이론의 관점에서는 지도 학습이 가장 잘 이해된다.^[12] 지도 학습은 훈련된 데이터 집합으로부터 학습하는 것을 포함한다. 훈련의 모든 포인트는 입·출력쌍이며, 입력은 출력에 매핑된다. 학습 문제는 학습된 함수가 미래의 입력으로부터의 결과를 예측하는 데 사용될 수 있도록, 입력과 출력 사이를 매핑하는 함수를 추론하는 것으로 구성된다.

출력 유형에 따르는 지도학습 문제는, 회귀문제이거나 분류문제 중 하나이다. 출력값에 연속범위가 있다면 회귀문제이다. 옴의 법칙으로 예를 들면, 회귀분석은 전압을 입력으로, 전류를 출력으로 수행될 수 있다. 회귀분석은 전압과 전류 사이의 함수적 관계는 다음과 같이 ''R''로 파악된다.

:

U=RI

분류 문제에서 출력은 별개의 라벨 집합의 요소가 된다. 분류는 기계학습 응용에서 매우 일반적이다. 이를테면, 안면인식에서는 사람의 얼굴 화상이 입력되고, 출력 라벨은 그 사람의 이름이 된다. 입력은 화상에서 픽셀을 나타내는 다차원 벡터로 표현된다.

훈련 집합을 기반으로 함수를 학습한 다음에는, 해당 함수가 훈련 집합에 나타나지 않는 데이터의 테스트 집합에서 그 유효성이 평가된다.

2. 3. 온라인 학습

학습의 목표는 이해와 예측이다. 학습은 지도 학습, 비지도 학습, 온라인 학습 및 강화 학습을 비롯한 여러 범주로 분류된다. 통계적 학습이론의 관점에서는 지도 학습이 가장 잘 이해된다.^[12] 지도 학습은 훈련된 데이터 집합으로부터 학습하는 것을 포함한다. 훈련의 모든 포인트는 입·출력쌍이며, 입력은 출력에 매핑된다. 학습 문제는 학습된 함수가 미래의 입력으로부터의 결과를 예측하는 데 사용될 수 있도록, 입력과 출력 사이를 매핑하는 함수를 추론하는 것으로 구성된다.

출력 유형에 따르는 지도학습 문제는, 회귀문제이거나 분류문제 중 하나이다. 출력값에 연속범위가 있다면 회귀문제이다. 옴의 법칙으로 예를 들면, 회귀분석은 전압을 입력으로, 전류를 출력으로 수행될 수 있다. 회귀분석은 전압과 전류 사이의 함수적 관계는 다음과 같이 <math>R</math>로 파악된다.

:<math>U=RI</math>

분류 문제에서 출력은 별개의 라벨 집합의 요소가 된다. 분류는 기계학습 응용에서 매우 일반적이다. 이를테면, 안면인식에서는 사람의 얼굴 화상이 입력되고, 출력 라벨은 그 사람의 이름이 된다. 입력은 화상에서 픽셀을 나타내는 다차원 벡터로 표현된다.

훈련 집합을 기반으로 함수를 학습한 다음에는, 해당 함수가 훈련 집합에 나타나지 않는 데이터의 테스트 집합에서 그 유효성이 평가된다.

2. 4. 강화 학습

학습의 목표는 이해와 예측이다. 학습은 지도 학습, 비지도 학습, 온라인 학습 및 강화 학습을 비롯한 여러 범주로 분류된다.^[12] 통계적 학습이론의 관점에서는 지도 학습이 가장 잘 이해된다.^[12] 지도 학습은 훈련된 데이터 집합으로부터 학습하는 것을 포함한다.^[12] 훈련의 모든 포인트는 입·출력쌍이며, 입력은 출력에 매핑된다.^[12] 학습 문제는 학습된 함수가 미래의 입력으로부터의 결과를 예측하는 데 사용될 수 있도록, 입력과 출력 사이를 매핑하는 함수를 추론하는 것으로 구성된다.^[12]

출력 유형에 따르는 지도학습 문제는, 회귀문제이거나 분류문제 중 하나이다.^[12] 출력값에 연속범위가 있다면 회귀문제이다.^[12] 옴의 법칙으로 예를 들면, 회귀분석은 전압을 입력으로, 전류를 출력으로 수행될 수 있다.^[12] 회귀분석은 전압과 전류 사이의 함수적 관계는 다음과 같이

R

로 파악된다.^[12]

:

U=RI

분류 문제에서 출력은 별개의 라벨 집합의 요소가 된다.^[12] 분류는 기계학습 응용에서 매우 일반적이다.^[12] 이를테면, 안면인식에서는 사람의 얼굴 화상이 입력되고, 출력 라벨은 그 사람의 이름이 된다.^[12] 입력은 화상에서 픽셀을 나타내는 다차원 벡터로 표현된다.^[12]

훈련 집합을 기반으로 함수를 학습한 다음에는, 해당 함수가 훈련 집합에 나타나지 않는 데이터의 테스트 집합에서 그 유효성이 평가된다.^[12]

3. 통계적 학습이론의 형식

학습의 목표는 이해와 예측이다. 학습은 지도 학습, 비지도 학습, 온라인 학습 및 강화 학습을 비롯한 여러 범주로 분류된다. 통계적 학습이론의 관점에서는 지도 학습이 가장 잘 이해된다.^[12] 지도 학습은 훈련된 데이터 집합으로부터 학습하는 것을 포함한다. 훈련의 모든 포인트는 입·출력쌍이며, 입력은 출력에 매핑된다. 학습 문제는 학습된 함수가 미래의 입력으로부터의 결과를 예측하는 데 사용될 수 있도록, 입력과 출력 사이를 매핑하는 함수를 추론하는 것으로 구성된다.

출력 유형에 따르는 지도학습 문제는, 회귀문제이거나 분류문제 중 하나이다. 출력값에 연속범위가 있다면 회귀문제이다. 옴의 법칙으로 예를 들면, 회귀분석은 전압을 입력으로, 전류를 출력으로 수행될 수 있다. 회귀분석은 전압과 전류 사이의 함수적 관계는 다음과 같이 $R$ 로 파악된다.

: $U=RI$

분류 문제에서 출력은 별개의 라벨 집합의 요소가 된다. 분류는 기계학습 응용에서 매우 일반적이다. 이를테면, 안면인식에서는 사람의 얼굴 화상이 입력되고, 출력 라벨은 그 사람의 이름이 된다. 입력은 화상에서 픽셀을 나타내는 다차원 벡터로 표현된다.

훈련 집합을 기반으로 함수를 학습한 다음에는, 해당 함수가 훈련 집합에 나타나지 않는 데이터의 테스트 집합에서 그 유효성이 평가된다.

$X$ 를 벡터공간의 모든 가능한 입력으로 취하고, $Y$ 를 벡터공간의 모든 가능한 출력으로 취한다. 통계적 학습이론에서는 곱공간 $Z = X \times Y$ 위에 미지의 확률분포가 존재한다는 관점을 취한다. 이를테면 미지의 $p(z) = p(\vec{x},y)$ 가 존재한다. 훈련집합은 이 확률분포 위에 있는 $n$ 개의 샘플로 이루어져 있고, 다음과 같이 적힌다.

: $S = \{(\vec{x}_1,y_1), \dots ,(\vec{x}_n,y_n)\} = \{\vec{z}_1, \dots ,\vec{z}_n\}$

$\vec{x}_i$ 는 훈련집합에서의 입력벡터이며, $y_i$ 는 그것에 상응하는 출력이다.

이러한 형식주의에서, 추론문제(inference problem)는 $f(\vec{x}) \sim y$ 일 때의 함수 $f: X \to Y$ 를 찾는 것으로 구성된다. $\mathcal{H}$ 를 함수의 공간이고 할 때, $f: X \to Y$ 는 가설공간(hypothesis space)이라고 불린다. 가설공간은 알고리즘이 검색할 함수의 공간이다. $V(f(\vec{x}),y)$ 를 손실함수, 예측치 간의 차이에 대한 측정단위를 $f(\vec{x})$ , 실제 값을 $y$ 라고 하자. 은 다음과 같이 정의된다.

: $I[f] = \displaystyle \int_{X \times Y} V(f(\vec{x}),y)\, p(\vec{x},y) \,d\vec{x} \,dy$

목표함수, 즉 선택가능한 최적의 함수 $f$ 는 이하를 만족할 때 주어진다.

: $f = \inf_{h \in \mathcal{H}} I[h]$

확률분포 $p(\vec{x},y)$ 는 미지이기 때문에, 기대위험에는 대리측정(proxy measure)이 쓰여야만 한다. 이 측정은, 미지의 확률분포 위에 있는 샘플들로 이루어진 훈련집합에 기초한다. 이는 이라고 불린다.

: $I_S[f] = \frac{1}{n} \displaystyle \sum_{i=1}^n V( f(\vec{x}_i),y_i)$

경험적 위험(empirical risk)을 최소화하는 함수 $f_S$ 를 선택하는 학습 알고리즘을 라고 부른다.

3. 1. 훈련 집합

X

를 모든 가능한 입력 벡터 공간,

Y

를 모든 가능한 출력 벡터 공간이라고 할 때, 통계적 학습이론에서는 곱공간

Z = X \times Y

위에 미지의 확률분포

p(z) = p(\vec{x},y)

가 존재한다고 가정한다. 훈련 집합은 이 확률분포에서 추출된

n

개의 샘플로 구성되며, 다음과 같이 표현된다.

:

S = \{(\vec{x}_1,y_1), \dots ,(\vec{x}_n,y_n)\} = \{\vec{z}_1, \dots ,\vec{z}_n\}

여기서

\vec{x}_i

는 입력 벡터,

y_i

는 해당 입력 벡터에 대응하는 출력값이다.

추론 문제는

f(\vec{x}) \sim y

를 만족하는 함수

f: X \to Y

를 찾는 것이다. 가설 공간(hypothesis space)

\mathcal{H}

는 알고리즘이 탐색할 함수의 공간을 의미한다. 손실 함수

V(f(\vec{x}),y)

는 예측값

f(\vec{x})

와 실제 값

y

사이의 차이를 측정하는 척도이다. 기대 위험(expected risk)은 다음과 같이 정의된다.

:

I[f] = \displaystyle \int_{X \times Y} V(f(\vec{x}),y)\, p(\vec{x},y) \,d\vec{x} \,dy

최적의 함수

f

는 다음을 만족하는 함수이다.

:

f = \inf_{h \in \mathcal{H}} I[h]

하지만, 확률분포

p(\vec{x},y)

는 미지이므로, 기대 위험을 직접 계산할 수 없다. 따라서 훈련 집합을 기반으로 한 경험적 위험(empirical risk)을 사용한다.

:

I_S[f] = \frac{1}{n} \displaystyle \sum_{i=1}^n V( f(\vec{x}_i),y_i)

경험적 위험을 최소화하는 함수

f_S

를 선택하는 학습 알고리즘을 경험적 위험 최소화(empirical risk minimization)라고 부른다.

3. 2. 가설 공간

X

를 모든 가능한 입력의 벡터 공간으로,

Y

를 모든 가능한 출력의 벡터 공간으로 할 때, 통계적 학습 이론은 곱 공간

Z = X \times Y

에 알 수 없는 확률 분포

p(z) = p(\vec{x},y)

가 존재한다는 관점을 취한다. 훈련 집합은 이 확률 분포에서 추출한

n

개의 샘플

S = \{(\vec{x}_1,y_1), \dots ,(\vec{x}_n,y_n)\} = \{\vec{z}_1, \dots ,\vec{z}_n\}

로 구성된다. 여기서

\vec{x}_i

는 입력 벡터,

y_i

는 해당 입력에 대한 출력이다.

추론 문제는

f(\vec{x}) \sim y

를 만족하는 함수

f: X \to Y

를 찾는 것이다. 이때,

\mathcal{H}

를 가설 공간(hypothesis space)이라고 하며, 이는 알고리즘이 검색할 함수

f: X \to Y

의 공간이다. 손실 함수

V(f(\vec{x}),y)

는 예측값

f(\vec{x})

와 실제 값

y

의 차이를 나타내는 척도이다.

기대 위험은 다음과 같이 정의된다.

:

I[f] = \displaystyle \int_{X \times Y} V(f(\vec{x}),y)\, p(\vec{x},y) \,d\vec{x} \,dy

목표 함수는 다음을 만족하는

f

로 정의된다.

:

f = \inf_{h \in \mathcal{H}} I[h]

하지만, 확률 분포

p(\vec{x},y)

는 미지이므로, 기대 위험의 대리 측정으로 훈련 집합을 기반으로 하는 경험 위험이 사용된다.

:

I_S[f] = \frac{1}{n} \displaystyle \sum_{i=1}^n V( f(\vec{x}_i),y_i)

경험 위험 최소화는 경험적 위험을 최소화하는 함수

f_S

를 선택하는 학습 알고리즘이다.

3. 3. 손실 함수

X

를 벡터공간의 모든 가능한 입력으로 취하고,

Y

를 벡터공간의 모든 가능한 출력으로 취한다. 통계적 학습이론에서는 곱공간

Z = X \times Y

위에 미지의 확률분포가 존재한다는 관점을 취한다. 이를테면 미지의

p(z) = p(\vec{x},y)

가 존재한다. 훈련집합은 이 확률분포 위에 있는

n

개의 샘플로 이루어져 있고, 다음과 같이 적힌다.

:

S = \{(\vec{x}_1,y_1), \dots ,(\vec{x}_n,y_n)\} = \{\vec{z}_1, \dots ,\vec{z}_n\}

\vec{x}_i

는 훈련집합에서의 입력벡터이며,

y_i

는 그것에 상응하는 출력이다.

이러한 형식주의에서, 추론문제(inference problem)는

f(\vec{x}) \sim y

일 때의 함수

f: X \to Y

를 찾는 것으로 구성된다.

\mathcal{H}

를 함수의 공간이고 할 때,

f: X \to Y

는 가설공간(hypothesis space)이라고 불린다. 가설공간은 알고리즘이 검색할 함수의 공간이다.

V(f(\vec{x}),y)

를 손실 함수, 예측치 간의 차이에 대한 측정단위를

f(\vec{x})

, 실제 값을

y

라고 하자. 기대위험은 다음과 같이 정의된다.

:

I[f] = \displaystyle \int_{X \times Y} V(f(\vec{x}),y)\, p(\vec{x},y) \,d\vec{x} \,dy

목표함수, 즉 선택가능한 최적의 함수

f

는 이하를 만족할 때 주어진다.

:

f = \inf_{h \in \mathcal{H}} I[h]

확률분포

p(\vec{x},y)

는 미지이기 때문에, 기대위험에는 대리측정(proxy measure)이 쓰여야만 한다. 이 측정은, 미지의 확률분포 위에 있는 샘플들로 이루어진 훈련집합에 기초한다. 이는 경험적 위험이라고 불린다.

:

I_S[f] = \frac{1}{n} \displaystyle \sum_{i=1}^n V( f(\vec{x}_i),y_i)

경험적 위험을 최소화하는 함수

f_S

를 선택하는 학습 알고리즘을 경험적 위험 최소화라고 부른다.

문제가 회귀인지 분류인지에 따라 상이한 손실함수가 사용된다.

손실함수의 선택은, 학습 알고리즘에 의해 선택될 함수

f_S

의 결정요인이다. 손실함수는 또한 알고리즘의 수렴률에 영향을 미친다. 손실함수가 볼록 함수해지는 것이 중요하다.^[13]

문제가 회귀의 일종인지 분류의 일종인지에 따라 다른 손실함수가 쓰인다.

손실 함수의 선택은 학습 알고리즘이 선택할 함수

f_S

에 결정적인 요소이다. 손실 함수는 또한 알고리즘의 수렴 속도에 영향을 미친다. 손실 함수가 볼록 함수여야 하는 것은 중요하다.^[5]

문제의 유형이 회귀인지 분류인지에 따라 다른 손실 함수가 사용된다.

3. 3. 1. 회귀 문제에서의 손실 함수

회귀에 대한 가장 일반적인 손실함수는 제곱 손실함수(L2-노름)이다. 이 손실함수는 범용 최소제곱법이다.

:

V(f(\vec{x}),y) = (y - f(\vec{x}))^2

때때로 절댓값 손실(L1-노름)이 활용된다.

:

V(f(\vec{x}),y) = |y - f(\vec{x})|

회귀 분석에서 가장 흔히 사용되는 손실 함수는 제곱 손실 함수(혹은 L2 노름)이다. 이 친숙한 손실 함수는 최소 자승 회귀에 사용된다. 형태는 다음과 같다.

V(f(\mathbf{x}),y) = (y - f(\mathbf{x}))^2

절대값 손실(혹은 L1 노름)도 때때로 사용된다.

V(f(\mathbf{x}),y) = |y - f(\mathbf{x})|

3. 3. 2. 분류 문제에서의 손실 함수

어떤 의미에서 0-1 지시함수는 분류에 있어서 가장 자연스러운 손실함수이다. 예측 출력이 실제 출력과 동일할 경우 0값을 지니며, 그렇지 아니할 경우에는 1값을 지닌다. 이진분류(binary classification)

Y = \{-1, 1\}

에서 이는 다음과 같다.

:

V(f(\vec{x}),y) = \theta(- y f(\vec{x}))

이 때,

\theta

는 단위 계단 함수이다.

어떤 의미에서 0-1 지표 함수는 분류에 가장 자연스러운 손실 함수이다. 예측된 출력이 실제 출력과 같으면 값 0을 갖고, 예측된 출력이 실제 출력과 다르면 값 1을 갖는다.

Y = \{-1, 1\}

인 이진 분류의 경우, 다음과 같다.

:

V(f(\mathbf{x}),y) = \theta(- y f(\mathbf{x}))

여기서

\theta

는 헤비사이드 계단 함수이다.

3. 4. 기대 위험과 경험적 위험

X

를 모든 가능한 입력의 벡터 공간으로,

Y

를 모든 가능한 출력의 벡터 공간으로 둔다. 통계적 학습 이론은 곱 공간

Z = X \times Y

에 대한 알 수 없는 확률 분포, 즉 알 수 없는

p(z) = p(\mathbf{x},y)

가 존재한다는 관점을 취한다. 훈련 세트는 이 확률 분포에서 추출한

n

개의 샘플로 구성되며 다음과 같이 표기한다.

S = \{(\mathbf{x}_1,y_1), \dots ,(\mathbf{x}_n,y_n)\} = \{\mathbf{z}_1, \dots ,\mathbf{z}_n\}

각

\mathbf{x}_i

는 훈련 데이터의 입력 벡터이고

y_i

는 이에 해당하는 출력이다.

이 형식에서 추론 문제는

f(\mathbf{x}) \sim y

를 만족하는 함수

f: X \to Y

를 찾는 것으로 구성된다.

\mathcal{H}

를 가설 공간이라고 하는 함수

f: X \to Y

의 공간이라고 하자. 가설 공간은 알고리즘이 검색할 함수 공간이다.

V(f(\mathbf{x}),y)

를 예측 값

f(\mathbf{x})

와 실제 값

y

의 차이를 나타내는 메트릭인 손실 함수라고 하자. 기대 위험은 다음과 같이 정의된다.

I[f] = \int_{X \times Y} V(f(\mathbf{x}),y)\, p(\mathbf{x},y) \,d\mathbf{x} \,dy

선택할 수 있는 최상의 함수인 목표 함수는 다음을 만족하는

f

에 의해 주어진다.

f = \mathop{\operatorname{argmin}}_{h \in \mathcal{H}} I[h]

확률 분포

p(\mathbf{x},y)

가 알려져 있지 않기 때문에 기대 위험에 대한 프록시 측정이 사용되어야 한다. 이 측정은 이 알 수 없는 확률 분포의 샘플인 훈련 세트를 기반으로 한다. 이를 경험 위험이라고 한다.

I_S[f] = \frac{1}{n} \sum_{i=1}^n V( f(\mathbf{x}_i),y_i)

경험 위험을 최소화하는 함수

f_S

를 선택하는 학습 알고리즘을 경험 위험 최소화라고 한다.

3. 5. 경험적 위험 최소화

4. 정칙화

이 이미지는 기계 학습에서 과적합의 예를 나타냅니다. 빨간 점은 훈련 세트 데이터를 나타냅니다. 녹색 선은 실제 함수 관계를 나타내고, 파란색 선은 훈련 세트 데이터에 과적합된 학습된 함수를 나타냅니다.

기계 학습 문제에서 발생하는 주요 문제점은 과적합이다. 학습은 예측 문제이기 때문에, 목표는 (이전에 관찰된) 데이터에 가장 가깝게 맞는 함수를 찾는 것이 아니라, 미래의 입력을 가장 정확하게 예측하는 함수를 찾는 것이다. 경험적 위험 최소화는 과적합의 위험을 안고 있다. 즉, 데이터와 정확히 일치하지만 미래의 출력을 잘 예측하지 못하는 함수를 찾는 것이다.

과적합은 불안정한 해의 증상이다. 훈련 세트 데이터의 작은 섭동(攝動)은 학습된 함수에서 큰 변동을 일으킬 수 있다. 해의 안정성을 보장할 수 있다면 일반화와 일관성도 보장된다는 것을 알 수 있다.^[14]^[15] 정규화는 과적합 문제를 해결하고 문제의 안정성을 제공할 수 있다.

정규화는 가설 공간

\mathcal{H}

를 제한하여 수행할 수 있다. 일반적인 예는

\mathcal{H}

를 선형 함수로 제한하는 것이다. 이는 선형 회귀의 표준 문제로 축소되는 것으로 볼 수 있다.

\mathcal{H}

는 L1에서 차수

p

의 다항식, 지수 또는 제한된 함수로 제한될 수도 있다. 가설 공간을 제한하면 잠재 함수 형태가 제한되어 과적합을 피할 수 있으며, 경험적 위험을 임의로 0에 가깝게 만드는 함수를 선택할 수 없다.

정규화의 한 예는 티호노프 정규화이다. 이는 다음을 최소화하는 것으로 구성된다.

:

\frac{1}{n} \displaystyle \sum_{i=1}^n V(f(\vec{x}_i),y_i) + \gamma\|f\|_{\mathcal{H}}^2

여기서

\gamma

는 고정된 양의 매개변수, 즉 정규화 매개변수이다. 티호노프 정규화는 해의 존재, 유일성 및 안정성을 보장한다.^[16]

4. 1. 과적합

기계 학습 문제에서 발생하는 주요 문제점은 과적합이다. 학습은 예측 문제이기 때문에, 목표는 (이전에 관찰된) 데이터에 가장 가깝게 맞는 함수를 찾는 것이 아니라, 미래의 입력을 가장 정확하게 예측하는 함수를 찾는 것이다. 경험적 위험 최소화는 과적합의 위험을 안고 있다. 즉, 데이터와 정확히 일치하지만 미래의 출력을 잘 예측하지 못하는 함수를 찾는 것이다.

과적합은 불안정한 해의 증상이다. 훈련 세트 데이터의 작은 섭동(攝動)은 학습된 함수에서 큰 변동을 일으킬 수 있다. 해의 안정성을 보장할 수 있다면 일반화와 일관성도 보장된다는 것을 알 수 있다.^[14]^[15]^[6]^[7] 정규화는 과적합 문제를 해결하고 문제의 안정성을 제공할 수 있다.

정규화는 가설 공간

\mathcal{H}

를 제한하여 수행할 수 있다. 일반적인 예는

\mathcal{H}

를 선형 함수로 제한하는 것이다. 이는 선형 회귀의 표준 문제로 축소되는 것으로 볼 수 있다.

\mathcal{H}

는 L1에서 차수

p

의 다항식, 지수 또는 제한된 함수로 제한될 수도 있다. 가설 공간을 제한하면 잠재 함수 형태가 제한되어 과적합을 피할 수 있으며, 경험적 위험을 임의로 0에 가깝게 만드는 함수를 선택할 수 없다.

정규화의 한 예는 티호노프 정규화이다. 이는 다음을 최소화하는 것으로 구성된다.

:

\frac{1}{n} \displaystyle \sum_{i=1}^n V(f(\vec{x}_i),y_i) + \gamma\|f\|_{\mathcal{H}}^2

여기서

\gamma

는 고정된 양의 매개변수, 즉 정규화 매개변수이다. 티호노프 정규화는 해의 존재, 유일성 및 안정성을 보장한다.^[16]^[8]

4. 2. 티호노프 정칙화

기계 학습에서 발생하는 주요 문제는 과적합이다. 학습의 목표는 미래의 입력을 가장 정확하게 예측하는 함수를 찾는 것이지만, 경험적 위험 최소화는 데이터와 정확히 일치하지만 미래 예측력이 떨어지는 함수를 찾는 과적합의 위험이 있다.^[14]^[15]

과적합은 불안정한 해를 낳을 수 있으며, 훈련 집합의 작은 변화가 학습된 함수에 큰 변동을 일으킬 수 있다. 해의 안정성이 보장되면 일반화와 일관성도 보장된다.^[6]^[7] 정규화는 이러한 과적합 문제를 해결하고 안정성을 확보하는 방법이다.

정규화는 가설 공간

\mathcal{H}

를 제한하는 방식으로 이루어지는데, 예를 들어

\mathcal{H}

를 선형 함수로 제한하면 선형 회귀 문제가 된다. 가설 공간을 제한하면 잠재 함수 형태가 제한되어 과적합을 피할 수 있다.

티호노프 정칙화는 정칙화의 한 예시이다.

:

\frac{1}{n} \displaystyle \sum_{i=1}^n V(f(\vec{x}_i),y_i) + \gamma\|f\|_{\mathcal{H}}^2

여기서

\gamma

는 정칙화 매개변수로, 티호노프 정칙화는 해의 존재, 유일성 및 안정성을 보장한다.^[16]

5. 경험적 위험의 제한

이진 분류기 $f: \mathcal{X} \to \{0, 1\}$ 을 생각해 보자. 호프딩 부등식을 적용하여 경험적 위험이 실제 위험에서 벗어날 확률을 서브 가우시안 분포로 제한할 수 있다.

$\mathbb{P} (|\hat{R} (f) - R(f)| \geq \epsilon) \leq 2e^{- 2 n \epsilon^2}$

그러나 일반적으로 경험적 위험 최소화를 수행할 때 분류기가 주어지지 않으므로, 직접 선택해야 한다. 따라서, 전체 클래스에 대한 차이의 상한에 대한 확률을 제한하는 것이 더 유용한 결과이다.

$\mathbb{P} \bigg( \sup_{f \in \mathcal{F}} | \hat{R} (f) - R(f) | \geq \epsilon \bigg) \leq 2 S(\mathcal{F}, n) e^{-n \epsilon^2 / 8} \approx n^d e^{-n \epsilon^2 / 8}$

여기서 $S(\mathcal{F},n)$ 는 섀터링 넘버이고, $n$ 은 데이터 세트의 샘플 수이다. 지수항은 호프딩 부등식에서 비롯되지만, 전체 클래스에 대해 상한을 취하는 데 추가 비용이 발생하며, 이것이 섀터링 넘버이다.

5. 1. 섀터링 넘버

이진 분류기

f: \mathcal{X} \to \{0, 1\}

을 생각해 보자. 호프딩 부등식을 적용하여 경험적 위험이 실제 위험에서 벗어날 확률을 서브 가우시안 분포로 제한할 수 있다.

\mathbb{P} (|\hat{R} (f) - R(f)| \geq \epsilon) \leq 2e^{- 2 n \epsilon^2}

그러나 일반적으로 경험적 위험 최소화를 수행할 때 분류기가 주어지지 않으므로, 직접 선택해야 한다. 따라서, 전체 클래스에 대한 차이의 상한에 대한 확률을 제한하는 것이 더 유용한 결과이다.

\mathbb{P} \bigg( \sup_{f \in \mathcal{F}} | \hat{R} (f) - R(f) | \geq \epsilon \bigg) \leq 2 S(\mathcal{F}, n) e^{-n \epsilon^2 / 8} \approx n^d e^{-n \epsilon^2 / 8}

여기서

S(\mathcal{F},n)

는 섀터링 넘버이고,

n

은 데이터 세트의 샘플 수이다. 지수항은 호프딩 부등식에서 비롯되지만, 전체 클래스에 대해 상한을 취하는 데 추가 비용이 발생하며, 이것이 섀터링 넘버이다.

참조

_[1] 서적 The Nature of Statistical Learning Theory Springer
_[2] 서적 The Elements of Statistical Learning: Data Mining, Inference, and Prediction Springer 2009
_[3] 서적 Foundations of Machine Learning MIT Press 2012
_[4] 간행물 Statistical Learning Theory and Applications https://www.mit.edu/[...] 2012
_[5] 논문 Are Loss Functions All the Same? https://direct.mit.e[...] 2004-05-01
_[6] 간행물 On the uniform convergence of relative frequencies of events to their probabilities http://ai2-s2-pdfs.s[...] 1971
_[7] 간행물 Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization https://link.springe[...] 2006
_[8] 간행물 Statistical Learning Theory and Applications https://www.mit.edu/[...] 2012
_[9] 서적 The Elements of Statistical Learning Springer-Verlag 2009
_[10] 서적 Foundations of Machine Learning MIT Press 2012
_[11] 뉴스 Exploiting pitcher decision-making using Reinforcement Learning
_[12] 간행물 Statistical Learning Theory and Applications http://www.mit.edu/~[...] 2012
_[13] 간행물 2004
_[14] 간행물 On the uniform convergence of relative frequencies of events to their probabilities http://ai2-s2-pdfs.s[...] 1971
_[15] 간행물 Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization 2006
_[16] 간행물 Statistical Learning Theory and Applications http://www.mit.edu/~[...] 2012

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com