일반화 오차

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 정의
- 2.1. 일반화 오차의 확률적 범위
3. 안정성과의 관계
4. 과적합(Overfitting)과의 관계
- 4.1. 과적합 방지 기법
참조

1. 개요

일반화 오차는 학습된 함수가 새로운 데이터에 대해 얼마나 잘 작동하는지를 나타내는 지표로, 훈련 데이터의 오차와 전체 데이터 분포의 오차 간의 차이를 의미한다. 이는 통계적 학습 이론에서 중요한 개념으로, 알고리즘의 일반화 능력을 평가하는 데 사용된다. 일반화 오차는 안정성과 밀접한 관련이 있으며, 알고리즘의 안정성이 높을수록 일반화 오차는 작아지는 경향이 있다. 또한, 과적합은 일반화 오차를 증가시키는 주요 원인 중 하나이며, 과적합을 방지하기 위한 다양한 기법들이 존재한다.

더 읽어볼만한 페이지

분류 알고리즘 - 인공 신경망
분류 알고리즘 - 퍼셉트론
퍼셉트론은 프랭크 로젠블랫이 고안한 인공신경망 모델로, 입력 벡터에 가중치를 곱하고 편향을 더한 값을 활성화 함수에 통과시켜 이진 분류를 수행하는 선형 분류기 학습 알고리즘이며, 초기 신경망 연구의 중요한 모델로서 역사적 의미를 가진다.
기계 학습 - 비지도 학습
비지도 학습은 레이블이 없는 데이터를 통해 패턴을 발견하고 데이터 구조를 파악하는 것을 목표로 하며, 주성분 분석, 군집 분석, 차원 축소 등의 방법을 사용한다.
기계 학습 - 지도 학습
지도 학습은 레이블된 데이터를 사용하여 입력 데이터와 출력 레이블 간의 관계를 학습하는 기계 학습 분야로, 예측 모델 생성, 알고리즘 선택, 모델 최적화, 정확도 평가 단계를 거치며, 회귀 및 분류 문제에 적용되고 다양한 확장 기법과 성능 평가 방법을 활용한다.

2. 정의

학습 문제에서 목표는 입력 데이터 $\vec{x}$ 를 기반으로 출력값 $y$ 를 예측하는 함수 $f(\vec{x})$ 를 개발하는 것이다. 함수 $f_n$ 은 $n$ 개의 데이터 포인트를 가진 훈련 데이터 집합을 기반으로 학습된 함수를 나타낸다.

특정 함수 $f$ 에 대한 '''예상 오차'''( $I[f]$ )는 모든 가능한 입력 $\vec{x}$ 와 출력 $y$ 값에 대한 손실 함수 $V(f(\vec{x}),y)$ 의 기댓값으로 정의된다. 이는 함수의 실제 성능을 나타내며, '''기대 손실''' 또는 '''위험'''이라고도 불린다.^[1] 예상 오차는 $\vec{x}$ 와 $y$ 의 미지의 결합 확률 분포 $\rho(\vec{x},y)$ 를 사용하여 다음과 같이 계산된다.

: $I[f] = \int_{X \times Y} V(f(\vec{x}),y) \rho(\vec{x},y) d\vec{x} dy$

하지만 실제로는 결합 확률 분포 $\rho(\vec{x},y)$ 를 알 수 없으므로 예상 오차 $I[f]$ 를 직접 계산하는 것은 불가능하다.

대신, 주어진 $n$ 개의 표본 데이터 $(\vec{x}_1, y_1), ..., (\vec{x}_n, y_n)$ 에 대한 오차를 계산할 수 있으며, 이를 '''경험 오차'''( $I_n[f]$ ) 또는 '''경험 위험'''이라고 한다.

: $I_n[f] = \frac{1}{n} \sum_{i=1}^n V(f(\vec{x}_i),y_i)$

경험 오차는 훈련 데이터 집합에서 함수 $f$ 가 얼마나 잘 수행되는지를 측정한다.

'''일반화 오차'''는 학습된 함수 $f_n$ 의 실제 성능(예상 오차 $I[f_n]$ )과 훈련 데이터에서의 성능(경험 오차 $I_n[f_n]$ ) 사이의 차이를 의미한다. 즉, 훈련 데이터에서 관찰된 오차와 실제 미지의 데이터 분포에서의 오차 간의 차이를 나타낸다.

: $\text{일반화 오차} = I[f_n] - I_n[f_n]$

어떤 학습 알고리즘이 데이터 집합의 크기 $n$ 이 무한대로 커짐에 따라 일반화 오차가 0으로 수렴할 때, 그 알고리즘은 '''일반화'''되었다고 말한다.

: $\lim_{n \rightarrow \infty} (I[f_n] - I_n[f_n]) = 0$

예상 오차 $I[f_n]$ 는 미지의 확률 분포 $\rho$ 때문에 직접 계산할 수 없으므로, 일반화 오차 역시 직접적으로 계산하기는 어렵다. 통계적 학습이론에서는 이러한 일반화 오차의 크기를 확률적으로 제한하거나 그 특성을 분석하는 것을 중요한 목표로 삼는다.

2. 1. 일반화 오차의 확률적 범위

일반화 오차

I[f_n]

는 손실 함수

V(f)

의 기댓값으로, 미지의 결합 확률 분포

\rho(\vec{x},y)

를 사용하여 계산되므로 직접 알 수 없다.^[1] 따라서 통계적 학습이론의 많은 문제에서는 일반화 오차 자체를 계산하는 대신, 일반화 오차와 경험 오차의 차이를 확률적으로 제한하거나 특성화하는 것을 목표로 한다.

이는 다음과 같은 수식으로 표현될 수 있다.

:

P_G = P(I[f_n] - I_n[f_n] \leq \epsilon) \geq 1 - \delta_n

위 식은 실제 일반화 오차

I[f_n]

가 경험 오차

I_n[f_n]

보다 특정 오차 경계

\epsilon

만큼 더 큰 값 이하일 확률(

P_G

)이 최소

1 - \delta_n

임을 나타낸다. 즉, 일반화 오차가 경험 오차보다

\epsilon

이상 크지 않을 확률을 최소

1 - \delta_n

으로 보장하는 것이 목표이다. 여기서 오차 경계

\epsilon

은 일반적으로 허용하는 오차 확률

\delta

와 훈련 데이터 집합의 크기

n

에 따라 달라진다.

3. 안정성과의 관계

여러 유형의 알고리즘에서, 특정 안정성 기준을 만족하면 일반화 오차에 대한 한계, 즉 일반화 성능이 보장된다는 것이 밝혀졌다.^[4]^[3] 특히, 알고리즘이 다음 조건을 충족하면 일반화된다고 본다.

대칭성: 입력 데이터의 순서가 결과에 영향을 미치지 않아야 한다.
제한된 손실: 손실 함수의 값이 유한해야 한다.
두 가지 안정성 조건:
LOOCV(Leave-one-out cross-validation) 안정성: LOOCV 방식을 사용할 때 각 데이터 포인트에 대한 예측 오차가 점근적으로 0에 수렴해야 한다.
예측된 LOO(Leave-one-out) 오차 안정성: 훈련 집합에서 데이터 포인트 하나를 제거해도 예측 결과가 크게 변하지 않아야 한다. 이는 $L_1$ 노름에서 작동하는 경우 가설 안정성이라고도 불린다.^[4]^[3]

이러한 안정성 조건들은 알고리즘이 새로운 데이터에 대해 얼마나 잘 일반화될 수 있는지를 이론적으로 뒷받침한다.

3. 1. LOOCV (Leave-one-out cross-validation) 안정성

여러 유형의 알고리즘에 대하여, 알고리즘이 일정한 안정성 기준을 충족하면 일반화 한계를 갖는 것으로 나타났다. 특히, 알고리즘이 대칭적이고(입력 순서가 결과에 영향을 미치지 않음), 손실이 한정되어 있으며, 두 가지 안정성 조건을 충족하면 알고리즘은 일반화된다. 첫 번째 안정성 조건인 LOOCV(Leave-one-out cross-validation) 안정성은, 알고리즘이 안정적이기 위해서는 LOOCV를 사용할 때 각 데이터 포인트에 대한 예측 오차가

n\rightarrow \infty

일 때 0에 수렴해야 한다는 것을 의미한다. 즉, 훈련 집합에서 데이터 하나를 제외하고 학습했을 때의 오차 변화가 작아야 한다. 두 번째 조건은 예측된 LOO 오차 안정성(expected-to-leave-one-out error stability;

L_1

노름에서 작동하는 경우의 가설 안정성)으로, 훈련 집합에서 단일 데이터 지점을 제거해도 남은 데이터에 대한 예측에 큰 변함이 없을 때 충족된다.^[4]

LOOCV 안정성은 다음과 같이 공식화될 수 있다.

알고리즘

L

은 각

n

에 대하여, 다음 조건을 만족하는

\beta_{CV}^{(n)}

와

\delta_{CV}^{(n)}

가 존재할 경우

CVloo

안정성을 갖는다.

:

\forall i\in\{1,...,n\}, \mathbb{P}_S\

3. 2. 예측된 LOO 오차 안정성 (Expected-to-leave-one-out error stability)

예측된 LOO 오차 안정성(expected-to-leave-one-out error stability)은 기계 학습 알고리즘의 안정성을 평가하는 기준 중 하나이다.^[4] 이는 훈련 집합에서 데이터 지점 하나를 제외했을 때, 나머지 데이터를 사용하여 학습된 모델의 예측이 크게 변하지 않아야 함을 의미한다. 만약 알고리즘이

L_1

노름에서 작동한다면, 이 안정성은 가설 안정성(Hypothesis Stability)이라고도 불린다.^[4]^[3]

이 안정성 조건은 알고리즘의 일반화 능력과 관련이 있다. 알고리즘

L

이 예측된 LOO 오차 안정성을 갖는다는 것은, 각 훈련 데이터 크기

n

에 대해 다음 조건을 만족하는

\beta_{EL}^{(n)}

와

\delta_{EL}^{(n)}

가 존재함을 의미한다.

:

\forall i\in\{1,...,n\}, \mathbb{P}_S\

3. 3. 안정성이 입증된 알고리즘

특정 안정성 기준을 만족하는 알고리즘은 일반화 오차에 대한 한계를 가지며, 이는 곧 일반화 성능이 보장됨을 의미한다는 것이 밝혀졌다. 특히, 알고리즘이 대칭적이고(데이터 입력 순서가 결과에 영향을 주지 않음), 손실 함수 값이 유한하며, 다음 두 가지 안정성 조건을 만족하면 일반화 성능이 보장된다.첫 번째 조건은 LOOCV(Leave-one-out cross-validation) 안정성이다. 이는 LOOCV 방식을 사용할 때, 각 데이터 샘플 하나를 제외하고 학습시킨 모델의 예측 오차가 데이터셋 크기

n

이 무한대로 갈 때(

n\rightarrow \infty

) 0으로 수렴해야 한다는 조건이다. 두 번째 조건은 예측된 LOO 오차 안정성(expected-to-leave-one-out error stability)이다. 이는

L_1

노름에서 작동하는 경우 가설 안정성이라고도 불리며, 훈련 집합에서 단일 데이터 지점을 제거해도 남은 데이터에 대한 예측에 큰 변화가 없을 때 충족된다.^[4]

이러한 조건을 만족하여 안정성이 증명된 여러 알고리즘이 있으며, 그 결과 일반화 오차에 대한 경계를 갖는다는 것이 입증되었다. 안정성이 증명된 알고리즘 목록과 관련 연구는 여기에서 찾아볼 수 있다.

4. 과적합(Overfitting)과의 관계

일반화 오차와 과적합(Overfitting)의 개념은 밀접하게 연관되어 있다. 과적합은 기계 학습 모델이 훈련 데이터에 너무 과도하게 맞춰져서, 데이터에 내재된 실제 패턴뿐만 아니라 우연히 발생한 노이즈나 특정 샘플에만 나타나는 특징까지 학습하는 현상을 말한다.

이렇게 과적합된 모델(함수 $f_S$ )은 훈련 데이터 세트에서는 매우 낮은 오차를 보이며 뛰어난 성능을 나타낼 수 있다. 하지만, 이는 모델이 훈련 데이터의 특성을 '암기'한 것에 가깝기 때문에, 이전에 보지 못했던 새로운 데이터(실제 데이터의 결합 확률 분포 $x$ 와 $y$ 에서 추출된 데이터)가 입력되었을 때는 예측 성능이 현저히 떨어지는 결과를 낳는다.

결과적으로, 모델이 훈련 데이터에 과적합될수록 새로운 데이터에 대한 예측 능력, 즉 일반화 능력이 저하된다. 이는 곧 일반화 오차의 증가로 이어진다. 훈련 데이터에서의 오차는 작지만 실제 상황에서의 예측 오차는 커지는 것이 과적합의 핵심 문제이다.

과적합의 발생 정도는 교차 검증과 같은 방법을 통해 평가될 수 있으며, 모델의 복잡도를 조절하는 정규화 기법 등을 사용하여 과적합을 완화하려는 시도가 이루어진다. 하지만 과적합을 피하기 위해 모델을 지나치게 단순화하는 것은 또 다른 문제를 야기할 수 있으며, 이는 모델의 복잡성과 예측 성능 사이의 균형 문제인 편향-분산 트레이드오프와 깊은 관련이 있다.

4. 1. 과적합 방지 기법

과적합과 일반화 오차의 관계 예시. 훈련 데이터(파란 점)에 맞춰진 함수(왼쪽)와 새로운 데이터에 대한 성능(오른쪽)을 비교한다. 데이터가 적고 모델이 복잡하면(위쪽 행) 훈련 데이터에는 잘 맞지만(왼쪽 위) 새로운 데이터에 대한 오차(일반화 오차)는 크다(오른쪽 위). 데이터 양이 늘어나면(아래쪽 행) 과적합이 줄어든다.

일반화 오차와 과적합의 개념은 밀접하게 연관되어 있다. 과적합은 학습된 함수

f_S

가 훈련 데이터 샘플 내의 노이즈까지 과도하게 학습했을 때 발생한다. 이 경우 함수는 훈련 데이터에서는 좋은 성능을 보이지만, 실제 데이터 분포(

x

와

y

의 결합 확률 분포)에서 추출된 새로운 데이터에 대해서는 성능이 저하된다. 따라서 과적합이 심할수록 일반화 오차는 커진다.

과적합을 방지하고 모델의 일반화 성능을 평가하기 위해 여러 기법이 사용된다.

교차 검증: 과적합의 정도를 측정하는 대표적인 방법이다. 주어진 데이터를 여러 개의 부분집합으로 나누어, 일부는 모델 훈련에 사용하고 나머지는 모델 검증(테스트)에 사용한다. 검증용 데이터는 모델 훈련 과정에서 사용되지 않았으므로, 이 데이터를 통해 모델의 실제 예측 오차, 즉 일반화 오차를 근사적으로 추정할 수 있다.

정규화: 모델이 과도하게 복잡해지는 것을 막아 과적합을 방지하는 기법이다. 모델의 복잡도에 일종의 페널티를 부과하는 방식으로 작동한다.
티호노프 정규화 (Tikhonov regularization): 모델의 계수(parameter) 크기를 제한하여 함수를 더 단순하게 만든다.
이바노프 정규화 (Ivanov regularization): 모델이 탐색할 수 있는 함수의 공간(가설 공간) 자체를 제한하거나, 최적화 과정에서 특정 제약 조건을 추가하여 복잡도를 제어한다.

편향-분산 트레이드오프: 과적합을 피하려는 노력은 모델의 예측 정확도와 관련된 다른 문제와 상충될 수 있다. 모델을 너무 단순하게 만들면(과소적합), 데이터의 중요한 패턴을 놓쳐 예측이 한쪽으로 치우치는 편향(bias)이 커질 수 있다. 반대로 모델을 너무 복잡하게 만들면(과적합), 훈련 데이터의 노이즈까지 학습하여 새로운 데이터에 대한 예측이 불안정해지는 분산(variance)이 커진다. 일반적으로 편향과 분산은 동시에 최소화하기 어려우며, 둘 사이의 적절한 균형점을 찾는 것이 중요하다.

참조

_[1] 서적 Foundations of Machine learning MIT Press
_[2] 서적 Learning from Data AMLBook Press
_[3] 간행물 Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization. http://cbcl.mit.edu/[...]
_[4] 저널 Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization. http://cbcl.mit.edu/[...] 2019-04-11

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com

일반화 오차
개요
일반화 오차	일반화 오차(generalization error, 또는 out-of-sample error)는 학습 알고리즘이 독립적인 테스트 데이터 세트에서 얼마나 정확하게 수행될지를 측정한 것이다.
정의	'일반화 오차는 다음과 같이 정의할 수 있다. E(오차) = P(오차) 여기서 P(오차)는 알고리즘이 새로운 데이터 세트에서 오차를 만들 확률이다.'
중요성	일반화 오차는 학습 알고리즘의 성능을 평가하는 데 중요한 지표이다. 일반화 오차가 낮을수록 알고리즘이 새로운 데이터 세트에서 더 잘 수행될 것으로 예상할 수 있다.
일반화 오차에 영향을 미치는 요인	알고리즘의 복잡성 학습 데이터 세트의 크기 학습 데이터 세트의 품질
일반화 오차를 줄이기 위한 기술
교차 검증	교차 검증은 학습 데이터 세트를 여러 개의 하위 집합으로 나누어, 각 하위 집합을 테스트 데이터 세트로 사용하고 나머지 하위 집합을 학습 데이터 세트로 사용하는 기술이다. 이렇게 하면 알고리즘의 일반화 오차를 더 정확하게 추정할 수 있다.
정규화	정규화는 알고리즘의 복잡성을 줄이는 기술이다. 이렇게 하면 알고리즘이 학습 데이터 세트에 과적합되는 것을 방지할 수 있다.
조기 중단	조기 중단은 알고리즘이 학습 데이터 세트에서 더 이상 개선되지 않을 때 학습을 중단하는 기술이다. 이렇게 하면 알고리즘이 학습 데이터 세트에 과적합되는 것을 방지할 수 있다.
같이 보기
관련 개념	과적합 편향-분산 트레이드오프 기계 학습의 통계적 학습 이론