맨위로가기

조기 중단

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

조기 중단은 기계 학습 모델의 과적합을 방지하기 위한 정규화 기법 중 하나이다. 모델 훈련 과정에서 훈련 데이터에 대한 성능은 향상되지만, 새로운 데이터에 대한 일반화 성능이 저하되는 과적합 문제를 해결하기 위해 사용된다. 조기 중단은 반복적인 학습 알고리즘의 훈련을 조기에 종료하여 과적합을 방지하며, 검증 세트의 오류를 모니터링하여 훈련 중단 시점을 결정하는 검증 기반 조기 중단 방법이 널리 사용된다. 비모수 회귀, 부스팅 등 다양한 기계 학습 알고리즘에 적용될 수 있으며, 홀드아웃 방법, 교차 검증 등의 구체적인 구현 방식을 통해 실현된다.

더 읽어볼만한 페이지

  • 인공신경망 - 인공 뉴런
    인공 뉴런은 인공신경망의 기본 요소로서, 입력 신호에 가중치를 곱하고 합산하여 활성화 함수를 거쳐 출력을 생성하며, 생물학적 뉴런을 모방하여 설계되었다.
  • 인공신경망 - 퍼셉트론
    퍼셉트론은 프랭크 로젠블랫이 고안한 인공신경망 모델로, 입력 벡터에 가중치를 곱하고 편향을 더한 값을 활성화 함수에 통과시켜 이진 분류를 수행하는 선형 분류기 학습 알고리즘이며, 초기 신경망 연구의 중요한 모델로서 역사적 의미를 가진다.
  • 토막글 틀에 과도한 변수를 사용한 문서 - 전향
    전향은 종교적 개종이나 노선 변경을 의미하며, 근대 이후 정치적 이념 변화를 지칭하는 용어로 확장되어 개인의 신념 변화, 정치적 압력 등 다양한 요인으로 발생하며, 사회주의·공산주의로부터의 전향, 전향 문학, 냉전 시대 이후의 전향 현상 등을 폭넓게 논의한다.
  • 토막글 틀에 과도한 변수를 사용한 문서 - 포토마스크
    포토마스크는 반도체, 디스플레이, 인쇄 회로 기판 제조 시 웨이퍼에 회로 패턴을 전사하는 마스크로, 기술 발전을 거듭하며 융용 실리카 기판과 금속 흡수막을 사용하고 위상 천이 마스크, EUV 마스크 등의 고급 기술이 개발되어 반도체 미세화에 기여하고 있지만, 높은 제작 비용과 기술적 어려움은 해결해야 할 과제이다.
  • 토론 이름공간 토막글 - 전향
    전향은 종교적 개종이나 노선 변경을 의미하며, 근대 이후 정치적 이념 변화를 지칭하는 용어로 확장되어 개인의 신념 변화, 정치적 압력 등 다양한 요인으로 발생하며, 사회주의·공산주의로부터의 전향, 전향 문학, 냉전 시대 이후의 전향 현상 등을 폭넓게 논의한다.
  • 토론 이름공간 토막글 - 포토마스크
    포토마스크는 반도체, 디스플레이, 인쇄 회로 기판 제조 시 웨이퍼에 회로 패턴을 전사하는 마스크로, 기술 발전을 거듭하며 융용 실리카 기판과 금속 흡수막을 사용하고 위상 천이 마스크, EUV 마스크 등의 고급 기술이 개발되어 반도체 미세화에 기여하고 있지만, 높은 제작 비용과 기술적 어려움은 해결해야 할 과제이다.
조기 중단

2. 배경

이 섹션에서는 조기 중단 방법을 이해하는 데 필요한 기본적인 기계 학습 개념을 소개한다. 기계 학습 모델을 훈련시킬 때 발생할 수 있는 과적합 문제를 완화하기 위해 다양한 정규화 기법이 사용되는데,[1] 조기 중단 역시 이러한 정규화 기법의 한 종류로 볼 수 있다.

2. 1. 과적합 (Overfitting)

그림 1. 녹색 선은 과적합된 모델을 나타내고 검은색 선은 정규화된 모델을 나타냅니다. 녹색 선이 훈련 데이터를 가장 잘 따르지만 해당 데이터에 너무 의존적이며 검은색 윤곽선으로 표시된 새로운 보이지 않는 데이터에 대해 검은색 선에 비해 더 높은 오류율을 가질 가능성이 높습니다.


기계 학습 알고리즘은 주어진 한정된 훈련 데이터 집합을 사용하여 모델을 학습시킨다. 이 과정에서 모델의 성능은 훈련 데이터에 포함된 관측값들을 얼마나 잘 예측하는지를 기준으로 평가된다. 그러나 기계 학습의 궁극적인 목표는 일반화, 즉 이전에 관찰되지 않은 새로운 데이터에 대해서도 정확하게 예측할 수 있는 모델을 만드는 것이다.
과적합은 모델이 훈련 데이터의 특성에 지나치게 맞춰져서, 훈련 데이터에 대해서는 매우 높은 예측 정확도를 보이지만 실제 새로운 데이터에 대해서는 예측 성능이 떨어지는 현상을 의미한다. 즉, 훈련 데이터에만 과도하게 최적화되어 일반화 오차가 커지는 경우를 말한다. 그림 1에서 녹색 선은 훈련 데이터(점)를 거의 완벽하게 따라가지만, 이는 데이터의 노이즈나 특정 패턴까지 학습한 결과일 수 있다. 반면 검은색 선은 훈련 데이터와 약간의 오차는 있지만, 보이지 않는 새로운 데이터(검은색 윤곽선)에 대해서는 녹색 선보다 더 나은 예측 성능을 보일 가능성이 높다.

2. 2. 정규화 (Regularization)



기계 학습 알고리즘은 한정된 훈련 데이터 집합을 사용하여 모델을 학습시킨다. 이 과정에서 모델은 훈련 데이터에 포함된 관측치를 얼마나 잘 예측하는지에 따라 평가된다. 그러나 기계 학습의 궁극적인 목표는 일반적으로 이전에 보지 못한 새로운 데이터에 대해서도 잘 예측하는 모델, 즉 일반화 성능이 좋은 모델을 만드는 것이다. 과적합은 모델이 훈련 데이터에는 매우 잘 맞지만, 새로운 데이터에 대해서는 예측 성능이 떨어져 일반화 오차가 커지는 현상을 말한다.

기계 학습 분야에서 정규화는 이러한 과적합을 방지하기 위해 학습 알고리즘을 수정하는 과정을 의미한다. 이는 보통 학습된 모델에 어떤 종류의 평활성(smoothness) 제약을 가하는 방식으로 이루어진다.[1]

이러한 평활성 제약은 모델의 파라미터(매개변수) 수를 제한하거나, 티호노프 정규화와 같이 비용 함수(cost function)에 제약 조건을 추가하여 명시적으로 적용될 수 있다. 티호노프 정규화는 주성분 회귀 및 다른 여러 정규화 기법과 함께, 필터 적용을 특징으로 하는 스펙트럼 정규화(spectral regularization)의 범주에 속한다. 조기 종료 역시 이러한 정규화 기법의 한 종류로 간주될 수 있다.

2. 3. 경사 하강법 (Gradient Descent)

경사 하강법은 1차 반복 최적화 방법이다. 각 반복 단계에서는 함수기울기(gradient)가 가리키는 반대 방향으로 조금씩 이동하면서 최적화 문제에 대한 근사 해를 찾아 나간다. 이동하는 거리(단계 크기)를 적절히 조절하면, 함수 값이 더 이상 줄어들지 않는 지점, 즉 지역 최소값(local minimum)으로 수렴하게 만들 수 있다. 기계 학습에서는 학습 데이터에 대한 오차를 나타내는 손실 함수를 정의하고, 경사 하강법을 이용해 이 함수의 값을 최소화하는 방식으로 모델을 학습시킨다.

3. 이론적 근거

통계적 학습 이론의 관점에서 조기 중단의 원리를 살펴보자.[3] 학습 목표는 주어진 입력 x에 대해 출력 y를 예측하는 함수 f를 찾는 것이다. 이상적으로는 실제 데이터 분포 \rho에 대한 기대 위험(expected risk) \mathcal{E}(f) = \int (f(x) - y)^2 \, d\rho를 최소화하는 함수를 찾아야 한다. 하지만 실제 분포 \rho를 알 수 없으므로, 주어진 학습 데이터 \mathbf{z} = \{(x_i, y_i)\}_{i=1}^m에 대한 경험적 위험(empirical risk) \mathcal{E}_{\mathbf{z}}(f) = \frac{1}{m} \sum (f(x_i) - y_i)^2을 대신 최소화한다.

경사 하강법과 같은 반복적 최적화 방법을 사용할 때, 이론적인 기대 위험을 최소화하는 과정("모집단 반복", f_t)과 실제 경험적 위험을 최소화하는 과정("샘플 반복", f_t^{\mathbf{z}})은 다르게 진행된다. 샘플 반복은 학습 데이터에 과도하게 맞춰지는 과적합 현상을 일으킬 수 있다.

조기 중단은 샘플 반복 결과 f_t^{\mathbf{z}}의 실제 성능(기대 위험)과 이론적 최적 성능(\mathcal{E}(f_\rho)) 간의 차이를 분석하여 이해할 수 있다. 이 차이는 다음과 같이 분해된다:

:\mathcal{E}(f_t^{\mathbf{z}}) - \mathcal{E}(f_\rho) = \underbrace{\left[ \mathcal{E}(f_t^{\mathbf{z}}) - \mathcal{E}(f_t)\right]}_{\text{분산 항}} + \underbrace{\left[ \mathcal{E}(f_t) - \mathcal{E}(f_\rho)\right]}_{\text{편향 항}}

이 식은 편향-분산 트레이드오프를 나타낸다. 학습 반복 횟수 ''t''가 증가하면 모델 복잡도가 높아져 편향은 줄어들지만, 학습 데이터의 노이즈까지 학습하여 분산은 증가하는 경향이 있다. 조기 중단은 편향과 분산의 합인 전체 오차를 최소화하는 지점에서 학습을 멈추는 전략이다. 최적의 중단 시점은 이론적 분석이나[3] 교차 검증과 같은 데이터 기반 방법을 통해 결정될 수 있다.

이러한 원리는 부스팅 알고리즘에도 적용될 수 있으며, 예를 들어 AdaBoost와 같은 알고리즘에서 조기 중단을 사용하면 모델의 일관성(샘플 수가 증가함에 따라 실제 해에 수렴하는 성질)을 확보하는 데 도움이 된다.[5][6][7][8]

3. 1. 비모수 회귀 (Nonparametric Regression)에서의 조기 중단

조기 중단은 기계 학습에서 발생하는 비모수 회귀 문제를 정규화하는 데 사용될 수 있다.[2] 비모수 회귀는 주어진 데이터로부터 복잡한 함수 관계를 학습하는 방법으로, 종종 재생 커널 힐베르트 공간과 같이 매우 유연하고 잠재적으로 무한 차원의 함수 공간을 사용한다. 이러한 유연성 때문에 훈련 데이터에 지나치게 맞춰져 새로운 데이터에 대해서는 성능이 떨어지는 과적합 문제가 발생하기 쉬우며, 따라서 정규화 기법의 적용이 중요하다.[2] 경사 하강법과 같은 반복적인 최적화 알고리즘을 사용하여 회귀 함수를 학습할 때, 학습을 최적 시점에 멈추는 조기 중단 규칙을 적용하는 것이 효과적인 정규화 방법 중 하나이다.

비모수 회귀 문제에 적용되는 조기 중단 규칙은 주로 일반화 오차(새로운, 보지 못한 데이터에 대한 예측 오차)의 상한선을 반복 횟수의 함수로 분석하는 방식에 기반한다. 이러한 분석을 통해 학습 과정을 시작하기 전에 미리 계산된 최적의 반복 횟수를 정하여 학습을 진행할 수 있다.[3][4] 이는 과적합을 방지하면서도 모델의 예측 성능을 최대한 확보하려는 시도이다.

3. 1. 1. 최소 제곱 손실 (Least-squares Loss) 예시

기계 학습에서 비모수 회귀 문제를 풀 때, 조기 중단은 정규화 기법으로 사용될 수 있다. 입력 공간 X, 출력 공간 Y가 있고, 이들의 곱집합 Z = X \times Y 상의 알 수 없는 확률 분포 \rho에서 데이터를 샘플링한다고 가정하자. 목표는 다음 식으로 정의되는 ''회귀 함수'' f_{\rho}를 찾는 것이다.

: f_\rho(x) = \int_Y y \, d\rho(y\mid x),\, x \in X,

여기서 \rho(y\mid x)는 주어진 입력 x에 대한 출력 y의 조건부 확률 분포이다.[2] 회귀 함수를 근사하기 위해 재생 커널 힐베르트 공간에 속하는 함수를 사용하는 경우가 많다.[2] 이 공간은 차원이 무한할 수 있어, 어떤 크기의 훈련 데이터에도 완벽하게 들어맞는, 즉 과적합된 해를 만들 수 있다. 따라서 정규화가 특히 중요하다. 비모수 회귀 문제를 정규화하는 한 가지 방법은 경사 하강법과 같은 반복적인 최적화 과정에 조기 중단 규칙을 적용하는 것이다.

조기 중단 규칙은 일반화 오차(새로운 데이터에 대한 오차)의 상한선을 반복 횟수의 함수로 분석하여 결정한다. 이를 통해 학습을 시작하기 전에 미리 최적의 반복 횟수를 정할 수 있다.[3][4]

구체적인 예시로, 입력 공간 X\mathbb{R}^n (n차원 실수 공간)의 부분집합이고 출력 공간 Y실수 \mathbb{R}인 경우를 생각해보자. 확률 분포 \rho에서 독립적으로 추출된 샘플 데이터 집합 \mathbf{z} = \left \{(x_i,y_i) \in X \times Y: i = 1, \dots, m\right\}가 주어졌을 때, 우리는 다음 함수를 최소화하고자 한다.

:

\mathcal{E}(f) = \int_{X\times Y} (f(x) - y)^2 \, d\rho



이는 함수 f(재생 커널 힐베르트 공간 \mathcal{H}의 원소)에 대한 기대 위험(expected risk)을 최소화하는 것과 같다. 즉, 예측값 f(x)와 실제값 y 사이의 제곱 오차의 평균(기대값)을 최소화하는 것이다. 하지만 실제로는 확률 분포 \rho를 모르기 때문에 기대 위험 \mathcal{E}를 직접 계산할 수 없다. 대신 주어진 샘플 데이터 \mathbf{z}를 사용하여 경험적 위험(empirical risk)을 계산한다.

:

\mathcal{E}_{\mathbf{z}}(f) = \frac{1}{m} \sum_{i=1}^m \left(f(x_i) - y_{i}\right)^2.



이제 경사 하강법을 사용하여 함수 f를 학습한다고 하자. f_{t}는 기대 위험 \mathcal{E}를 최소화하기 위한 경사 하강법의 ''t''번째 반복 결과(이론적인 최적해로 수렴)이고, f_t^{\mathbf{z}}는 경험적 위험 \mathcal{E}_{\mathbf{z}}를 최소화하기 위한 경사 하강법의 ''t''번째 반복 결과(실제 계산 가능한 해)라고 하자. 두 경우 모두 0에서 시작하고 동일한 학습률 \gamma_{t}를 사용한다고 가정한다. f_{t}는 이상적인 "모집단 반복" 결과로, 실제 회귀 함수 f_{\rho}로 수렴하지만 계산할 수는 없다. 반면, f_t^{\mathbf{z}}는 실제 데이터로 계산하는 "샘플 반복" 결과이며, 반복 횟수가 너무 많아지면 훈련 데이터에 과적합된 해로 수렴하는 경향이 있다.

우리가 실제로 관심을 가지는 것은 샘플 반복 결과 f_t^{\mathbf{z}}의 기대 위험과 이론적인 최소 기대 위험(\mathcal{E}(f_\rho)) 사이의 차이이다.

:\mathcal{E}(f_t^{\mathbf{z}}) - \mathcal{E}(f_\rho)

이 차이는 다음과 같이 두 부분으로 나눌 수 있다.

:\mathcal{E}(f_t^{\mathbf{z}}) - \mathcal{E}(f_\rho) = \left[ \mathcal{E}(f_t^{\mathbf{z}}) - \mathcal{E}(f_t)\right] + \left[ \mathcal{E}(f_t) - \mathcal{E}(f_\rho)\right]

첫 번째 항 \left[ \mathcal{E}(f_t^{\mathbf{z}}) - \mathcal{E}(f_t)\right]은 샘플 데이터의 무작위성 때문에 발생하는 오차(분산)와 관련이 있고, 두 번째 항 \left[ \mathcal{E}(f_t) - \mathcal{E}(f_\rho)\right]은 반복 횟수 ''t''가 충분하지 않아 아직 최적해에 도달하지 못해서 발생하는 오차(편향)와 관련이 있다. 이 식은 바이어스-분산 트레이드오프를 보여준다. 반복 횟수 ''t''가 증가하면 편향은 감소하지만 분산은 증가하는 경향이 있다. 조기 중단은 이 트레이드오프를 고려하여 최적의 반복 횟수 ''t''에서 학습을 멈추는 전략이다. 최적의 중단 시점은 알 수 없는 확률 분포 \rho에 따라 달라지며, 이를 분석하여 일반화 오차에 대한 확률적 경계를 갖는 조기 중단 규칙을 유도할 수 있다.[3] 실제 적용 시에는 교차 검증과 같은 데이터 기반 방법을 사용하여 적절한 중단 시점을 결정하기도 한다.

부스팅 방법은 위에서 설명한 경사 하강법과 밀접한 관련이 있으며, 특히 최소 제곱 손실(L_2 손실)을 사용하는 부스팅 방법인 ''L2Boost''는 이 틀 안에서 이해될 수 있다.[3]

3. 2. 부스팅 (Boosting)에서의 조기 중단

부스팅은 일련의 '약한 학습기'(실제 프로세스와 약간의 상관관계만 있는 학습기)를 결합하여 '강한 학습기'를 생성하는 알고리즘 군을 말한다. 여러 부스팅 알고리즘(예: AdaBoost)의 경우, 조기 중단을 통한 정규화가 일관성을 보장할 수 있음이 밝혀졌다.[5][6][7][8] 여기서 일관성이란 알고리즘의 결과가 샘플 수가 무한대로 증가함에 따라 실제 해에 가까워지는 것을 의미한다.

4. 검증 기반 조기 중단 (Validation-based Early Stopping)

검증 세트(검증 세트)를 활용하는 조기 중단은 기계 학습 모델의 과적합을 방지하고 일반화 오차를 줄이기 위한 실용적인 기법이다. 이 방식은 기존의 훈련 데이터를 새로운 훈련 세트와 검증 세트로 나누는 것에서 시작한다. 모델 훈련은 새로운 훈련 세트로만 진행하고, 훈련 과정 중 주기적으로 검증 세트를 사용하여 모델의 성능(오류)을 평가한다.

이때 검증 세트에서 계산된 오류는 모델이 아직 보지 못한 데이터에 대해 얼마나 잘 작동할지를 나타내는 일반화 오차의 대리 지표로 사용된다. 만약 검증 세트에서의 오류가 더 이상 감소하지 않거나 오히려 증가하기 시작하면, 이는 모델이 훈련 데이터에 과적합되기 시작했다는 신호로 해석할 수 있다. 이 시점에서 훈련을 멈추는 것이 조기 중단의 핵심 원리이다.

이러한 검증 기반 조기 중단 기법은 특히 인공 신경망과 같이 반복적인 방식으로 파라미터를 업데이트하는 여러 기계 학습 알고리즘의 훈련 과정에서 널리 사용된다.[9] 구체적인 구현 방법으로는 홀드아웃 방법이나 교차 검증 등이 있다.[9]

4. 1. 홀드아웃 방법 (Holdout Method)

조기 중단 규칙은 일반적으로 원본 훈련 데이터를 새로운 훈련 세트와 검증 세트로 나누어 적용한다. 이때 검증 세트에서 발생하는 오류를 일반화 오차를 대신하는 지표로 사용하여 과적합이 시작되는 시점을 판단한다. 이 방식은 인공 신경망을 비롯한 여러 반복적인 기계 학습 알고리즘 훈련에 널리 사용된다.

루츠 프레첼트(Lutz Prechelt)는 홀드아웃 방법에 기반한 조기 중단의 간단한 구현 절차를 다음과 같이 요약했다.[9]

# 원본 훈련 데이터를 훈련 세트와 검증 세트로 분할한다. (예: 2:1 비율)

# 훈련 세트만을 사용하여 모델을 훈련시킨다. 주기적으로(예: 매 5 에포크마다) 검증 세트의 데이터로 오류를 평가한다.

# 검증 세트에서 계산된 오류가 이전에 측정했을 때보다 높아지면 훈련을 멈춘다.

# 훈련을 멈추기 직전 단계, 즉 검증 오류가 가장 낮았던 시점의 네트워크 가중치를 최종 결과로 사용한다.

하지만 이 간단한 절차는 실제 적용에서 복잡한 문제에 직면할 수 있다. 훈련 과정 동안 검증 오류가 일정하지 않고 변동하며 여러 개의 지역 최솟값을 나타낼 수 있기 때문이다. 이러한 변동성 때문에 실제로 과적합이 언제 시작되었는지 정확히 판단하기 어려워, 이를 보완하기 위한 여러 경험적인 규칙들이 제안되었다.[9] 교차 검증은 데이터를 여러 부분으로 나누어 훈련과 검증을 반복하는 방식으로, 홀드아웃 방법의 대안으로 사용될 수 있다.

4. 2. 교차 검증 (Cross Validation)

교차 검증은 데이터를 단일 훈련 세트와 검증 세트로 나누는 홀드아웃 방법 대신 사용할 수 있는 방법으로, 특히 시계열 데이터가 아닌 경우에 유용하다. 이 방법은 전체 데이터를 여러 개의 파티션(폴드)으로 나누고, 각 파티션을 번갈아 가며 검증 세트로 사용하고 나머지를 훈련 세트로 삼는 과정을 반복한다.

그러나 교차 검증을 실제 적용할 때는 검증 오류가 훈련 과정 중에 일정하지 않고 변동하여 여러 개의 국소 최솟값을 만들 수 있다는 문제가 있다. 이러한 복잡성으로 인해 실제로 과적합이 언제 시작되는지 정확히 판단하기 어려우며, 이를 해결하고자 여러 경험적인 규칙들이 사용된다.[9]

참조

[1] 논문 Regularization Theory and Neural Networks Architectures 1995-03-01
[2] 논문 Learning Theory Estimates via Integral Operators and Their Approximations 2007-08-01
[3] 논문 On Early Stopping in Gradient Descent Learning 2007-08-01
[4] 간행물 Early stopping for non-parametric regression: An optimal data-dependent stopping rule
[5] 논문 Process consistency for AdaBoost 2004-02
[6] 논문 Boosting with the L₂ Loss: Regression and Classification 2003-06-01
[7] 논문 Boosting with Early Stopping: Convergence and Consistency 2005-08-01
[8] 논문 Early stopping for L2-boosting in high-dimensional linear models 2024-04-01
[9] 서적 Neural Networks: Tricks of the Trade https://archive.org/[...] Springer Berlin Heidelberg 2012-01-01



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com