맨위로가기

과적합

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

과적합은 통계 모델이나 기계 학습 알고리즘이 훈련 데이터에 지나치게 맞춰져 새로운 데이터에 대한 예측 성능이 떨어지는 현상을 의미한다. 이는 모델이 훈련 데이터의 노이즈까지 학습하여 일반화 능력을 상실하기 때문에 발생하며, 과적합된 모델은 불필요하게 복잡하거나 훈련 데이터에만 특화된 경향을 보인다. 과적합은 회귀 분석, 기계 학습 등 다양한 분야에서 나타나며, 훈련 데이터에 대한 성능은 높지만 검증 데이터에 대한 성능이 낮아지는 것이 특징이다. 과적합을 해결하기 위해 정규화, 교차 검증, 조기 종료, 앙상블 방법 등의 기법이 사용될 수 있으며, 과소적합과 반대되는 개념이다.

더 읽어볼만한 페이지

  • 통계적 추론 - 비모수 통계
    비모수 통계는 자료의 분포에 대한 가정을 최소화하며, 명목척도나 서열척도 자료, 또는 표본 수가 적은 경우에 사용되는 통계 방법이다.
  • 통계적 추론 - 빈도주의적 추론
    빈도주의적 추론은 확률을 장기적인 빈도로 정의하고 모집단의 모수를 고정된 값으로 간주하는 통계적 추론 방식으로, 가설 검정, 신뢰 구간 등의 개념을 포함하며 p-값, 유의 수준 등을 활용하여 가설 검정을 수행한다.
  • 회귀분석 - 회귀 분석
    회귀 분석은 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링하고 분석하는 통계적 기법으로, 최소 제곱법 개발 이후 골턴의 연구로 '회귀' 용어가 도입되어 다양한 분야에서 예측 및 인과 관계 분석에 활용된다.
  • 회귀분석 - 로지스틱 회귀
    로지스틱 회귀는 범주형 종속 변수를 다루는 회귀 분석 기법으로, 특히 이항 종속 변수에 널리 사용되며, 오즈에 로짓 변환을 적용하여 결과값이 0과 1 사이의 값을 가지도록 하는 일반화 선형 모형의 특수한 경우이다.
  • 기계 학습 - 비지도 학습
    비지도 학습은 레이블이 없는 데이터를 통해 패턴을 발견하고 데이터 구조를 파악하는 것을 목표로 하며, 주성분 분석, 군집 분석, 차원 축소 등의 방법을 사용한다.
  • 기계 학습 - 지도 학습
    지도 학습은 레이블된 데이터를 사용하여 입력 데이터와 출력 레이블 간의 관계를 학습하는 기계 학습 분야로, 예측 모델 생성, 알고리즘 선택, 모델 최적화, 정확도 평가 단계를 거치며, 회귀 및 분류 문제에 적용되고 다양한 확장 기법과 성능 평가 방법을 활용한다.
과적합
개요
정의과적합(過剩適合, overfitting) 또는 과최적화(過最適化, overoptimization)는 기계 학습에서 통계 모형을 만들 때 학습 데이터를 과도하게 학습하여 모형이 실제보다 더 복잡해지는 현상을 말한다.
설명일반적으로 학습 데이터는 실제 데이터의 부분 집합이므로, 학습 데이터에 대해서는 오차가 감소하지만 실제 데이터에 대해서는 오차가 증가하는 시점에서 과적합이 발생했다고 판단할 수 있다.
원인모형이 불필요하게 복잡하거나
학습 데이터의 양이 적거나
학습 데이터에 노이즈가 많은 경우
결과학습 데이터에 대한 정확도는 높지만, 실제 데이터에 대한 정확도는 떨어짐
일반화 오차 증가
과적합의 탐지
방법학습 데이터와 검증 데이터에 대한 모형의 성능을 비교
교차 검증
과적합의 해결 방법
데이터 확보더 많은 학습 데이터를 확보한다.
변수 축소모형의 복잡도를 줄이기 위해 불필요한 변수를 제거한다.
정규화모형의 복잡도에 벌점을 부과하여 과적합을 방지한다.
가중치 감쇠
드롭아웃신경망 학습 시 일부 뉴런을 임의로 제거하여 과적합을 방지한다.
앙상블여러 개의 모형을 결합하여 일반화 성능을 향상시킨다.
조기 종료검증 데이터에 대한 성능이 더 이상 향상되지 않으면 학습을 조기에 종료한다.
관련 용어
편향-분산 트레이드오프모형의 편향과 분산은 서로 상충 관계에 있으며, 과적합은 낮은 편향과 높은 분산의 특징을 가진다.
과소적합모형이 너무 단순하여 학습 데이터를 제대로 학습하지 못하는 현상

2. 통계적 추론

통계학에서 추론통계 모델 선택 절차를 통해 이루어진다. 번햄&앤더슨은 과적합을 피하려면 간결성의 원리를 따라야 한다고 주장한다.[4] 이들은 과적합된 모델이 매개변수 추정치에 편향은 없지만 불필요하게 큰 표본 분산을 가져 추정치의 정밀도가 떨어진다고 설명한다. 또한, 잘못된 처리 효과나 변수가 포함될 수 있다고 지적하며, 최적의 모델은 과소 적합과 과적합 오류를 균형 있게 조절하여 달성된다고 강조한다.[4]

과적합은 분석을 안내할 이론이 부족할 때, 선택할 모델이 많아져 심각한 문제가 될 수 있다. ''모델 선택 및 모델 평균''(2008)에서는 수많은 모델을 쉽게 맞출 수 있지만, 최적 모델 선택은 어렵다고 말한다. 후보 모델이 많으면 과적합 위험이 커지며, 무한 원숭이 정리를 비유로 들어 이를 경고한다.[5]

2. 1. 회귀 분석

회귀 분석에서 과적합은 자주 발생한다.[6] 극단적인 예로, 데이터 포인트가 ''p''개인 선형 회귀에 ''p''개의 변수가 있는 경우, 적합된 선은 모든 점을 정확히 통과할 수 있다.[7] 로지스틱 회귀 또는 Cox 비례 위험 모형의 경우, 다양한 경험 규칙이 있다(예: 5–9,[8] 10[9] 및 10–15[10] – 독립 변수당 10개의 관측치 가이드라인은 "10분의 1 규칙"으로 알려져 있다). 회귀 모형 선택 과정에서, 임의 회귀 함수의 평균 제곱 오차는 임의 잡음, 근사 편향 및 회귀 함수의 추정값의 분산으로 나눌 수 있다. 편향-분산 트레이드오프는 과적합된 모형을 극복하는 데 자주 사용된다.

예측되는 종속 변수와 실제로 관련이 없는 큰 설명 변수 집합이 있는 경우, 일반적으로 일부 변수가 잘못 통계적 유의성을 갖는 것으로 발견될 것이고, 연구자는 따라서 이를 모형에 유지하여 모형을 과적합할 수 있다. 이것은 프리드먼의 역설로 알려져 있다.

3. 기계 학습

기계 학습 분야에서는 과적합을 과잉 훈련(overtraining)이라고도 한다. 일반적으로 학습 알고리즘은 일련의 훈련 데이터를 사용하여 훈련된다. 즉, 전형적인 입력 데이터와 그에 따른 알려진 출력 결과를 제공한다. 학습자는 이를 통해 훈련 데이터에서는 나타나지 않았던 다른 예시에서도 올바른 출력을 반환할 수 있게 되기를 기대한다. 그러나 학습 기간이 너무 길거나, 훈련 데이터가 전형적인 것이 아니었던 경우, 학습자는 훈련 데이터의 특정 무작위적인 (본래 학습시키고 싶은 특징과는 무관한) 특징에까지 적합하게 된다. 이러한 과적합 과정에서는 훈련 데이터에 대한 성능은 향상되지만, 그 외의 데이터에서는 반대로 결과가 나빠진다.

일반적으로 학습 알고리즘은 원하는 출력이 알려진 일련의 "훈련 데이터"를 사용하여 훈련된다. 목표는 알고리즘이 훈련 중에 접하지 않은 "검증 데이터"를 제공받을 때도 출력을 잘 예측하도록 하는 것이다. 과적합은 오컴의 면도날을 위반하는 모델 또는 절차를 사용하는 것으로, 예를 들어 궁극적으로 최적이 아닌 것보다 더 많은 조정 가능한 매개변수를 포함하거나 궁극적으로 최적이 아닌 것보다 더 복잡한 접근 방식을 사용하는 것이다.

과적합은 학습이 너무 오래 수행되거나 훈련 예제가 드문 경우 특히 발생하기 쉽다. 학습자가 함수 근사에 대한 인과 관계가 없는 훈련 데이터의 매우 구체적인 임의 기능에 적응하게 한다.

간단한 예로 구매 품목, 구매자, 구매 날짜 및 시간이 포함된 소매 구매 데이터베이스를 생각해 볼 수 있다. 구매 날짜와 시간을 사용하여 다른 속성을 예측하여 훈련 세트에 완벽하게 맞는 모델을 구성하는 것은 쉽지만, 이러한 과거 시간은 다시는 발생하지 않으므로 이 모델은 새 데이터로 전혀 일반화되지 않는다.

일반적으로 학습 알고리즘은 알려진 데이터(사후 판단)를 맞추는 데 더 정확하지만 새 데이터(예지력)를 예측하는 데 덜 정확한 경우 더 간단한 알고리즘에 비해 과적합이라고 한다. 과거의 모든 경험에서 얻은 정보는 미래와 관련된 정보와 관련 없는 정보("노이즈")의 두 그룹으로 나눌 수 있다는 사실에서 직관적으로 과적합을 이해할 수 있다. 다른 모든 조건이 동일할 때, 기준을 예측하기가 더 어려울수록(즉, 불확실성이 높을수록) 무시해야 하는 과거 정보에 더 많은 노이즈가 존재한다. 문제는 어떤 부분을 무시할지 결정하는 것이다. 노이즈에 적합할 위험을 줄일 수 있는 학습 알고리즘은 "강건성"이라고 한다.

3. 1. 과적합의 결과



과적합의 가장 명백한 결과는 검증 데이터 세트에서의 성능 저하이다. 그 외에도 다음과 같은 부정적인 결과가 나타난다.[11]

  • 과적합된 함수는 최적의 함수보다 검증 데이터 세트의 각 항목에 대해 더 많은 정보를 요청할 가능성이 높다. 특히 각 개별 정보 조각을 인간의 관찰과 수동 데이터 입력으로 수집해야 하는 경우, 이러한 추가적인 불필요한 데이터 수집은 비용이 많이 들거나 오류가 발생하기 쉽다.[11]
  • 더 복잡한 과적합된 함수는 간단한 함수보다 이식성이 떨어질 가능성이 높다. 극단적인 예로, 단일 변수 선형 회귀는 필요하다면 손으로도 할 수 있을 정도로 이식성이 뛰어나다. 반면, 원래 모델 제작자의 전체 설정을 정확히 복제해야만 재현할 수 있는 모델은 재사용 또는 과학적 재현을 어렵게 만든다.[11]
  • 과적합된 머신 러닝 모델은 훈련 세트에서 개별 훈련 인스턴스의 세부 정보를 재구성할 수 있다. 예를 들어 훈련 데이터에 민감한 개인 식별 정보(PII)가 포함된 경우 이는 바람직하지 않을 수 있다. 이러한 현상은 인공 지능과 저작권 분야에서도 문제를 일으킨다. 스테이블 디퓨전깃허브 코파일럿과 같은 일부 생성형 딥 러닝 모델 개발자는 모델이 훈련 데이터에서 특정 저작권이 있는 항목을 재현할 수 있다는 사실을 발견하고 저작권 침해로 소송을 당했다.[12][13]

3. 2. 과적합 해결 방법

통계학에서 추론은 어떤 절차를 통해 선택된 통계 모델로부터 도출된다. 모델 선택에 관한 널리 인용되는 텍스트에서 번햄 & 앤더슨은 과적합을 피하기 위해 "간결성의 원리"를 따라야 한다고 주장한다.[4] 과적합된 모델은 매개변수 추정치에 편향이 없지만, 불필요하게 큰 추정(및 실제) 표본 분산을 가지며, 이는 추정치의 정밀도가 좋지 않음을 의미한다. 또한, 과적합된 모델을 사용하면 잘못된 처리 효과가 식별되고 잘못된 변수가 포함되는 경향이 있다.[4] 최적의 근사 모델은 과소 적합과 과적합의 오류를 적절하게 균형을 맞춤으로써 달성된다.

과적합은 분석을 안내할 수 있는 이론이 거의 없을 때 더 심각한 문제가 될 가능성이 있는데, 이는 선택할 모델의 수가 많아지는 경향이 있기 때문이다. ''모델 선택 및 모델 평균''(2008)에서는 수많은 모델을 쉽게 맞출 수 있지만, 최상의 모델을 선택하는 것은 어려우며, 후보 모델이 너무 많으면 과적합이 발생할 수 있다고 언급한다.[5]

회귀 분석에서 과적합은 자주 발생한다.[6] 예를 들어, 데이터 포인트가 ''p''개인 선형 회귀에 ''p''개의 변수가 있는 경우, 적합된 선은 모든 점을 정확히 통과할 수 있다.[7] 로지스틱 회귀 또는 Cox 비례 위험 모형의 경우, 다양한 경험 규칙(예: 5–9,[8] 10,[9] 및 10–15[10])이 있으며, 독립 변수당 10개의 관측치 가이드라인은 "10분의 1 규칙"으로 알려져 있다. 회귀 모형 선택 과정에서, 임의 회귀 함수의 평균 제곱 오차는 임의 잡음, 근사 편향 및 회귀 함수의 추정값의 분산으로 나눌 수 있다. 편향-분산 트레이드오프는 과적합된 모형을 극복하는 데 자주 사용된다.

기계 학습 분야에서는 과적합을 과잉 훈련(overtraining)이라고도 한다. 학습 알고리즘이 훈련 데이터에 너무 오래 맞춰지거나, 훈련 데이터가 전형적이지 않은 경우, 학습자는 훈련 데이터의 특정 무작위적인 특징에 적응하게 된다. 이러한 과적합 과정에서는 훈련 데이터에 대한 성능은 향상되지만, 그 외의 데이터에서는 결과가 나빠진다.

일반적으로 학습 알고리즘은 알려진 데이터(사후 판단)를 맞추는 데 더 정확하지만 새 데이터(예지력)를 예측하는 데 덜 정확한 경우 더 간단한 알고리즘에 비해 과적합이라고 한다. 과적합을 해결하기 위한 방법은 다음과 같다.

  • '''교차 검증''': 추가적인 기법을 사용하여 훈련이 더 잘 일반화되었는지 확인하고 입증한다.
  • '''정규화''': 매개 변수를 줄이는 대신, 오차 함수에 정규화 항을 추가하여 모델의 복잡도와 자유도를 억제하고 과적합을 방지한다. L2 정규화 및 L1 정규화 등이 있다.
  • '''서포트 벡터 머신에서의 마진 최대화''': 매개 변수(파라미터)를 줄이는 대신, 마진을 최대화함으로써 과적합을 방지하며, 이는 L2 정규화와 유사한 기법에 기반한다.
  • '''조기 종료(early stopping)''': 학습의 반복 과정에서 훈련 데이터와 평가 데이터의 평가값을 모두 감시하여, 평가 데이터에서의 평가값이 악화되기 시작하는 시점에서 학습을 조기에 중단하는 방법이다.
  • '''드롭아웃 정규화''': 훈련 세트 데이터의 무작위 제거는 레이어에 대한 입력을 확률적으로 제거하여 견고성을 향상시키고 과적합을 줄일 수 있다.


최소 신장 트리나 상관 관계 수명과 같이 상관 계수와 시계열(창 너비) 간의 종속성을 적용하는 방법이 있다. 창 너비가 충분히 크면 상관 계수가 안정적이며 더 이상 창 너비 크기에 의존하지 않는다. 따라서 조사된 변수 간의 상관 관계 계수를 계산하여 상관 행렬을 만들 수 있다. 이 행렬은 변수 간의 직접적이고 간접적인 영향을 시각화하는 복잡한 네트워크로 위상적으로 표현될 수 있다.

4. 과소적합 (Underfitting)

과소적합은 과적합의 반대 현상으로, 통계 모델이나 머신 러닝 알고리즘이 데이터의 패턴을 정확하게 포착하지 못할 정도로 너무 단순한 경우를 의미한다. 과소적합의 징후는 높은 편향과 낮은 분산으로 나타난다 (과적합은 낮은 편향과 높은 분산). 이는 편향-분산 트레이드오프를 통해 확인할 수 있는데, 모델이나 알고리즘을 편향 오차, 분산 오차, 불가피한 오차로 분석하는 방법이다. 높은 편향과 낮은 분산은 모델이 데이터 점을 부정확하게 표현하여 미래 데이터 결과를 제대로 예측할 수 없게 만든다(일반화 오차 참조).

그림 5에서 볼 수 있듯이, 직선은 주어진 데이터 점들의 곡률을 제대로 반영하지 못한다. 그림 6이나 그림 1과 같이 포물선 형태의 선이 필요하다. 따라서 그림 5를 기반으로 분석하면 그림 6을 분석한 결과와 달리 잘못된 예측을 하게 된다.

번햄(Burnham)과 앤더슨(Anderson)은 과소적합된 모델이 데이터의 중요한 구조를 무시하고 실제로 데이터에서 지원되는 효과를 식별하지 못한다고 설명한다. 이러한 경우 매개변수 추정치의 편향이 커지고 표본 분산이 과소평가되어 신뢰 구간 적용 범위가 낮아진다. 또한, 과소적합된 모델은 실험 설정에서 중요한 처리 효과를 놓치는 경향이 있다.[4]

4. 1. 과소적합 해결 방법

과소적합을 해결하는 방법은 다음과 같다.

# '''모델의 복잡성 증가:''' 모델이 너무 단순하면 더 많은 특징을 추가하거나, 파라미터 수를 늘리거나, 더 유연한 모델을 사용하여 복잡성을 증가시켜야 할 수 있다. 그러나 과적합을 피하기 위해 신중하게 수행해야 한다.[14]

# '''다른 알고리즘 사용:''' 현재 알고리즘이 데이터의 패턴을 파악하지 못하면 다른 알고리즘을 시도해야 할 수 있다. 예를 들어, 일부 유형의 데이터는 선형 회귀 모델보다 신경망이 더 효과적일 수 있다.[14]

# '''훈련 데이터 양 증가:''' 데이터 부족으로 인해 모델이 과소적합되는 경우, 훈련 데이터 양을 늘리면 도움이 될 수 있다. 이렇게 하면 모델이 데이터의 기본 패턴을 더 잘 파악할 수 있다.[14]

# '''정규화:''' 정규화는 손실 함수에 큰 파라미터 값을 억제하는 페널티 항을 추가하여 과적합을 방지하는 기술이다. 또한 모델의 복잡성을 제어하여 과소적합을 방지하는 데에도 사용될 수 있다.[15]

# '''앙상블 방법:''' 앙상블 방법은 여러 모델을 결합하여 더 정확한 예측을 생성한다. 이는 여러 모델이 함께 작동하여 데이터의 기본 패턴을 파악하도록 함으로써 과소적합을 줄이는 데 도움이 될 수 있다.

# '''특징 공학:''' 특징 공학은 문제와 더 관련이 있을 수 있는 기존 특징으로부터 새로운 모델 특징을 생성하는 것을 포함한다. 이는 모델의 정확도를 향상시키고 과소적합을 방지하는 데 도움이 될 수 있다.[14]

5. 양성 과적합 (Benign overfitting)

양성 과적합은 잡음이 섞인 훈련 데이터에 완벽하게 적합되었음에도 불구하고(즉, 훈련 세트에서 완벽한 예측 정확도를 얻음) 보이지 않는 데이터에 대해 잘 일반화되는 것처럼 보이는 통계 모델의 현상이다. 이 현상은 특히 딥 뉴럴 네트워크에서 관심의 대상이지만, 선형 회귀와 같이 훨씬 더 간단한 모델의 맥락에서 이론적인 관점에서 연구된다. 특히, 이 설정에서 양성 과적합에는 과대 매개변수화가 필수적임이 밝혀졌다. 즉, 예측에 중요하지 않은 매개변수 공간의 방향 수가 표본 크기를 현저히 초과해야 한다.[1]

참조

[1] 웹사이트 overfitting https://web.archive.[...]
[2] 간행물 The Tradeoffs of Large-Scale Learning http://dx.doi.org/10[...] The MIT Press 2023-12-08
[3] 서적 Cambridge Dictionary of Statistics Cambridge University Press
[4] 서적 Model Selection and Multimodel Inference Springer-Verlag
[5] 서적 Model Selection and Model Averaging Cambridge University Press
[6] 서적 Regression Modeling Strategies Springer
[7] 웹사이트 Overfitting http://www.ma.utexas[...] University of Texas at Austin 2016-07-31
[8] 논문 Relaxing the Rule of Ten Events per Variable in Logistic and Cox Regression
[9] 서적 Applied Regression Analysis Wiley
[10] 웹사이트 The Danger of Overfitting Regression Models http://blog.minitab.[...] 2016-07-31
[11] 논문 The problem of overfitting
[12] 웹사이트 Stable Diffusion copyright lawsuits could be a legal earthquake for AI https://arstechnica.[...] 2023-04-03
[13] 웹사이트 The lawsuit that could rewrite the rules of AI copyright https://www.theverge[...] 2022-12-07
[14] 웹사이트 ML {{!}} Underfitting and Overfitting https://www.geeksfor[...] 2023-02-27
[15] 논문 A Comparison of Regularization Techniques in Deep Neural Networks 2018-11
[16] 간행물 Benign overfitting in linear regression 2019
[17] 서적 本当の声を求めて 野蛮な常識を疑え 青山ライフ出版(SIBAA BOOKS)



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com