맨위로가기

편향-분산 트레이드오프

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

편향-분산 트레이드오프는 지도 학습 모델의 예측 정확성을 결정하는 핵심 개념으로, 모델의 복잡성과 일반화 성능 사이의 상충 관계를 설명한다. 모델이 훈련 데이터에 과도하게 맞춰지면 분산이 커져 새로운 데이터에 대한 예측 성능이 떨어지고, 반대로 모델이 너무 단순하면 편향이 커져 훈련 데이터의 중요한 패턴을 학습하지 못한다. 이러한 문제를 해결하기 위해 모델의 편향과 분산을 적절히 조절하여 최적의 균형점을 찾는 것이 중요하다. 편향-분산 분해를 통해 모델의 예측 오류를 편향, 분산, 줄일 수 없는 오차로 분석하며, 다양한 머신러닝 알고리즘과 차원 축소, 특징 선택, 정규화 등의 기법을 통해 이 트레이드오프를 조절할 수 있다. 혼합 모델과 앙상블 학습은 편향과 분산 문제를 해결하는 또 다른 방법이다. 또한, 편향-분산 딜레마는 인간 학습과 인지 과정에도 적용되어, 뇌가 제한된 정보로 학습할 때 고편향/저분산 휴리스틱을 채택하는 방식으로 설명된다.

더 읽어볼만한 페이지

  • 통계 모형 - 예측 분석
    예측 분석은 통계학, 기계 학습 등의 분석 기법을 활용하여 과거 및 현재 데이터를 토대로 미래의 사건이나 결과를 예측하는 방법론으로, 다양한 분야에서 의사 결정 지원 및 위험 관리 등에 활용되지만, 인간 행동의 복잡성으로 인한 예측 불가능성에 대한 비판도 존재한다.
  • 통계 모형 - 박스-젠킨스 방법
    박스-젠킨스 방법은 자기상관 및 편자기상관 함수를 활용하여 시계열 데이터를 분석하고 예측하는 통계적 방법론으로, ARIMA 모델을 통해 데이터에 적합한 모델을 식별, 추정, 검증한다.
  • 통계 이론 - 로지스틱 회귀
    로지스틱 회귀는 범주형 종속 변수를 다루는 회귀 분석 기법으로, 특히 이항 종속 변수에 널리 사용되며, 오즈에 로짓 변환을 적용하여 결과값이 0과 1 사이의 값을 가지도록 하는 일반화 선형 모형의 특수한 경우이다.
  • 통계 이론 - 정보 엔트로피
    정보 엔트로피는 확률 변수의 불확실성을 측정하는 방법으로, 사건 발생 가능성이 낮을수록 정보량이 커진다는 원리에 기반하며, 데이터 압축, 생물다양성 측정, 암호화 등 다양한 분야에서 활용된다.
  • 딜레마 - 죄수의 딜레마
    죄수의 딜레마는 게임 이론의 한 유형으로, 두 용의자가 서로 배신하는 선택을 하여 둘 모두에게 더 나쁜 결과가 초래되는 상황을 묘사하며, 내쉬 균형, 파레토 효율성과 관련되어 다양한 분야에서 활용된다.
  • 딜레마 - 고슴도치 딜레마
    고슴도치 딜레마는 가까이 다가가면 상처를 주고 멀어지면 고립되는 인간관계의 어려움을 고슴도치에 비유한 개념으로, 쇼펜하우어가 처음 묘사하고 프로이트가 심리학에 도입했으며, 사회적 배제 경험이 사회적 유대 형성을 촉진한다는 연구 결과도 제시된다.
편향-분산 트레이드오프
개요
정의모델의 일반화 오차를 편향, 분산, 그리고 환원 불가능한 오차로 분해하여, 모델이 과소적합 또는 과적합되는 원인을 분석하는 방법
설명편향은 모델이 데이터를 얼마나 정확하게 예측하는지를 나타냄 (높은 편향은 과소적합을 의미)
분산은 모델이 훈련 데이터의 작은 변동에 얼마나 민감하게 반응하는지를 나타냄 (높은 분산은 과적합을 의미)
편향-분산 트레이드오프는 모델의 복잡도를 조절하여 편향과 분산 사이의 균형을 맞추는 것을 목표로 함
수학적 정의
손실 함수0-1 손실 함수 (Zero-One Loss Function)
편향의 제곱모델의 예측 평균과 실제 값 사이의 차이의 제곱
분산모델의 예측값들이 평균으로부터 흩어진 정도
환원 불가능한 오차데이터 자체의 노이즈로 인해 발생하는 오차 (모델로 줄일 수 없음)
일반화 오차편향의 제곱 + 분산 + 환원 불가능한 오차
예시
방사 기저 함수 (RBF)함수 근사 예제에서 RBF의 분포(spread)를 조정하여 편향과 분산의 변화를 보여줌
넓은 분포높은 편향, 낮은 분산 (과소적합)
좁은 분포낮은 편향, 높은 분산 (과적합)
중요성
모델 선택모델의 복잡도를 적절히 조절하여 일반화 성능을 최대화하는 데 도움
과적합/과소적합 진단모델이 왜 특정 성능을 보이는지 이해하는 데 도움
알고리즘 설계편향-분산 트레이드오프를 고려하여 알고리즘을 설계하는 데 도움
관련 이론
통계적 학습 이론모델의 일반화 성능을 이론적으로 분석하는 데 사용됨
계산 학습 이론학습 가능한 문제의 복잡성을 연구하는 데 사용됨
경험적 위험 최소화훈련 데이터에서 경험적 위험을 최소화하는 모델을 찾는 방법
PAC 학습확률적으로 거의 올바른 학습을 위한 이론적 프레임워크
VC 이론모델의 복잡도와 일반화 성능 사이의 관계를 설명하는 이론
참고 문헌
Kohavi & Wolpert (1996)Bias Plus Variance Decomposition for Zero-One Loss Functions
Luxburg & Schölkopf (2011)Statistical learning theory: Models, concepts, and results
Geman, Bienenstock & Doursat (1992)Neural networks and the bias/variance dilemma (http://web.mit.edu/6.435/www/Geman92.pdf)
Gigerenzer & Brighton (2009)Homo Heuristicus: Why Biased Minds Make Better Inferences (http://dx.doi.org/10.1111/j.1756-8765.2008.01006.x)
시각 자료
함수와 노이지 데이터
함수와 노이지 데이터
분포=5
분포=5
분포=1
분포=1
분포=0.1
분포=0.1

2. 동기

지도 학습에서 모델을 선택할 때, 훈련 데이터의 규칙을 정확하게 포착하는 것뿐만 아니라, 보이지 않는 데이터에 대해서도 일반화하는 것이 이상적이다. 하지만 이 둘을 동시에 완전히 성취하는 것은 사실상 불가능하다. 분산이 높은 학습 알고리즘은 훈련 집합을 잘 표현하지만, 노이즈나 부적절한 훈련 데이터까지 과적합(overfitting)할 위험이 있다. 반대로 편향이 높은 학습 알고리즘은 과적합(overfitting) 문제는 거의 없지만, 훈련 데이터의 중요한 규칙성을 제대로 포착하지 못하는 과소적합(underfitting) 문제가 발생한다.

편향값이 낮은 모델은 일반적으로 더 복잡하기 때문에(예: 더 높은 차수의 회귀 다항식) 훈련 집합을 더 정확히 표현한다. 하지만 모델링 과정에서 큰 노이즈 성분까지 반영할 가능성이 있고, 그런 경우에는 더 복잡함에도 불구하고 덜 정확한 추론을 하게 된다. 반대로 편향값이 높은 모델의 경우 간단한(낮은 차수의 회귀 다항식) 경향이 있는데, 훈련 집합의 데이터를 모델에 충분히 포함하지 못해 분산값이 낮게 나올 수 있다.[3][4][5][6]

정확도와 정밀도의 관계에 비유할 수 있다.

3. 편향-분산 분해

모델의 예측 오류는 편향, 분산, 그리고 줄일 수 없는 오차의 세 가지 요소로 분해될 수 있다.[37][38]


  • 편향(Bias): 모델의 예측값과 실제값의 평균적인 차이를 나타낸다. 높은 편향은 모델이 훈련 데이터의 복잡한 관계를 제대로 반영하지 못하고 단순화된 가정을 하고 있음을 의미한다. (예: 비선형 데이터에 선형 모형 적용)[37]
  • 분산(Variance): 모델의 예측값이 훈련 데이터의 변동에 얼마나 민감하게 반응하는지를 나타낸다. 높은 분산은 모델이 훈련 데이터의 노이즈까지 과적합하여 새로운 데이터에 대한 일반화 성능이 떨어짐을 의미한다.
  • 줄일 수 없는 오차(Irreducible Error): 데이터 자체에 내재된 노이즈나 불확실성으로 인해 발생하는 오류로, 모델의 성능과 무관하며, 기대 오차의 하한값 역할을 한다.[37]


정확도와 정밀도에 비유하자면, 정확도는 편향, 정밀도는 분산에 대응된다고 볼 수 있다.

x_1, \dots, x_n 와 각 x_i에 대응되는 y_i들의 쌍으로 표현되는 점들의 집합을 트레이닝 셋이라고 하고, y_i = f(x_i) + \epsilon라는 관계가 있다고 가정한다. 여기에서 \epsilon은 평균이 0이고 분산이 \sigma^2정규 분포이다.

이때, 보이지 않는 표본 x에 관한 기대 오차는 다음과 같이 분해할 수 있다.

:

\begin{align}

\mathrm{E}\Big[\big(y - \hat{f}(x)\big)^2\Big]

& = \mathrm{Bias}\big[\hat{f}(x)\big]^2 + \mathrm{Var}\big[\hat{f}(x)\big] + \sigma^2 \\

\end{align}



여기에서 편향(bias)은

:

\begin{align}

\mathrm{Bias}\big[\hat{f}(x)\big] = \mathrm{E}\big[\hat{f}(x) - f(x)\big]

\end{align}



이고, 분산(var)은

:

\begin{align}

\mathrm{Var}\big[\hat{f}(x)\big] = \mathrm{E}\Big[ \big( \hat{f}(x) - \mathrm{E}[\hat{f}(x)] \big)^2 \Big]

\end{align}



이다.

\hat{f}(x)가 복잡할수록 더 많은 데이터들을 포착할 수 있어서 편향값이 작아지지만, 모델이 각 점을 포착하기 위해 더 많이 '움직여야'하므로 그만큼 분산값은 커지게 된다.

제곱 오류를 편향-분산 분해하는 과정은 다음과 같이 유도할 수 있다.[28][29]

편의를 위해 f = f(x) 그리고 \hat{f} = \hat{f}(x)로 둔다. 우선 확률 변수 X에 대해

:

\begin{align}

\mathrm{E}[X^2]

& = \mathrm{E}[X^2] - \mathrm{E}[2X\mathrm{E}[X]] + \mathrm{E}[\mathrm{E}[X]^2] + \mathrm{E}[2X\mathrm{E}[X]] - \mathrm{E}[\mathrm{E}[X]^2] \\

& = \mathrm{E}[X^2 - 2X\mathrm{E}[X] + \mathrm{E}[X]^2] + 2\mathrm{E}[X]^2 - \mathrm{E}[X]^2 \\

& = \mathrm{E}[(X - \mathrm{E}[X])^2] + \mathrm{E}[X]^2 \\

& = \mathrm{Var}[X] + \mathrm{E}[X]^2

\end{align}



이고, f의 값들은 결정되어 있으므로

:

\begin{align}

0 = \mathrm{Var}[f] = \mathrm{E}[(f - \mathrm{E}[f])^2] \Rightarrow f - \mathrm{E}[f] = 0 \Rightarrow \mathrm{E}[f] = f

\end{align}



가 성립한다.

주어진 조건 y = f + \epsilon\mathrm{E}[\epsilon] = 0으로부터 \mathrm{E}[y] = \mathrm{E}[f + \epsilon] = \mathrm{E}[f] = f가 성립한다.

그리고 \mathrm{Var}[\epsilon] = \sigma^2 이므로,

:

\begin{align}

\mathrm{Var}[y] = \mathrm{E}[(y - \mathrm{E}[y])^2] = \mathrm{E}[(y - f)^2] = \mathrm{E}[(f + \epsilon - f)^2] = \mathrm{E}[\epsilon^2] = \mathrm{Var}[\epsilon] + \mathrm{E}[\epsilon]^2 = \sigma^2

\end{align}



\epsilon\hat{f}는 서로 독립적이므로,

:

\begin{align}

\mathrm{E}\big[(y - \hat{f})^2\big]

& = \mathrm{E}[y^2 + \hat{f}^2 - 2 y\hat{f}] \\

& = \mathrm{E}[y^2] + \mathrm{E}[\hat{f}^2] - \mathrm{E}[2y\hat{f}] \\

& = \mathrm{Var}[y] + \mathrm{E}[y]^2 + \mathrm{Var}[\hat{f}] + \mathrm{E}[\hat{f}]^2 - 2f\mathrm{E}[\hat{f}] \\

& = \mathrm{Var}[y] + \mathrm{Var}[\hat{f}] + (f - \mathrm{E}[\hat{f}])^2 \\

& = \sigma^2 + \mathrm{Var}[\hat{f}] + \mathrm{Bias}[\hat{f}]^2

\end{align}



가 성립한다.

4. 접근 방법

차원 축소특징 선택은 모델을 단순화하여 분산을 줄일 수 있다. 마찬가지로, 더 큰 훈련 세트는 분산을 줄이는 경향이 있다. 특징(예측 변수)을 추가하면 추가적인 분산을 도입하는 대가로 편향이 감소하는 경향이 있다. 학습 알고리즘은 일반적으로 편향과 분산을 제어하는 몇 가지 조정 가능한 매개변수를 가지고 있다.

알고리즘조정 가능한 매개변수 및 효과
선형 모델 및 일반화 선형 모델정규화를 통해 분산을 줄이고 편향을 증가시킬 수 있다.[11]
인공 신경망은닉 유닛의 수가 증가함에 따라 분산은 증가하고 편향은 감소한다.[12] GLM과 마찬가지로 정규화가 일반적으로 적용된다.
k-최근접 이웃값이 높으면 편향은 높고 분산은 낮아진다.
사례 기반 학습원형과 예시의 혼합을 다양하게 함으로써 정규화 할 수 있다.[13]
의사 결정 트리트리의 깊이는 분산을 결정한다. 의사 결정 트리는 일반적으로 분산을 제어하기 위해 가지치기를 한다.[7]



혼합 모델과 앙상블 학습은 트레이드오프를 해결하는 한 가지 방법이다.[14][15] 예를 들어, 부스팅은 개별 모델보다 편향이 낮은 앙상블에서 많은 "약한"(편향이 높은) 모델을 결합하는 반면, 배깅은 분산을 줄이는 방식으로 "강한" 학습자를 결합한다.

모델 검증 방법, 예를 들어 교차 검증을 사용하여 절충안을 최적화하도록 모델을 조정할 수 있다.

5. 다양한 학습 모델에서의 편향-분산 트레이드오프

일반적인 선형 모형은 정규화를 통해 편향을 증가시켜 분산을 줄일 수 있다.[30] 인공신경망에서는 은닉층의 유닛 수를 늘릴수록 분산은 증가하고 편향은 감소한다.[31] 일반적인 선형 모형과 마찬가지로 정규화를 적용할 수 있다.[12]

k-최근접 이웃 모델에서 k 값이 클수록 편향은 증가하고 분산은 감소한다. 사례 기반 학습에서 정규화는 원형과 예시의 혼합을 다양하게 함으로써 달성될 수 있다.[13]

의사결정나무에서 트리의 깊이는 분산을 결정한다. 의사결정나무는 일반적으로 분산을 제어하기 위해 가지치기를 한다.[32]

6. 응용

편향-분산 분해는 지도 학습에서 모델의 일반화 성능을 이해하고 향상시키는 데 중요한 역할을 한다.
회귀(Regression)LASSO 회귀, 릿지 회귀와 같은 정규화 방법은 최소제곱법(OLS) 해에 비해 편향을 증가시키지만 분산을 크게 줄여 더 나은 평균 제곱 오차(MSE) 성능을 제공한다.[39][40]
분류(Classification)통계적 분류에서 0-1 손실 (오분류율)을 사용할 때, 편향-분산 분해가 가능하지만 분산 항이 대상 레이블에 종속된다는 점에 유의해야 한다.[16][17] 확률적 분류 문제로 표현할 경우, 기대 교차 엔트로피를 분해하여 다른 형태를 갖지만 같은 의미를 가지는 편향과 분산 항을 얻을 수 있다.[41]

훈련 데이터가 증가하면 학습된 모델의 분산이 감소하는 경향이 있으므로, 훈련 데이터 양이 많을 때는 편향이 적은 모델을 학습하여 오류를 최소화하고, 훈련 데이터 양이 적을 때는 분산을 최소화하는 것이 중요하다.[18]
강화 학습(Reinforcement Learning)강화 학습에서 에이전트가 환경에 대한 제한된 정보를 가질 때, 알고리즘의 비최적성은 점근적 편향과 관련된 항과 과적합으로 인한 항으로 분해될 수 있다.[19]
몬테카를로 방법 (Monte Carlo methods)마르코프 연쇄 몬테카를로와 같은 현대적 접근 방식은 점근적으로 무편향적이지만, 제한된 계산 예산으로 인해 편향-분산 트레이드오프가 발생한다.[20][21] 제어된 편향을 허용하여 분산을 줄이는 접근 방식이 사용된다.[22][23]

7. 인간 학습과의 관련성

게르트 기거렌처와 그의 연구진은 인간의 뇌가 제한된 경험, 즉 희소하고 제대로 특징 지어지지 않은 훈련 세트를 바탕으로 학습할 때, 높은 편향과 낮은 분산을 가진 휴리스틱을 채택함으로써 편향-분산 딜레마를 해결한다고 주장한다.[24] 이는 제로 편향 접근 방식이 새로운 상황에 대한 일반화 능력이 떨어지며, 세상의 진정한 상태에 대한 정확한 지식을 불합리하게 추정한다는 사실을 반영한다. 결과적으로 만들어진 휴리스틱은 비교적 단순하지만, 더 광범위한 상황에서 더 나은 추론을 만들어낸다.[25]

스튜어트 게만 외 연구진은[12] 편향-분산 딜레마가 일반적인 객체 인식과 같은 능력은 처음부터 학습될 수 없으며, 나중에 경험에 의해 조율되는 일정 수준의 "하드 와이어링"(hard-wiring, 고정 배선)이 필요함을 시사한다고 주장한다. 이는 모델 없는 추론 방식이 높은 분산을 피하려면 비실용적으로 큰 훈련 세트가 필요하기 때문이다.[31]

8. 한국 위키백과 추가 내용

Bias–variance tradeoff영어기계 학습에서 예측 모델의 성능을 평가하는 데 사용되는 중요한 개념이다.

참조

[1] 논문 Bias Plus Variance Decomposition for Zero-One Loss Functions 1996
[2] 논문 Statistical learning theory: Models, concepts, and results 2011
[3] arXiv On the Bias-Variance Tradeoff: Textbooks Need an Update 2019
[4] arXiv A Modern Take on the Bias-Variance Tradeoff in Neural Networks 2018
[5] 간행물 A Modern Take on the Bias-Variance Tradeoff in Neural Networks https://openreview.n[...] 2019
[6] 서적 The nature of statistical learning theory https://dx.doi.org/1[...] Springer-Verlag 2000
[7] 서적 An Introduction to Statistical Learning http://www-bcf.usc.e[...] Springer
[8] 서적 The Elements of Statistical Learning http://statweb.stanf[...] 2014-08-20
[9] 웹사이트 The Bias–Variance Tradeoff http://www.inf.ed.ac[...] University of Edinburgh 2014-08-19
[10] 웹사이트 Notes on derivation of bias-variance decomposition in linear regression http://ttic.uchicago[...] 2014-08-20
[11] 서적 Conditioning diagnostics : collinearity and weak data in regression Wiley
[12] 논문 Neural networks and the bias/variance dilemma http://web.mit.edu/6[...]
[13] 논문 Instance-based classifiers applied to medical databases: diagnosis and knowledge extraction https://www.research[...] 2011-05
[14] 서적 Encyclopedia of Machine Learning http://homepages.inf[...] Springer
[15] 웹사이트 Understanding the Bias–Variance Tradeoff http://scott.fortman[...]
[16] 간행물 A unified bias-variance decomposition http://homes.cs.wash[...]
[17] 논문 Bias–variance analysis of support vector machines for the development of SVM-based ensemble methods http://www.jmlr.org/[...]
[18] 간행물 The Need for Low Bias Algorithms in Classification Learning From Large Data Sets http://i.giwebb.com/[...]
[19] 논문 On Overfitting and Asymptotic Bias in Batch Reinforcement Learning with Partial Observability https://jair.org/ind[...]
[20] 간행물 The Bias-Variance Dilemma of the Monte Carlo Method https://doi.org/10.1[...] Springer 2024-11-17
[21] 논문 Postprocessing of MCMC https://ssrn.com/abs[...] 2024-11-17
[22] 논문 Importance sampling with transformed weights https://doi.org/10.1[...] 2024-11-17
[23] 간행물 Adaptive Importance Sampling meets Mirror Descent: A Bias-Variance Tradeoff https://proceedings.[...] 2024-11-17
[24] 논문 Homo Heuristicus: Why Biased Minds Make Better Inferences
[25] 논문 Homo Heuristicus: Why Biased Minds Make Better Inferences
[26] 서적 パターン認識と機械学習 丸善出版
[27] 서적 統計的学習の基礎 共立出版
[28] 웹사이트 The Bias–Variance Tradeoff http://www.inf.ed.ac[...] University Edinburgh 2014-08-19
[29] 웹사이트 Notes on derivation of bias-variance decomposition in linear regression http://ttic.uchicago[...] 2014-08-20
[30] 서적 Conditioning diagnostics : collinearity and weak data in regression Wiley
[31] 논문 Neural networks and the bias/variance dilemma http://web.mit.edu/6[...]
[32] 서적 An Introduction to Statistical Learning http://www-bcf.usc.e[...] Springer
[33] 문서 Locally Weighted Regression for Control http://homepages.inf[...] Springer
[34] 문서 Understanding the Bias–Variance Tradeoff http://scott.fortman[...]
[35] 논문 Neural networks and the bias/variance dilemma http://web.mit.edu/6[...]
[36] 간행물 Bias–variance decomposition Springer
[37] 서적 An Introduction to Statistical Learning http://www-bcf.usc.e[...] Springer 2015-04-27
[38] 서적 The Elements of Statistical Learning https://web.archive.[...] 2015-04-27
[39] 콘퍼런스 A unified bias-variance decomposition http://homes.cs.wash[...]
[40] 저널 Bias–variance analysis of support vector machines for the development of SVM-based ensemble methods
[41] 서적 Introduction to Information Retrieval http://nlp.stanford.[...] Cambridge University Press
[42] 간행물 "Instance-based classifiers applied to medical databases: diagnosis and knowledge extraction" http://dx.doi.org/10[...]
[43] 간행물 Locally Weighted Regression for Control Springer
[44] 웹사이트 Understanding the Bias–Variance Tradeoff http://scott.fortman[...]
[45] 저널 Homo Heuristicus: Why Biased Minds Make Better Inferences



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com