정칙화

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 정칙화의 기본 개념
- 2.1. 과적합과 일반화
- 2.2. 정칙화의 원리
3. 주요 정칙화 기법
4. 정칙화 기법의 응용
5. 정칙화와 관련된 개념
- 5.1. 정보량 기준 (Information Criterion)
- 5.2. 베이즈 학습 (Bayesian Learning)
참조

1. 개요

정칙화는 기계 학습 모델이 훈련 데이터에 과적합되는 것을 방지하고 새로운 데이터에 대한 일반화 성능을 높이기 위해 사용되는 기술이다. 모델의 복잡성에 페널티를 부과하여 데이터 내의 광범위한 패턴을 학습하도록 유도하며, L1 정칙화(Lasso), L2 정칙화(Ridge), 엘라스틱 넷, 드롭아웃, 조기 종료 등 다양한 기법이 존재한다. 이러한 기법들은 과적합을 방지하고 모델의 일반화 능력을 향상시키는 데 기여하며, 역문제, 반지도 학습, 다중 작업 학습 등 다양한 응용 분야에서 활용된다.

더 읽어볼만한 페이지

해석학 (수학) - 수학적 최적화
수학적 최적화는 주어진 집합에서 실수 또는 정수 변수를 갖는 함수의 최댓값이나 최솟값을 찾는 문제로, 변수 종류, 제약 조건, 목적 함수 개수에 따라 다양한 분야로 나뉘며 여러 학문 분야에서 활용된다.
해석학 (수학) - 라플라스 변환
라플라스 변환은 함수 f(t)를 복소수 s를 사용하여 적분을 통해 다른 함수 F(s)로 변환하는 적분 변환이며, 선형성을 가지고 미분방정식 풀이 등 공학 분야에서 널리 사용된다.

정칙화
정의
설명	모델의 복잡성을 줄여 과적합을 방지하고 일반화 성능을 향상시키는 기술
목표
목표	과적합 방지 일반화 성능 향상 모델 안정성 증가
종류
L1 정규화 (Lasso)	가중치의 절대값 합을 최소화하여 일부 가중치를 0으로 만듦 (특성 선택 효과)
L2 정규화 (Ridge)	가중치의 제곱합을 최소화하여 가중치 값을 작게 만듦
Elastic Net	L1 및 L2 정규화의 조합
Dropout	학습 과정에서 신경망의 일부 뉴런을 임의로 제거 (앙상블 효과)
Early Stopping	검증 데이터 손실이 증가하기 시작하면 학습을 중단
데이터 증강	기존 데이터를 변형하거나 새로운 데이터를 생성하여 학습 데이터셋의 크기를 늘림
기타	배치 정규화 가중치 감쇠
수학적 표현
목적 함수	손실 함수 + 정규화 항
L1 정규화 항	λ * \|\|w\|\|₁ (λ는 정규화 강도, w는 가중치 벡터)
L2 정규화 항	λ * \|\|w\|\|₂² / 2
장점
장점	과적합 방지 모델 일반화 성능 향상 특성 선택 (L1 정규화) 모델 해석 용이성 증가
단점
단점	최적의 정규화 강도 선택 필요 모델 학습 시간 증가 가능성 일부 알고리즘에서 성능 저하 가능성
활용 분야
활용 분야	회귀 분석 분류 딥러닝 컴퓨터 비전 자연어 처리
주의 사항
주의 사항	정규화 강도(λ)를 적절하게 조정해야 함. 너무 큰 λ는 과소적합을 유발할 수 있고, 너무 작은 λ는 과적합을 막지 못할 수 있음.

2. 정칙화의 기본 개념

기계 학습에서 핵심 과제는 훈련 데이터뿐만 아니라 새로운 데이터에 대해서도 모델이 정확하게 결과를 예측할 수 있도록 하는 것이다. 정칙화는 모델이 훈련 데이터의 세부 사항을 암기하여 새로운 데이터에 일반화하지 못하는 과적합 문제를 해결하는 데 매우 중요하다. 정칙화의 목표는 모델이 데이터를 암기하기보다는 데이터 내의 더 광범위한 패턴을 학습하도록 유도하는 것이다.^[4]

분류기의 경험적 학습은 항상 부정확한 문제인데, 주어진 예시만으로 함수의 값을 추론하려고 시도하기 때문이다.

정규화 항(또는 정규화기) $R(f)$ 가 손실 함수에 추가된다.

: $\min_f \sum_{i=1}^{n} V(f(x_i), y_i) + \lambda R(f)$

여기서 $V$ 는 레이블이 $y$ 일 때 $f(x)$ 를 예측하는 비용을 설명하는 기본 손실 함수로, 제곱 손실 또는 hinge 손실과 같은 것이며, $\lambda$ 는 정규화 항의 중요성을 제어하는 매개변수이다. $R(f)$ 는 일반적으로 $f$ 의 복잡성에 대한 페널티를 부과하도록 선택된다. 사용되는 복잡성의 구체적인 개념에는 매끄러움에 대한 제한과 벡터 공간 노름에 대한 경계가 포함된다.^[7]

정규화에 대한 이론적 근거는 오컴의 면도날을 적용하여 더 간단한 함수를 선호하는 것이다. 베이즈 관점에서 많은 정규화 기술은 모델 매개변수에 특정 사전 분포를 적용하는 것과 관련이 있다.^[5]

정규화는 더 간단한 모델 학습, 모델의 희소성 유도, 학습 문제에 그룹 구조를 도입하는 등 여러 가지 목적을 수행할 수 있다.

적분 방정식에 적용된 단순한 형태의 정규화(티호노프 정규화)는 본질적으로 데이터 적합과 솔루션의 노름 감소 사이의 균형이다. 보다 최근에는 총 변동 정규화를 포함한 비선형 정규화 방법이 널리 사용되고 있다.

통계 및 기계 학습에서 정칙화는 모델의 매개변수 학습에 사용되며, 특히 과적합을 방지하고 일반화 성능을 높이는 데 사용된다.

기계 학습에서 가장 일반적인 것은 L1 정칙화 (''p''=1)와 L2 정칙화 (''p''=2)이다. 손실 함수 $E(\boldsymbol{w})$ 대신,

: $E(\boldsymbol{w}) + \lambda \frac{1}{p} \| \boldsymbol{w} \|_p^p = E(\boldsymbol{w}) + \lambda \frac{1}{p} \sum_i |w_i|^p$

를 사용한다. $\boldsymbol{w}$ 는 매개변수의 벡터이며, $\| \cdot \|_p$ 는 L1 노름 (''p''=1) 또는 L2 노름 (''p''=2) 등이다. $\lambda$ 는 하이퍼파라미터이며, 양의 상수이고, 클수록 정칙화의 효과가 강해지지만, 교차 검증 등으로 결정한다.

손실 함수를 매개변수로 편미분하면,

; L2 정칙화의 경우

: $\frac{ \partial E(\boldsymbol{w}) }{ \partial w_i } + \lambda w_i$

; L1 정칙화의 경우

: $\frac{ \partial E(\boldsymbol{w}) }{ \partial w_i } + \lambda \sgn(w_i)$

가 되며, 이는 최급강하법이나 확률적 경사 하강법을 사용하는 경우, L2 정칙화는 매개변수의 크기에 비례하는 만큼, L1 정칙화는 $\lambda$ 만큼 0에 가깝게 한다는 것을 의미한다.

이 기법은 다양한 모델에서 이용할 수 있다. 선형 회귀 모델에 이용한 경우, L1의 경우에는 라쏘 회귀^[19], L2의 경우에는 릿지 회귀^[18]라고 부른다. 로지스틱 회귀, 신경망, 서포트 벡터 머신, 조건부 확률장 등에서도 사용된다. 신경망 분야에서는, L2 정칙화를 가중치 감쇠(weight decay)라고도 부른다.

2. 1. 과적합과 일반화

정칙화는 학습된 모델의 일반화 가능성을 향상시키는 것을 목표로 한다.

학습 문제의 목표는 모든 입력과 레이블에 대한 기대 오차를 최소화하는 함수를 찾는 것이다. 함수

f_n

의 기대 오차는 다음과 같다.

:

I[f_n] = \int_{X \times Y} V(f_n(x),y) \rho(x,y) \, dx \, dy

여기서

X

와

Y

는 각각 입력 데이터

x

와 해당 레이블

y

의 영역이다.

일반적으로 학습 문제에서는 노이즈가 있는 입력 데이터와 레이블의 하위 집합만 사용할 수 있다. 따라서 기대 오차는 측정할 수 없으며, 사용 가능한 최상의 대리자는

N

개의 사용 가능한 샘플에 대한 경험적 오차이다.

:

I_S[f_n] = \frac{1}{n} \sum_{i=1}^N V(f_n(\hat x_i), \hat y_i)

재생 커널 힐베르트 공간의 복잡성에 대한 제한이 없으면, 대리 경험적 오차에 대해 손실이 0인 모델이 학습된다. 측정값이 노이즈와 함께 이루어진 경우, 이 모델은 과적합으로 인해 기대 오차가 좋지 않을 수 있다. 정칙화는 모델을 구축하는 데 사용되는 함수 공간의 특정 영역을 탐색하는 것에 대한 페널티를 도입하여 일반화를 개선할 수 있다.

통계 및 기계 학습에서 정칙화는 모델의 매개변수 학습에 사용되며, 특히 과적합을 방지하고 일반화 성능을 높이는 데 사용된다. 기계 학습에서 가장 일반적인 것은 L1 정칙화 (''p''=1)와 L2 정칙화 (''p''=2)이다. 손실 함수

E(\boldsymbol{w})

대신,

:

E(\boldsymbol{w}) + \lambda \frac{1}{p} \| \boldsymbol{w} \|_p^p = E(\boldsymbol{w}) + \lambda \frac{1}{p} \sum_i |w_i|^p

를 사용한다.

\boldsymbol{w}

는 매개변수의 벡터이며,

\| \cdot \|_p

는 L1 노름 (''p''=1) 또는 L2 노름 (''p''=2) 등이다.

\lambda

는 하이퍼파라미터이며, 양의 상수이고, 클수록 정칙화의 효과가 강해지지만, 교차 검증 등으로 결정한다.

손실 함수를 매개변수로 편미분하면,

; L2 정칙화의 경우

:

\frac{ \partial E(\boldsymbol{w}) }{ \partial w_i } + \lambda w_i

; L1 정칙화의 경우

:

\frac{ \partial E(\boldsymbol{w}) }{ \partial w_i } + \lambda \sgn(w_i)

가 되며, 이는 최급강하법이나 확률적 경사 하강법을 사용하는 경우, L2 정칙화는 매개변수의 크기에 비례하는 만큼, L1 정칙화는

\lambda

만큼 0에 가깝게 한다는 것을 의미한다.

이 기법은 다양한 모델에서 이용할 수 있다. 선형 회귀 모델에 이용한 경우, L1의 경우에는 라쏘 회귀^[19], L2의 경우에는 릿지 회귀^[18]라고 부른다. 로지스틱 회귀, 신경망, 서포트 벡터 머신, 조건부 확률장 등에서도 사용된다. 신경망 분야에서는, L2 정칙화를 가중치 감쇠(weight decay)라고도 부른다.

2. 2. 정칙화의 원리

통계 및 기계 학습에서 정칙화는 모델의 매개변수 학습에 사용되며, 특히 과적합을 방지하고 일반화 성능을 높이는 데 사용된다.

기계 학습에서 가장 일반적인 것은 L1 정칙화 (''p''=1)와 L2 정칙화 (''p''=2)이다. 손실 함수

E(\boldsymbol{w})

대신,

:

E(\boldsymbol{w}) + \lambda \frac{1}{p} \| \boldsymbol{w} \|_p^p = E(\boldsymbol{w}) + \lambda \frac{1}{p} \sum_i |w_i|^p

를 사용한다.

\boldsymbol{w}

는 매개변수의 벡터이며,

\| \cdot \|_p

는 L1 노름 (''p''=1) 또는 L2 노름 (''p''=2) 등이다.

\lambda

는 하이퍼파라미터이며, 양의 상수이고, 클수록 정칙화의 효과가 강해지지만, 교차 검증 등으로 결정한다.

손실 함수를 매개변수로 편미분하면,

; L2 정칙화의 경우

:

\frac{ \partial E(\boldsymbol{w}) }{ \partial w_i } + \lambda w_i

; L1 정칙화의 경우

:

\frac{ \partial E(\boldsymbol{w}) }{ \partial w_i } + \lambda \sgn(w_i)

가 되며, 이는 최급강하법이나 확률적 경사 하강법을 사용하는 경우, L2 정칙화는 매개변수의 크기에 비례하는 만큼, L1 정칙화는

\lambda

만큼 0에 가깝게 한다는 것을 의미한다.

이 기법은 다양한 모델에서 이용할 수 있다. 선형 회귀 모델에 이용한 경우, L1의 경우에는 라쏘 회귀^[19], L2의 경우에는 릿지 회귀^[18]라고 부른다. 로지스틱 회귀, 신경망, 서포트 벡터 머신, 조건부 확률장 등에서도 사용된다. 신경망 분야에서는, L2 정칙화를 가중치 감쇠(weight decay)라고도 부른다.

3. 주요 정칙화 기법

통계 및 기계 학습에서 정칙화는 모델의 매개변수 학습에 사용되며, 특히 과적합을 방지하고 일반화 성능을 높이는 데 사용된다.

기계 학습에서 가장 일반적인 것은 L1 정칙화 (''p''=1)와 L2 정칙화 (''p''=2)이다. 손실 함수 $E(\boldsymbol{w})$ 대신,

: $E(\boldsymbol{w}) + \lambda \frac{1}{p} \| \boldsymbol{w} \|_p^p = E(\boldsymbol{w}) + \lambda \frac{1}{p} \sum_i |w_i|^p$

를 사용한다. $\boldsymbol{w}$ 는 매개변수의 벡터이며, $\| \cdot \|_p$ 는 L1 노름 (''p''=1) 또는 L2 노름 (''p''=2) 등이다. $\lambda$ 는 하이퍼파라미터이며, 양의 상수이고, 클수록 정칙화의 효과가 강해지지만, 교차 검증 등으로 결정한다.

손실 함수를 매개변수로 편미분하면,

; L2 정칙화의 경우

: $\frac{ \partial E(\boldsymbol{w}) }{ \partial w_i } + \lambda w_i$

; L1 정칙화의 경우

: $\frac{ \partial E(\boldsymbol{w}) }{ \partial w_i } + \lambda \sgn(w_i)$

가 되며, 이는 최급강하법이나 확률적 경사 하강법을 사용하는 경우, L2 정칙화는 매개변수의 크기에 비례하는 만큼, L1 정칙화는 $\lambda$ 만큼 0에 가깝게 한다는 것을 의미한다.

이 기법은 다양한 모델에서 이용할 수 있다. 선형 회귀 모델에 이용한 경우, L1의 경우에는 라쏘 회귀^[19], L2의 경우에는 릿지 회귀^[18]라고 부른다. 로지스틱 회귀, 신경망, 서포트 벡터 머신, 조건부 확률장 등에서도 사용된다. 신경망 분야에서는, L2 정칙화를 가중치 감쇠(weight decay)라고도 부른다.

다음은 일반화 선형 모형에 사용되는 정칙화 기법의 목록이다.

모형	적합 척도	엔트로피 척도^[16]^[17]
아카이케 정보량 기준/베이즈 정보량 기준	\>Y-X\beta\\|_2	\>\beta\\|_0
릿지 회귀^[18]	\>Y-X\beta\\|_2	\>\beta\\|_2
라쏘 회귀^[19]	\>Y-X\beta\\|_2	\>\beta\\|_1
엘라스틱넷^[20]	\>Y-X\beta\\|_2	\lambda_1 \>\beta\\|_1 + \lambda_2 \\|\beta\\|_2
기저 추적 노이즈 제거	\>Y-X\beta\\|_2	\lambda\>\beta\\|_1
Rudin-Osher-Fatemi 모형 (TV)	\>Y-X\beta\\|_2	\lambda\>\nabla\beta\\|_1
Potts 모형	\>Y-X\beta\\|_2	\lambda\>\nabla\beta\\|_0
RLAD^[21]	\>Y-X\beta\\|_1	\>\beta\\|_1
Dantzig 선택기^[22]	\>X^\top (Y-X\beta)\\|_\infty	\>\beta\\|_1
SLOPE^[23]	\>Y-X\beta\\|_2	\sum_{i=1}^p \lambda_i>\beta\|_{(i)}

== L1 정칙화 (Lasso) ==

L1 정칙화 (LASSO)는 계수의 절댓값을 기반으로 페널티를 추가하여 희소 모델을 만든다.^[4] 이는 가중치의 절댓값 합에 비례하는 페널티를 부여하는 방식으로, 일부 가중치를 0으로 만들어 특성 선택 효과를 얻을 수 있다.^[14]^[15]

L1 볼과 L2 볼을 2차원에서 비교하면 L1 정규화가 희소성을 달성하는 방법에 대한 직관을 얻을 수 있다.

L_1

노름은 볼록 완화를 통해 최적의

L_0

노름을 근사하는 데 사용될 수 있다. 최소 제곱의 경우, 이 문제는 통계학에서 LASSO라고 하고 신호 처리에서 기저 추구라고 한다.^[6]

L1 정칙화를 사용하면 일부 파라미터를 0으로 만들 수 있다. 즉, 특성 선택을 수행하는 것이며, 희소 모델이 된다.^[14]^[15] 0이 많으면 희소 행렬로 표현할 수 있으며, 빠르게 계산할 수 있다.

손실 함수가 제곱합 오차인 경우, L1 정칙화는 파라미터의 절댓값이 ''λ'' 이하이면 0으로 만들고, 그렇지 않으면 ''λ''만큼 0에 가깝게 만드는 것과 동일하다. 따라서, 작은 값의 파라미터가 0이 된다.

기계 학습 기법에서 데이터가 평균 0 분산 1로 정규화되지 않으면 제대로 작동하지 않는 경우가 많지만, L1 정칙화에서 모든 파라미터에 대해 동일하게 ''λ''씩 감소시키는 것은, 유사한 스케일링이어야 하므로, 평균 0 분산 1로 정규화되지 않으면 제대로 작동하지 않는다.

다음은 일반화 선형 모형에 사용되는 정칙화 기법의 목록이다.

모형	적합 척도	엔트로피 척도^[16]^[17]
라쏘 회귀^[19]	\>Y-X\beta\\|_2	\>\beta\\|_1

== L2 정칙화 (Ridge) ==

L2 정칙화(릿지 회귀)는 가중치의 제곱 합에 비례하는 페널티를 비용 함수에 추가하여 가중치가 작아지도록 유도한다.^[4] 이는 모델의 복잡도를 제한하고 과적합을 방지하는 효과가 있다. L2 정칙화는 L1 정칙화에 비해 특성 선택 효과는 약하지만, 수치적으로 안정적인 해를 제공한다는 특징이 있다.

이 기법은 적분 방정식에 정규화를 적용하고 다른 여러 분야에서 중요한 기여를 한 안드레이 니콜라예비치 티호노프의 이름을 따서 티호노프 정규화라고도 불린다. 알 수 없는 벡터 $w$ 로 특징지어지는 선형 함수 $f(x) = w \cdot x$ 를 학습할 때, 노름이 작은 해를 선호하기 위해 벡터 $w$ 의 $L_2$ 노름을 손실 식에 추가할 수 있으며, 이는 다음과 같이 표현된다.

$\min_w \sum_{i=1}^{n} V(\hat x_i \cdot w, \hat y_i) + \lambda \left\|w\right\|_2^2,$

여기서 $(\hat x_i, \hat y_i), \, 1 \leq i \leq n,$ 는 훈련에 사용된 샘플을 나타낸다.

일반적인 함수의 경우, 해당 함수의 재생 커널 힐베르트 공간에서의 노름은 다음과 같다.

$\min_f \sum_{i=1}^{n} V(f(\hat x_i), \hat y_i) + \lambda \left\|f\right\|_{\mathcal{H}}^2$

$L_2$ 노름은 미분 가능하므로, 경사 하강법을 통해 학습을 진행할 수 있다.^[4]

다음은 일반화 선형 모형에 사용되는 정칙화 기법의 목록중 하나이다.^[18]

모형	적합 척도	엔트로피 척도
릿지 회귀	\>Y-X\beta\\|_2	\>\beta\\|_2

== 엘라스틱 넷 (Elastic Net) ==

엘라스틱 넷(^[20])은 L1 정칙화 (LASSO)와 L2 정칙화를 결합한 방식이다.^[4] L1 정칙화는 계수의 절대값을 기반으로 페널티를 추가하여 희소 모델을 만들고, L2 정칙화는 계수의 제곱을 기반으로 페널티를 추가하여 더 작고 균등하게 분산된 가중치를 만든다.^[4] 엘라스틱 넷은 두 정칙화 방법의 장점을 모두 활용하여 희소성과 모델 복잡도 제어를 동시에 달성할 수 있다.

엘라스틱 넷의 엔트로피 척도는 $\lambda_1 \|\beta\|_1 + \lambda_2 \|\beta\|_2$로 주어진다.^[20] 여기서 $\lambda_1$과 $\lambda_2$는 각각 L1 정칙화와 L2 정칙화의 비중을 조절하는 하이퍼파라미터이다.

== 드롭아웃 (Dropout) ==

드롭아웃은 신경망 학습 과정에서 무작위로 뉴런을 제거하여 학습하는 방법이다.^[4] 각 뉴런이 독립적으로 중요한 특징을 학습하도록 유도하여 과적합을 방지한다. 앙상블 효과를 통해 모델의 일반화 성능을 향상시킬 수 있다.

== 조기 종료 (Early Stopping) ==

조기 종료는 검증 데이터(Validation Data)에 대한 성능 개선이 멈추는 시점에 학습을 중단하는 방법이다.^[4] 과적합이 발생하기 전에 학습을 종료하여 모델의 일반화 성능을 높일 수 있다. 조기 종료는 훈련용 데이터 세트, 검증용 통계적으로 독립적인 데이터 세트, 그리고 테스트용 데이터 세트를 사용하여 구현된다. 모델은 검증 세트의 성능이 더 이상 개선되지 않을 때까지 훈련된 다음, 테스트 세트에 적용된다.^[4]

조기 종료는 시간적 정규화로 볼 수 있다. 경사 하강과 같은 훈련 절차는 반복 횟수가 증가함에 따라 점점 더 복잡한 함수를 학습하는 경향이 있는데, 시간에 대한 정규화를 통해 모델 복잡성을 제어하여 일반화 성능을 향상시킬 수 있다.^[4]

3. 1. L1 정칙화 (Lasso)

L1 정칙화 (LASSO)는 계수의 절댓값을 기반으로 페널티를 추가하여 희소 모델을 만든다.^[4] 이는 가중치의 절댓값 합에 비례하는 페널티를 부여하는 방식으로, 일부 가중치를 0으로 만들어 특성 선택 효과를 얻을 수 있다.^[14]^[15]

L_1

노름은 볼록 완화를 통해 최적의

L_0

노름을 근사하는 데 사용될 수 있다. 최소 제곱의 경우, 이 문제는 통계학에서 LASSO라고 하고 신호 처리에서 기저 추구라고 한다.^[6]

L1 정칙화를 사용하면 일부 파라미터를 0으로 만들 수 있다. 즉, 특성 선택을 수행하는 것이며, 희소 모델이 된다.^[14]^[15] 0이 많으면 희소 행렬로 표현할 수 있으며, 빠르게 계산할 수 있다.

손실 함수가 제곱합 오차인 경우, L1 정칙화는 파라미터의 절댓값이 ''λ'' 이하이면 0으로 만들고, 그렇지 않으면 ''λ''만큼 0에 가깝게 만드는 것과 동일하다. 따라서, 작은 값의 파라미터가 0이 된다.

기계 학습 기법에서 데이터가 평균 0 분산 1로 정규화되지 않으면 제대로 작동하지 않는 경우가 많지만, L1 정칙화에서 모든 파라미터에 대해 동일하게 ''λ''씩 감소시키는 것은, 유사한 스케일링이어야 하므로, 평균 0 분산 1로 정규화되지 않으면 제대로 작동하지 않는다.

다음은 일반화 선형 모형에 사용되는 정칙화 기법의 목록이다.

모형	적합 척도	엔트로피 척도^[16]^[17]
라쏘 회귀^[19]	\>Y-X\beta\\|_2	\>\beta\\|_1

3. 2. L2 정칙화 (Ridge)

L2 정칙화(릿지 회귀)는 가중치의 제곱 합에 비례하는 페널티를 비용 함수에 추가하여 가중치가 작아지도록 유도한다.^[4] 이는 모델의 복잡도를 제한하고 과적합을 방지하는 효과가 있다. L2 정칙화는 L1 정칙화에 비해 특성 선택 효과는 약하지만, 수치적으로 안정적인 해를 제공한다는 특징이 있다.

이 기법은 적분 방정식에 정규화를 적용하고 다른 여러 분야에서 중요한 기여를 한 안드레이 니콜라예비치 티호노프의 이름을 따서 티호노프 정규화라고도 불린다. 알 수 없는 벡터

w

로 특징지어지는 선형 함수

f(x) = w \cdot x

를 학습할 때, 노름이 작은 해를 선호하기 위해 벡터

w

의

L_2

노름을 손실 식에 추가할 수 있으며, 이는 다음과 같이 표현된다.

\min_w \sum_{i=1}^{n} V(\hat x_i \cdot w, \hat y_i) + \lambda \left\|w\right\|_2^2,

여기서

(\hat x_i, \hat y_i), \, 1 \leq i \leq n,

는 훈련에 사용된 샘플을 나타낸다.

일반적인 함수의 경우, 해당 함수의 재생 커널 힐베르트 공간에서의 노름은 다음과 같다.

\min_f \sum_{i=1}^{n} V(f(\hat x_i), \hat y_i) + \lambda \left\|f\right\|_{\mathcal{H}}^2

L_2

노름은 미분 가능하므로, 경사 하강법을 통해 학습을 진행할 수 있다.^[4]

다음은 일반화 선형 모형에 사용되는 정칙화 기법의 목록중 하나이다.^[18]

모형	적합 척도	엔트로피 척도
릿지 회귀	\>Y-X\beta\\|_2	\>\beta\\|_2

3. 3. 엘라스틱 넷 (Elastic Net)

엘라스틱 넷(^[20])은 L1 정칙화 (LASSO)와 L2 정칙화를 결합한 방식이다.^[4] L1 정칙화는 계수의 절대값을 기반으로 페널티를 추가하여 희소 모델을 만들고, L2 정칙화는 계수의 제곱을 기반으로 페널티를 추가하여 더 작고 균등하게 분산된 가중치를 만든다.^[4] 엘라스틱 넷은 두 정칙화 방법의 장점을 모두 활용하여 희소성과 모델 복잡도 제어를 동시에 달성할 수 있다.

엘라스틱 넷의 엔트로피 척도는 $\lambda_1 \|\beta\|_1 + \lambda_2 \|\beta\|_2$로 주어진다.^[20] 여기서 $\lambda_1$과 $\lambda_2$는 각각 L1 정칙화와 L2 정칙화의 비중을 조절하는 하이퍼파라미터이다.

3. 4. 드롭아웃 (Dropout)

드롭아웃은 신경망 학습 과정에서 무작위로 뉴런을 제거하여 학습하는 방법이다.^[4] 각 뉴런이 독립적으로 중요한 특징을 학습하도록 유도하여 과적합을 방지한다. 앙상블 효과를 통해 모델의 일반화 성능을 향상시킬 수 있다.

3. 5. 조기 종료 (Early Stopping)

조기 종료는 검증 데이터(Validation Data)에 대한 성능 개선이 멈추는 시점에 학습을 중단하는 방법이다.^[4] 과적합이 발생하기 전에 학습을 종료하여 모델의 일반화 성능을 높일 수 있다. 조기 종료는 훈련용 데이터 세트, 검증용 통계적으로 독립적인 데이터 세트, 그리고 테스트용 데이터 세트를 사용하여 구현된다. 모델은 검증 세트의 성능이 더 이상 개선되지 않을 때까지 훈련된 다음, 테스트 세트에 적용된다.^[4]

조기 종료는 시간적 정규화로 볼 수 있다. 경사 하강과 같은 훈련 절차는 반복 횟수가 증가함에 따라 점점 더 복잡한 함수를 학습하는 경향이 있는데, 시간에 대한 정규화를 통해 모델 복잡성을 제어하여 일반화 성능을 향상시킬 수 있다.^[4]

3. 6. 데이터 증강 (Data Augmentation)

4. 정칙화 기법의 응용

4. 1. 역문제 (Inverse Problem)

티호노프 정규화는 역문제 해결에 사용되는 대표적인 정규화 기법이다.^[24] 이 기법은 안드레이 니콜라예비치 티호노프의 이름을 따서 명명되었으며, 적분 방정식에 적용되어 여러 분야에서 중요한 기여를 했다.

알 수 없는 벡터 ''w''로 특징지어지는 선형 함수 ''f''를 학습할 때, ''f(x) = w ⋅ x'' 이므로, 노름이 작은 해를 선호하기 위해 벡터 ''w''의 ''L₂'' 노름을 손실 식에 추가할 수 있다. 티호노프 정규화는 가장 일반적인 형태 중 하나이며, 릿지 회귀라고도 불린다. 이는 다음과 같이 표현된다.

:

\min_w \sum_{i=1}^{n} V(\hat x_i \cdot w, \hat y_i) + \lambda \left\|w\right\|_2^2,

여기서

(\hat x_i, \hat y_i), \, 1 \leq i \leq n,

는 훈련에 사용된 샘플을 나타낸다.

일반적인 함수의 경우, 해당 함수의 재생 커널 힐베르트 공간에서의 노름은 다음과 같다.

:

\min_f \sum_{i=1}^{n} V(f(\hat x_i), \hat y_i) + \lambda \left\|f\right\|_{\mathcal{H}}^2

''L₂'' 노름은 미분 가능하므로, 경사 하강법을 통해 학습을 진행할 수 있다. 최소 제곱법 손실 함수와 티호노프 정규화를 사용한 학습 문제는 해석적으로 해결할 수 있다. 행렬 형식으로 작성하면, 최적의 ''w''는 ''w''에 대한 손실 함수의 기울기가 0인 값이다.

:

\min_w \frac{1}{n} \left(\hat X w - Y\right)^\mathsf{T} \left(\hat X w - Y\right) + \lambda \left\|w\right\|_2^2

:

\nabla_w = \frac{2}{n} \hat X^\mathsf{T} \left(\hat X w -  Y\right) + 2 \lambda w

:

0 = \hat X^\mathsf{T} \left(\hat X w -  Y\right) + n \lambda w

:

w = \left(\hat X^\mathsf{T} \hat X + \lambda n I\right)^{-1} \left(\hat X^\mathsf{T} Y\right)

여기서 세 번째 식은 1계 조건이다.

최적화 문제의 구성에 의해, 다른 ''w'' 값은 손실 함수에 대해 더 큰 값을 제공한다. 이는 2계 미분

\nabla_{ww}

을 검토하여 확인할 수 있다.

훈련하는 동안, 이 알고리즘은

O(d^3 + n d^2)

시간 복잡도를 갖는다. 각 항은 행렬 반전과

X^\mathsf{T} X

계산에 해당한다. 테스트에는

O(nd)

시간이 소요된다.

4. 2. 반지도 학습 (Semi-Supervised Learning)

정규화는 레이블이 없는 데이터의 정보를 활용하여 모델의 성능을 향상시키는 데 사용될 수 있다. 입력 예제보다 레이블을 수집하는 비용이 더 많이 드는 경우, 반지도 학습이 유용할 수 있다. 정규화기는 지도 학습 알고리즘이 비지도 훈련 샘플의 구조를 존중하는 모델을 학습하도록 안내하기 위해 설계되었다.

대칭 가중치 행렬

W

가 주어지면, 정규화기는 다음과 같이 정의할 수 있다.

:

R(f) = \sum_{i,j} w_{ij} \left(f(x_i) - f(x_j)\right)^2

W_{ij}

가 점

x_i

와

x_j

에 대한 거리 메트릭의 결과를 인코딩하는 경우,

f(x_i) \approx f(x_j)

가 바람직하다. 이 정규화기는 이러한 직관을 포착하며 다음과 같다.

:

R(f) = \bar f^\mathsf{T} L \bar f

여기서

L = D- W

는

W

에 의해 유도된 그래프의 라플라시안 행렬이다.

제약 조건

f(x_i) = y_i

가 모든 지도 샘플에 적용되면, 최적화 문제

\min_{f \in \mathbb{R}^m} R(f), m = u + l

는 해석적으로 해결될 수 있다. 따라서 벡터

f

의 레이블이 지정된 부분은 명백하다.

f

의 레이블이 지정되지 않은 부분은 다음과 같이 해결된다.

:

\min_{f_u \in \mathbb{R}^u} f^\mathsf{T} L f = \min_{f_u \in \mathbb{R}^u} \left\{ f^\mathsf{T}_u L_{uu} f_u + f^\mathsf{T}_l L_{lu} f_u + f^\mathsf{T}_u L_{ul} f_l \right\}

:

\nabla_{f_u} = 2L_{uu}f_u + 2L_{ul}Y

:

f_u = L_{uu}^\dagger \left(L_{ul} Y\right)

L_{ul}

이

L_{uu}

와 동일한 범위를 가지므로 유사 역행렬을 취할 수 있다.

4. 3. 다중 작업 학습 (Multi-Task Learning)

다중 작업 학습은 어떤 방식으로든 서로 관련된 T개의 문제를 동시에 고려한다. 목표는 예측 능력을 갖는 T개의 함수를 학습하는 것이며, 이상적으로는 작업 간의 연관성을 활용하는 것이다. 이는 행렬 W : T x D 를 학습하는 것과 같다.

5. 정칙화와 관련된 개념

5. 1. 정보량 기준 (Information Criterion)

베이즈 학습 방법은 일반적으로 더 복잡한 모형에 낮은 확률을 부여하는 사전 확률을 사용한다.^[7]^[8] 잘 알려진 모형 선택 기술에는 아카이케 정보 기준(AIC), 최소 설명 길이(MDL), 베이즈 정보 기준(BIC) 등이 있다.^[9]^[10] 정규화를 포함하지 않는 과적합 제어의 대안적 방법으로는 교차 검증이 있다.

선형 모형에 대한 다양한 정규화 방법의 응용 예시는 다음과 같다.

모형	적합도 척도	엔트로피 척도
AIC/BIC	\left\>Y - X\beta\right\\|_2	\left\>\beta\right\\|_0
Lasso	\left\>Y - X\beta\right\\|_2	\left\>\beta\right\\|_1
릿지 회귀	\left\>Y-X\beta\right\\|_2	\left\>\beta\right\\|_2
기저 추구 디노이징	\left\>Y - X\beta\right\\|_2	\lambda\left\>\beta\right\\|_1
Rudin–Osher–Fatemi 모형 (TV)	\left\>Y - X\beta\right\\|_2	\lambda\left\>\nabla\beta\right\\|_1
포츠 모형	\left\>Y - X\beta\right\\|_2	\lambda \left\>\nabla\beta\right\\|_0
RLAD	\left\>Y - X\beta\right\\|_1	\left\>\beta\right\\|_1
Dantzig 선택자	\left\>X^\mathsf{T} (Y-X\beta)\right\\|_\infty	\left\>\beta\right\\|_1
SLOPE	\left\>Y - X\beta\right\\|_2	\sum_{i=1}^p \lambda_i \left>\beta\right\|_{(i)}

사전 확률을 사용하는 베이지안 학습법에서는 복잡한 모델에 더 작은 확률을 할당할 수 있다. 자주 사용되는 모델 선택 기법으로는 AIC, MDL, BIC 등이 있다.

5. 2. 베이즈 학습 (Bayesian Learning)

참조

_[1] 논문 Deep Arbitrage-Free Learning in a Generalized HJM Framework via Arbitrage-Regularization Data https://mdpi.com/222[...]
_[2] 서적 Statistics for High-Dimensional Data https://archive.org/[...]
_[3] 서적 Deep Learning Book https://www.deeplear[...] 2021-01-29
_[4] 웹사이트 AI Notes: Regularizing neural networks https://deeplearning[...] 2024-02-04
_[5] 웹사이트 Linear / Ridge Regression https://www.cs.corne[...] Cornell 2018-07-11
_[6] 논문 Sparse Approximate Solutions to Linear Systems http://epubs.siam.or[...] 1995-04-01
_[7] 서적 Pattern recognition and machine learning Springer 2007
_[8] 서적 Pattern classification + computer manual : hardcover set Wiley 2004
_[9] 논문 Regression Shrinkage and Selection via the Lasso http://www-stat.stan[...] 2009-03-19
_[10] 논문 Ridge regression: Biased estimation for nonorthogonal problems
_[11] 간행물 Regularized Least Absolute Deviations Regression and an Efficient Algorithm for Parameter Tuning 2006
_[12] 논문 The Dantzig selector: Statistical estimation when ''p'' is much larger than ''n''
_[13] 논문 Statistical estimation and testing via the ordered L1 norm
_[14] 논문 Scalable training of L₁-regularized log-linear models
_[15] 간행물 Stochastic gradient descent training for l1-regularized log-linear models with cumulative penalty http://aclweb.org/an[...]
_[16] 서적 Pattern recognition and machine learning Springer 2007
_[17] 서적 Pattern classification + computer manual : hardcover set Wiley 2004
_[18] 논문 Ridge regression: Biased estimation for nonorthogonal problems
_[19] 논문 Regression Shrinkage and Selection via the Lasso http://statweb.stanf[...]
_[20] 논문 Regularization and variable selection via the Elastic Net https://web.stanford[...]
_[21] 간행물 Regularized Least Absolute Deviations Regression and an Efficient Algorithm for Parameter Tuning 2006
_[22] 논문 The Dantzig selector: Statistical estimation when ''p'' is much larger than ''n''
_[23] 논문 Statistical estimation and testing via the ordered L1 norm
_[24] 논문 Об устойчивости обратных задач

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com

모형	적합 척도	엔트로피 척도^[16]^[17]
아카이케 정보량 기준/베이즈 정보량 기준	\>Y-X\beta\\|_2	\>\beta\\|_0
릿지 회귀^[18]	\>Y-X\beta\\|_2	\>\beta\\|_2
라쏘 회귀^[19]	\>Y-X\beta\\|_2	\>\beta\\|_1
엘라스틱넷^[20]	\>Y-X\beta\\|_2	\lambda_1 \>\beta\\|_1 + \lambda_2 \\|\beta\\|_2
기저 추적 노이즈 제거	\>Y-X\beta\\|_2	\lambda\>\beta\\|_1
Rudin-Osher-Fatemi 모형 (TV)	\>Y-X\beta\\|_2	\lambda\>\nabla\beta\\|_1
Potts 모형	\>Y-X\beta\\|_2	\lambda\>\nabla\beta\\|_0
RLAD^[21]	\>Y-X\beta\\|_1	\>\beta\\|_1
Dantzig 선택기^[22]	\>X^\top (Y-X\beta)\\|_\infty	\>\beta\\|_1
SLOPE^[23]	\>Y-X\beta\\|_2	\sum_{i=1}^p \lambda_i>\beta\|_{(i)}

모형	적합도 척도	엔트로피 척도
AIC/BIC	\left\>Y - X\beta\right\\|_2	\left\>\beta\right\\|_0
Lasso	\left\>Y - X\beta\right\\|_2	\left\>\beta\right\\|_1
릿지 회귀	\left\>Y-X\beta\right\\|_2	\left\>\beta\right\\|_2
기저 추구 디노이징	\left\>Y - X\beta\right\\|_2	\lambda\left\>\beta\right\\|_1
Rudin–Osher–Fatemi 모형 (TV)	\left\>Y - X\beta\right\\|_2	\lambda\left\>\nabla\beta\right\\|_1
포츠 모형	\left\>Y - X\beta\right\\|_2	\lambda \left\>\nabla\beta\right\\|_0
RLAD	\left\>Y - X\beta\right\\|_1	\left\>\beta\right\\|_1
Dantzig 선택자	\left\>X^\mathsf{T} (Y-X\beta)\right\\|_\infty	\left\>\beta\right\\|_1
SLOPE	\left\>Y - X\beta\right\\|_2	\sum_{i=1}^p \lambda_i \left>\beta\right\|_{(i)}