맨위로가기

릿지 회귀

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

릿지 회귀는 최소제곱법 선형 회귀의 한계를 극복하기 위해 사용되는 방법으로, 티호노프 정규화에서 파생되었다. 최소제곱법의 목적함수에 정규화 항을 추가하여 과적합 문제를 해결하며, L2 정규화를 통해 가중치의 크기를 제어한다. 릿지 회귀는 선형 회귀 외에도 분류, 행렬 분해 등 다양한 분야에서 활용되며, 특잇값 분해와 베이지안 해석과도 관련이 있다. 최적의 정규화 매개변수 결정에는 불일치 원리, 교차 검증 등의 방법이 사용된다.

더 읽어볼만한 페이지

  • 추정법 - 기댓값 최대화 알고리즘
  • 추정법 - 델파이 기법
    델파이 기법은 전문가들의 의견을 반복적인 피드백을 통해 수렴하여 문제를 해결하는 하향식 의견 도출 방법으로, 익명성, 정보 흐름의 구조화, 정기적인 피드백을 특징으로 하며 다양한 분야에서 활용된다.
  • 회귀분석 - 회귀 분석
    회귀 분석은 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링하고 분석하는 통계적 기법으로, 최소 제곱법 개발 이후 골턴의 연구로 '회귀' 용어가 도입되어 다양한 분야에서 예측 및 인과 관계 분석에 활용된다.
  • 회귀분석 - 로지스틱 회귀
    로지스틱 회귀는 범주형 종속 변수를 다루는 회귀 분석 기법으로, 특히 이항 종속 변수에 널리 사용되며, 오즈에 로짓 변환을 적용하여 결과값이 0과 1 사이의 값을 가지도록 하는 일반화 선형 모형의 특수한 경우이다.
  • 선형대수학 - 벡터 공간
    벡터 공간은 체 위의 가군으로 정의되는 대수적 구조로, 벡터 덧셈과 스칼라 곱셈 연산을 가지며 특정 공리들을 만족하고, 기저, 차원, 선형 사상 등의 개념을 통해 수학과 물리학 등 다양한 분야에서 활용된다.
  • 선형대수학 - 선형 결합
    선형 결합은 벡터 공간에서 벡터들의 스칼라 곱의 합으로 표현되는 식으로, 벡터 집합의 선형 독립성 판단 및 부분 공간 생성과 관련되며, 계수 제약을 통해 다양한 종류의 결합을 정의할 수 있고, 위상 벡터 공간이나 가군으로 일반화될 수 있다.
릿지 회귀
일반 정보
여러 알파 값에 대한 정규화 경로
여러 알파 값에 대한 정규화 경로
분야통계학, 머신 러닝
하위 분야회귀 분석
유형정규화 방법
이름티호노프 정규화
다른 이름가중치 감소
L2 정규화
선형 정규화
필립스-트워미 방법
제한된 선형 역전 방법
세부 사항
사용과적합 방지, 다중공선성 문제 해결
목적 함수최소자승 오차 + λ ||w||² (λ는 정규화 매개변수)
효과모델 복잡도 감소, 가중치 축소
관련 방법릿지 회귀
라쏘 회귀
엘라스틱 넷
역사 및 개발자
개발자안드레이 니콜라예비치 티호노프
데이비드 L. 필립스
실번 트워미
개발 연도1943년 (티호노프), 1962년 (필립스), 1963년 (트워미)
수학적 세부 사항
수학적 표현||Ax - b||² + λ||x||²
(AᵀA + λI)⁻¹Aᵀb
응용 분야
응용 분야역문제
신호 처리
영상 처리
기계 학습
관련 항목
관련 항목정규화 (수학)
최소 제곱법
특이값 분해
힐베르트 공간
커널 방법

2. 역사

릿지 회귀는 여러 다른 맥락에서 독립적으로 발명된 티호노프 정규화에서 비롯되었다.

이 방법은 안드레이 니콜라예비치 티호노프[10][11][12][13][14]와 데이비드 L. 필립스(David L. Phillips)의 연구에서 적분 방정식에 적용되면서 널리 알려지게 되었다.[15]

유한 차원 사례는 아서 E. 호얼[16]에 의해 상세히 설명되었는데, 그는 통계적 접근 방식을 취했고, 마누스 포스터(Manus Foster)는 이 방법을 크리깅 필터로 해석했다.[17] 호얼에 따라, 통계 문헌에서는 릿지 분석("릿지"는 제약 조건이 있는 최댓값에서 경로를 의미함)에서 이름을 따온 릿지 회귀로 알려져 있다.[18][19]

3. 기본 원리

릿지 회귀의 가장 단순한 형태는 최소제곱법 추정기와 유사하게 다음과 같이 표현된다.[8]

: \hat{\beta}_{R} = \left(\mathbf{X}^{\mathsf{T}} \mathbf{X} + \lambda \mathbf{I}\right)^{-1} \mathbf{X}^{\mathsf{T}} \mathbf{y}

여기서 \mathbf{y}는 피회귀변수, \mathbf{X}는 설계 행렬, \mathbf{I}는 항등 행렬이며, 릿지 파라미터 \lambda \geq 0는 모멘트 행렬의 주대각선을 이동시키는 상수 역할을 한다. 이 추정량은 최소제곱법 문제의 해로서 제약 조건 \beta^\mathsf{T}\beta = c를 가지며, 이는 라그랑지안으로 표현할 수 있다.[9]

: \min_{\beta} \, \left(\mathbf{y} - \mathbf{X} \beta\right)^\mathsf{T} \left(\mathbf{y} - \mathbf{X} \beta\right) + \lambda \left(\beta^\mathsf{T}\beta - c\right)

이는 \lambda가 제약 조건의 라그랑주 승수임을 보여준다. 일반적으로 \lambda는 휴리스틱 기준에 따라 선택되므로 제약 조건이 정확히 충족되지 않는다. 특히 \lambda = 0인 경우, 즉 제약 조건이 구속력이 없는 경우, 릿지 추정기는 최소제곱법으로 축소된다.

n\times 1 열 벡터 yn\times p 계획 행렬 X(일반적으로 p \ll n )의 열 공간에 투영되며, 그 열은 고도로 상관되어 있다고 가정한다. 정사영 X\beta를 얻기 위한 계수 \beta\in\mathbb R^{p\times1}의 최소제곱 추정량 \widehat\beta 는 다음과 같다.

: \widehat\beta = (X'X)^{-1}X'y

이에 비해 릿지 회귀 추정량 \widehat\beta_\text{ridge} 는 다음과 같다.

: \widehat\beta_\text{ridge} = (X^\top X + kI_p)^{-1}X^\top y

여기서, I_pp\times p 단위 행렬이며, k>0는 작은 값이다.

4. 티호노프 정규화 (Tikhonov Regularization)

티호노프 정규화는 릿지 회귀의 일반적인 형태로, 다양한 문제에 적용될 수 있다. 선형 방정식 A\mathbf{x} = \mathbf{b}에서 해가 유일하지 않거나 존재하지 않는 경우(부정 문제), 티호노프 정규화는 해의 안정성을 높이고 노이즈에 대한 민감도를 줄인다.

일반적으로 최소제곱법은 제곱된 잔차의 합을 최소화하여 해를 구한다.

:\left\|A\mathbf{x} - \mathbf{b}\right\|_2^2,

여기서 \|\cdot\|_2는 유클리드 노름이다.

그러나 해가 유일하지 않거나 데이터에 노이즈가 많은 경우, 최소제곱법만으로는 안정적인 해를 구하기 어렵다. 티호노프 정규화는 이러한 문제를 해결하기 위해 정규화 항을 추가한다.

:\left\|A\mathbf{x} - \mathbf{b}\right\|_2^2 + \left\|\Gamma \mathbf{x}\right\|_2^2

여기서 \Gamma 는 '''티호노프 행렬'''이다. 이 행렬은 주로 항등 행렬의 스칼라 배수(\Gamma = \alpha I)로 선택되며, 이 경우 더 작은 노름을 가진 해를 선호하게 된다. 이를 L2영어 정규화라고 한다.[20]

티호노프 정규화를 통해 얻어진 해는 다음과 같다.

:\hat{x} = \left(A^\mathsf{T} A + \Gamma^\mathsf{T} \Gamma\right)^{-1} A^\mathsf{T} \mathbf{b}.

정규화의 효과는 티호노프 행렬 \Gamma의 스케일에 따라 달라진다. 만약 \Gamma = 0이면, 정규화되지 않은 최소제곱 해로 축소된다.

L2영어 정규화는 선형 회귀뿐만 아니라 로지스틱 회귀, 서포트 벡터 머신,[21] 행렬 분해 등[22] 다양한 통계적 분류 및 머신 러닝 기법에도 활용된다.

이 방법은 안드레이 니콜라예비치 티호노프와 데이비드 L. 필립스의 연구에서 널리 알려지게 되었으며,[10][11][12][13][14][15] 일부 저자는 '티호노프-필립스 정규화'라는 용어를 사용하기도 한다.

4. 1. 기존 적합 결과에 대한 응용

티호노프 정규화는 최적화 문제에서 목적 함수에 이차항을 추가하는 것이므로, 정규화되지 않은 최적화가 수행된 후에도 적용할 수 있다. 예를 들어, \Gamma = 0인 경우의 해가 \hat{x}_0이고, 매개변수 적합에 대한 공분산 행렬이 V_0로 주어지면, \Gamma \ne 0인 경우의 해와 새로운 공분산은 다음과 같이 표현된다.[23]

\hat{x} = B \hat{x}_0,

여기서 "정규화 행렬"은 B = \left(A^\mathsf{T} A + \Gamma^\mathsf{T} \Gamma\right)^{-1} A^\mathsf{T} A이다.

매개변수 적합이 추정된 매개변수 불확실성의 공분산 행렬 V_0와 함께 제공되는 경우, 정규화 행렬은 다음과 같다.

B = (V_0^{-1} + \Gamma^\mathsf{T}\Gamma)^{-1} V_0^{-1},

그리고 정규화된 결과는 새로운 공분산을 갖는다.

V = B V_0 B^\mathsf{T}.

임의의 우도 적합의 맥락에서, 우도 함수의 이차 근사가 유효한 한 이것은 유효하다. 이는 정규화되지 않은 결과로부터의 섭동이 작은 한, 최적 적합점과 공분산 행렬로 제시된 모든 결과를 정규화할 수 있음을 의미한다. 기본 우도 함수에 대한 자세한 지식은 필요하지 않다.

4. 2. 일반화된 티호노프 정규화 (Generalized Tikhonov Regularization)

일반적인 경우, 데이터 오차와 사전 정보에 대한 가중치를 다르게 설정할 수 있다. 이때, 다음 식을 최소화하는 \mathbf x를 찾는다.

:\left\|A \mathbf x - \mathbf b\right\|_P^2 + \left\|\mathbf x - \mathbf x_0\right\|_Q^2,

여기서 \left\|\mathbf{x}\right\|_Q^2는 가중 제곱 노름 \mathbf{x}^\mathsf{T} Q \mathbf{x}를 의미하며 (마할라노비스 거리와 비교), 베이시안 해석에서 P\mathbf b의 역 공분산 행렬, \mathbf x_0\mathbf x기댓값, Q\mathbf x의 역 공분산 행렬이다. 티호노프 행렬은 Q = \Gamma^\mathsf{T} \Gamma 행렬의 인수분해(예: 촐레스키 분해)로 주어지며 백색화 필터로 간주된다.

이 일반화된 문제는 최적 해 \mathbf x^*를 가지며, 다음 공식을 사용하여 명시적으로 작성할 수 있다.

:\mathbf x^* = \left(A^\mathsf{T} PA + Q\right)^{-1} \left(A^\mathsf{T} P \mathbf{b} + Q \mathbf{x_0}\right),

또는, ''Q''가 널 행렬이 '''아닌''' 경우:

:\mathbf x^* = \mathbf x_0 + \left(A^\mathsf{T} P A + Q \right)^{-1} \left(A^\mathsf{T} P \left(\mathbf b - A \mathbf x_0\right)\right).

5. 라브렌티예프 정규화 (Lavrentyev Regularization)

특정 상황에서는 미하일 라브렌티예프가 제안한 것처럼 전치 행렬 A^\mathsf{T}를 사용하지 않아도 된다.[24] 예를 들어, A가 대칭 양의 정부호 행렬, 즉 A = A^\mathsf{T} > 0이면, 그 역행렬 A^{-1}도 마찬가지이므로, 이를 일반화된 티호노프 정규화에서 가중 노름 제곱 \left\|\mathbf x\right\|_P^2 = \mathbf x^\mathsf{T} A^{-1} \mathbf x를 설정하는 데 사용할 수 있다. 이는 다음 식을 최소화하는 문제로 이어진다.

:\left\|A \mathbf x - \mathbf b\right\|_{A^{-1}}^2 + \left\|\mathbf x - \mathbf x_0 \right\|_Q^2

상수 항까지 고려하면 다음과 같다.

:\mathbf x^\mathsf{T} \left(A+Q\right) \mathbf x - 2 \mathbf x^\mathsf{T} \left(\mathbf b + Q \mathbf x_0\right).

이 최소화 문제는 최적 해 \mathbf x^*를 가지며, 다음 공식으로 표현할 수 있다.

:\mathbf x^* = \left(A + Q\right)^{-1} \left(\mathbf b + Q \mathbf x_0\right),

이는 A = A^\mathsf{T} = P^{-1}인 일반화된 티호노프 문제의 해와 같다.

라브렌티예프 정규화는 라브렌티예프 행렬 A + Q가 티호노프 행렬 A^\mathsf{T} A + \Gamma^\mathsf{T} \Gamma에 비해 조건이 더 좋을 수 있으며(더 작은 조건수를 가질 수 있다), 이 경우 원래의 티호노프 정규화보다 유리하다.

6. 힐베르트 공간에서의 정규화 (Regularization in Hilbert Space)

일반적으로 불량 조건의 이산 선형 문제는 적분 방정식의 이산화로 인해 발생하며, 원래 무한 차원 상황에서 티호노프 정규화를 공식화할 수 있다. 위에서 A힐베르트 공간에서의 콤팩트 연산자로 해석할 수 있으며, xbA의 정의역과 치역의 원소로 해석할 수 있다. 그러면 연산자 A^* A + \Gamma^\mathsf{T} \Gamma 자기 수반 유계 가역 연산자이다.

7. 특잇값 분해(Singular Value Decomposition)와의 관계

\Gamma = \alpha I인 경우, 릿지 회귀 해는 특잇값 분해를 통해 분석할 수 있다. 특잇값 \sigma _i를 갖는 특잇값 분해는 다음과 같다.

:A = U \Sigma V^\mathsf{T}

이때, 릿지 회귀 해는 다음과 같이 표현된다.[25]

:\hat{x} = V D U^\mathsf{T} b,

여기서 D는 대각 행렬이며, 대각선 값은 다음과 같다.

:D_{ii} = \frac{\sigma_i}{\sigma_i^2 + \alpha^2}

이는 정규화 파라미터 \alpha조건수에 미치는 영향을 보여준다. 일반화된 경우에는 일반화된 특잇값 분해를 사용하여 유사한 표현을 도출할 수 있다.[25]

8. 최적의 릿지 파라미터 결정

최적의 정규화 매개변수 \alpha는 일반적으로 알려져 있지 않으며, 실제 문제에서는 종종 "임시 변통" 방식으로 결정된다. 이를 결정하기 위한 접근 방식으로는 불일치 원리, 교차 검증, L-곡선 방법[26], 제한된 최대 우도 추정, 편향되지 않은 예측 위험 추정기 등이 있다. 그레이스 와바는 leave-one-out 교차 검증을 통해 최적의 매개변수를 찾는 방법을 제시했다.[27][28]

9. 확률적 공식화와의 관계

역문제의 확률적 공식화에서는 모델 매개변수에 대한 사전 불확실성을 나타내는 공분산 행렬 C_M과 관측된 매개변수에 대한 불확실성을 나타내는 공분산 행렬 C_D를 도입한다.[29] 이 두 행렬이 대각선이고 등방성인 특별한 경우, 즉 C_M = \sigma_M^2 IC_D = \sigma_D^2 I인 경우, 역 이론의 방정식은 \alpha = {\sigma_D}/{\sigma_M}로 축소되어 릿지 회귀 방정식과 같아진다.[30][31]

n \times 1 열 벡터 yn \times p 계획 행렬 X(일반적으로 p \ll n)의 열 공간에 투영하여 정사영 X\beta를 얻는다고 가정하자. 이때 계획 행렬 X의 열들은 서로 상관관계가 높다고 가정한다. 이 경우, 계수 \beta \in \mathbb{R}^{p \times 1}의 최소제곱 추정량 \widehat{\beta}는 다음과 같다.

:\widehat{\beta} = (X'X)^{-1}X'y

반면, 릿지 회귀 추정량 \widehat{\beta}_\text{ridge}는 다음과 같이 표현된다.

:\widehat{\beta}_\text{ridge} = (X^\top X + kI_p)^{-1}X^\top y

여기서 I_pp \times p 단위 행렬이며, k > 0는 작은 양수 값이다.

10. 베이지안 해석

릿지 회귀는 베이즈 관점에서 정당화될 수 있다.[32] 불량 조건 문제의 경우 고유한 해를 얻기 위해 추가적인 가정을 도입해야 한다. 통계적으로, x사전 확률 분포는 때때로 다변량 정규 분포로 간주된다.[33] 여기서는 단순성을 위해 다음과 같은 가정을 한다. 평균은 0이다. 그 구성 요소는 독립적이다. 구성 요소는 동일한 표준 편차 \sigma _x를 가진다. 데이터 역시 오차의 영향을 받으며, b의 오차도 0의 평균과 표준 편차 \sigma _b를 가지며 독립적이라고 가정한다. 이러한 가정 하에서, 티호노프 정규화된 해는 베이즈 정리에 따라, 데이터와 x의 ''사전'' 분포가 주어졌을 때, 가장 확률적인 해이다.[34]

만약 정규성 가정이 등분산성 및 오차의 비상관성에 대한 가정으로 대체되고, 여전히 0의 평균을 가정한다면, 가우스-마르코프 정리는 그 해가 최소 비편향 선형 추정량임을 수반한다.[35]

참조

[1] 서적 Ridge, a computer program for calculating ridge regression estimates https://www.biodiver[...] 1977
[2] 서적 A Guide to Econometrics https://books.google[...] The MIT Press
[3] 서적 Improving Efficiency by Shrinkage: The James–Stein and Ridge Regression Estimators https://books.google[...] CRC Press
[4] 논문 Ridge Regression: Biased Estimation for Nonorthogonal Problems 1970
[5] 논문 Ridge Regression: Applications to Nonorthogonal Problems 1970
[6] 서적 Principal Component Analysis https://books.google[...] Springer Science & Business Media 2006
[7] 서적 Improving Efficiency by Shrinkage: The James--Stein and Ridge Regression Estimators https://books.google[...] CRC Press 1998
[8] 논문 Choosing Ridge Parameter for Regression Problems
[9] arXiv Lecture notes on ridge regression 2021-05-31
[10] 논문 Об устойчивости обратных задач http://a-server.math[...]
[11] 논문 О решении некорректно поставленных задач и методе регуляризации
[12] 서적 Solution of Ill-posed Problems Winston & Sons
[13] 서적 Numerical Methods for the Solution of Ill-Posed Problems https://www.springer[...] Springer Netherlands 2018-08-09
[14] 서적 Nonlinear ill-posed problems https://www.springer[...] Chapman & Hall 2018-08-09
[15] 논문 A Technique for the Numerical Solution of Certain Integral Equations of the First Kind
[16] 논문 Application of Ridge Analysis to Regression Problems 1962
[17] 논문 An Application of the Wiener-Kolmogorov Smoothing Theory to Matrix Inversion
[18] 논문 Ridge regression: Biased estimation for nonorthogonal problems
[19] 논문 Ridge Regression: A Historical Context https://www.tandfonl[...] 2020-10-01
[20] conference Feature selection, L1 vs. L2 regularization, and rotational invariance https://icml.cc/Conf[...]
[21] 논문 LIBLINEAR: A library for large linear classification
[22] 논문 Online nonnegative matrix factorization with robust stochastic approximation
[23] 논문 Post-hoc regularisation of unfolded cross-section measurements 2022
[24] 서적 Some Improperly Posed Problems of Mathematical Physics Springer
[25] 서적 Rank-Deficient and Discrete Ill-Posed Problems: Numerical Aspects of Linear Inversion SIAM 1998-01-01
[26] 문서 P. C. Hansen, "The L-curve and its use in the numerical treatment of inverse problems" https://www.sintef.n[...]
[27] 논문 Spline Models for Observational Data Society for Industrial and Applied Mathematics
[28] 논문 Generalized cross-validation as a method for choosing a good ridge parameter http://www.stat.wisc[...]
[29] 서적 Inverse Problem Theory and Methods for Model Parameter Estimation http://www.ipgp.juss[...] Society for Industrial and Applied Mathematics (SIAM) 2018-08-09
[30] 논문 Traction force microscopy with optimized regularization and automated Bayesian parameter selection for comparing cells
[31] 논문 A Bayesian traction force microscopy method with automated denoising in a user-friendly software package
[32] 서적 Advanced Econometrics: A Bridge to the Literature John Wiley & Sons
[33] 논문 Traction force microscopy with optimized regularization and automated Bayesian parameter selection for comparing cells
[34] 서적 Computational methods for inverse problems Society for Industrial and Applied Mathematics
[35] 서적 Advanced Econometrics https://archive.org/[...] Harvard University Press
[36] 웹사이트 Ridge, a computer program for calculating ridge regression estimates https://books.google[...] 2021-06-25
[37] 서적 Improving Efficiency by Shrinkage: The James–Stein and Ridge Regression Estimators https://books.google[...] 1998-02-26
[38] 논문 Ridge Regression: Biased Estimation for Nonorthogonal Problems www.jstor.org/stable[...] 1970
[39] 논문 Ridge Regression: Applications to Nonorthogonal Problems www.jstor.org/stable[...] 1970
[40] 서적 Parameter Estimation in Engineering and Science https://books.google[...]
[41] 서적 Principal Component Analysis https://books.google[...] 2006-05-09
[42] 서적 Ridge, a computer program for calculating ridge regression estimates https://www.biodiver[...] 1977
[43] 서적 A Guide to Econometrics https://books.google[...] The MIT Press
[44] 서적 Improving Efficiency by Shrinkage: The James–Stein and Ridge Regression Estimators https://books.google[...] CRC Press
[45] 저널 Ridge Regression: Biased Estimation for Nonorthogonal Problems https://archive.org/[...] 1970
[46] 저널 Ridge Regression: Applications to Nonorthogonal Problems 1970
[47] 서적 Parameter Estimation in Engineering and Science https://books.google[...] James Beck 1977
[48] 서적 Principal Component Analysis https://books.google[...] Springer Science & Business Media 2006
[49] 서적 Improving Efficiency by Shrinkage: The James--Stein and Ridge Regression Estimators https://books.google[...] CRC Press 1998



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com