라쏘(Lasso)는 회귀 모델의 예측 정확도와 해석 가능성을 높이기 위해 개발된 통계 기법이다. 1996년 로버트 티브시라니에 의해 대중화되었으며, 회귀 계수의 절댓값 합에 제약을 가하여 일부 계수를 0으로 만들어 변수 선택을 수행하는 특징을 갖는다. 이는 릿지 회귀와 유사하게 과적합을 방지하면서도, 모델의 해석력을 높이는 데 기여한다. 라쏘는 최소 제곱법, 일반화 선형 모형 등 다양한 모델에 적용 가능하며, 경제, 금융, 사회과학 등 여러 분야에서 활용된다. 정규화 매개변수 선택을 위해 교차 검증, 정보량 기준 등이 사용된다.
2. 역사적 배경
라쏘(Lasso)는 회귀 모델의 예측 정확성과 해석 가능성을 동시에 높이기 위해 개발된 통계 기법이다.[2][1] 이는 모델에 포함될 설명 변수의 수를 효과적으로 줄여, 보다 간결하고 이해하기 쉬운 모델을 만드는 데 목적을 둔다.
이 기법은 1986년 지구물리학 분야에서 처음 아이디어가 제시되었고, 이후 1996년 통계학자 로버트 티브시라니에 의해 재발견되어 널리 알려졌다.[1][4] 라쏘는 특정 회귀 계수를 0으로 만들어 직접적인 변수 선택 기능을 수행하며, 이는 기존의 릿지 회귀 등 다른 기법들과 구별되는 주요 특징이다. 이를 통해 모델의 예측 성능 향상과 함께 해석력을 높이는 데 기여한다.
2. 1. 지구물리학 분야의 기원
라쏘는 1986년 지구물리학 문헌에서 처음 등장했다. 이는 계수의 적합과 페널티 부여에 L1 노름 페널티를 사용한 이전 연구들을 바탕으로 한다.[1] 통계학자 로버트 티브시라니는 레오 브레이먼의 비음(nonnegative) 가로테(garrote)를 바탕으로 1996년에 라쏘를 다시 발견하고 널리 알렸다.[1][4]
2. 2. 티브시라니의 재발견과 대중화
라쏘는 1986년 지구물리학 문헌에서 독립적으로 개발되었으며, 이는 계수(coefficient)의 적합(fitting)과 페널티(penalization) 모두에 L1 노름 페널티를 사용한 이전 연구를 기반으로 한다. 통계학자 로버트 티브시라니는 레오 브레이먼의 비음(nonnegative) 가로테(garrote)를 기반으로 1996년에 라쏘를 독립적으로 재발견하고 대중화했다.[1][4]
2. 3. 단계적 회귀 및 릿지 회귀와의 비교
라쏘 회귀가 개발되기 이전에는 주로 단계적 회귀와 릿지 회귀가 변수 선택 및 예측 정확도 향상을 위해 사용되었다.
단계적 회귀는 특정 상황, 예를 들어 소수의 공변량만이 결과와 강한 연관성을 가질 때 예측 정확도를 높일 수 있는 방법이다.[1][4] 하지만 모든 경우에 효과적인 것은 아니며, 때로는 예측 오류를 오히려 증가시키기도 한다.
한편, 릿지 회귀는 회귀 계수의 크기를 줄여 과적합을 방지하고 예측 정확도를 개선하는 데 널리 사용되었다.[1][4] 그러나 릿지 회귀는 계수를 완전히 0으로 만들지는 않기 때문에, 모델에 포함된 변수를 직접 선택하는 기능은 수행하지 못한다. 이는 모델의 해석 가능성을 높이는 데는 한계가 있음을 의미한다.
3. 기본 원리
라쏘(Lasso, Least Absolute Shrinkage and Selection Operator)는 회귀 분석에서 모델의 예측 정확도와 해석 가능성을 향상시키기 위해 사용되는 기법이다.[40][42] 라쏘는 기존의 최소 제곱법에 제약 조건을 추가하여, 회귀 계수의 절대값 합(L1 노름)이 특정 값 이하가 되도록 제한한다.
라쏘의 기본적인 목표는 다음 최적화 문제를 푸는 것이다.
여기서 는 번째 관측치의 결과값, 는 공변량 벡터, 는 절편, 는 회귀 계수 벡터이다. 는 미리 정해진 값으로, 회귀 계수 절대값 합의 상한선을 나타낸다. 이 제약 조건 때문에 라쏘는 일부 회귀 계수 를 정확히 0으로 만드는 특징이 있다. 이는 불필요하거나 덜 중요한 변수를 모델에서 제외하는 변수 선택(feature selection) 효과를 가져와 모델을 더 단순하고 해석하기 쉽게 만든다.
라쏘는 과적합을 줄이기 위해 계수 크기를 축소하는 릿지 회귀와 유사한 목적을 가지지만, 릿지 회귀는 계수를 0으로 만들지 못한다는 점에서 차이가 있다. 라쏘는 계수 축소와 변수 선택을 동시에 수행한다.
일반적으로 라쏘를 적용하기 전에 공변량들을 표준화하여 평균이 0, 분산이 1이 되도록 만든다. 이렇게 하면 각 변수의 측정 단위에 영향을 받지 않고 공평하게 계수에 제약을 가할 수 있다.
3. 1. 최소 제곱법과 라쏘
라쏘(LASSO)는 최소 제곱법(Ordinary Least Squares, OLS)을 기반으로 한 회귀 분석 방법 중 하나이다. 최소 제곱법은 예측 오차의 제곱합을 최소화하는 방식으로 회귀 계수를 추정하지만, 변수의 수가 많거나 변수 간 다중공선성이 높은 경우 모델이 불안정해지고 과적합(overfitting) 문제가 발생할 수 있다. 라쏘는 이러한 문제를 해결하기 위해 최소 제곱법의 비용 함수(cost function)에 L1 정규화(L1 regularization) 항을 추가한다.
라쏘의 목표는 다음 식을 최소화하는 상수 계수 와 계수 벡터 를 찾는 것이다.
여기서 은 관측치의 개수, 는 공변량(독립 변수)의 개수이다. 는 번째 관측치의 결과값(종속 변수), 는 번째 관측치의 공변량 벡터이다. 는 절편 항, 는 각 공변량에 대한 회귀 계수 벡터이다.
라쏘의 핵심은 제약 조건 이다. 이는 회귀 계수들의 절대값의 합(L1 노름)이 특정 값 보다 작거나 같도록 제한하는 역할을 한다. 는 사용자가 미리 지정하는 하이퍼파라미터로, 모델의 복잡도를 조절한다. 값이 작을수록 제약이 강해져 더 많은 회귀 계수가 0으로 추정된다. 이는 결과적으로 모델에서 덜 중요하거나 불필요한 변수의 계수를 정확히 0으로 만들어 해당 변수를 모델에서 제외하는 변수 선택(feature selection) 효과를 가져온다.
일반적으로 데이터를 분석하기 전에 각 공변량의 평균을 0으로, 표준편차를 1로 만드는 표준화 과정을 거친다. 또한 결과 변수 도 평균 를 빼서 중앙화한다 ( 사용). 이렇게 하면 절편 는 0으로 간주할 수 있고( 이므로 중앙화된 의 평균은 0), 모든 변수가 동일한 척도를 갖게 되어 특정 변수의 단위에 따라 계수 크기가 달라지는 문제를 방지할 수 있다. 데이터가 표준화 및 중앙화되었다고 가정하면 라쏘 문제는 다음과 같이 더 간단하게 표현할 수 있다.
여기서 는 중앙화된 결과값 벡터, 는 표준화된 공변량 행렬, 는 제곱합(L2 노름의 제곱), 은 계수 벡터의 L1 노름이다.
이 제약 조건이 있는 최적화 문제는 라그랑주 승수법을 이용하여 다음과 같은 페널티(penalty)가 추가된 형태로 변형할 수 있다.
여기서 는 정규화의 강도를 조절하는 또 다른 하이퍼파라미터이다. 가 클수록 L1 노름 항의 영향력이 커져 더 많은 계수가 0이 된다. 와 는 서로 역관계에 있으며(이면 , 이면 ), 데이터에 따라 그 관계가 결정된다.
라쏘는 예측 정확도와 모델 해석력을 향상시키기 위해 제안되었다.[40][42] 이전에는 단계적 선택과 같은 방법이 변수 선택에 사용되었으나, 특정 상황에서는 예측 오차를 오히려 키울 수 있었다. 또한 릿지 회귀는 L2 정규화(계수 제곱합, 항 추가)를 통해 계수 크기를 줄여 과적합을 완화하지만, 계수를 0으로 만들지는 못해 변수 선택 기능은 없다. 라쏘는 L1 정규화를 사용하여 계수 축소와 변수 선택을 동시에 수행함으로써, 더 간결하고 해석하기 쉬운 모델을 만드는 데 유용하다.
3. 2. 정규 직교 공변량
라쏘 추정량의 기본적인 속성 중 하나는 공변량(covariates)이 정규 직교일 때 나타난다. 공변량 벡터 들이 서로 직교하고 각 벡터의 노름이 1인 경우, 즉 내적 (여기서 는 크로네커 델타이다) 또는 행렬 형태로 (여기서 는 단위 행렬)인 경우를 가정한다.
이러한 정규 직교 가정 하에서, 라쏘 추정값 는 최소제곱추정량(OLS) 를 이용하여 다음과 같이 명시적으로 표현될 수 있다.[40]
:
여기서 는 소프트 임계값 연산자(soft-thresholding operator)라고 불린다. 이 연산자는 입력값()을 0 방향으로 상수()만큼 이동시키고, 만약 이동 후 부호가 바뀌거나 0이 되면(즉, 원래 값의 절대값이 보다 작거나 같으면) 결과값을 0으로 만든다. 이는 특정 임계값보다 작은 값을 0으로 만들고 큰 값은 그대로 두는 하드 임계값 연산자(hard-thresholding operator) 와는 구별된다.
라쏘의 이러한 특징은 다른 정규화 방법인 릿지 회귀 및 최적 부분 집합 선택과 비교할 때 더 명확해진다.
릿지 회귀: 릿지 회귀는 노름 페널티를 사용하며, 정규 직교 가정 하에서 추정값은 다음과 같다.
:
릿지 회귀는 모든 계수를 동일한 비율 로 축소시키지만, 계수를 정확히 0으로 만들지는 않는다.
최적 부분 집합 선택: 이 방법은 모델에 포함될 변수의 개수 자체를 제한하는 방식으로, 노름 페널티(, 0이 아닌 계수의 개수)를 사용한다. 정규 직교 가정 하에서 추정값은 하드 임계값 연산자를 사용하여 다음과 같이 표현된다.
:
여기서 는 지시 함수이다. 즉, 최소제곱추정량의 절대값이 특정 임계값()보다 작으면 계수를 0으로 만들고, 그렇지 않으면 원래 값을 유지한다.
결론적으로 라쏘는 릿지 회귀처럼 모든 계수의 크기를 축소하는 효과와 최적 부분 집합 선택처럼 일부 계수를 0으로 만들어 변수 선택을 수행하는 효과를 동시에 가진다. 릿지 회귀가 모든 계수를 같은 비율로 줄이는 반면, 라쏘는 소프트 임계값 연산을 통해 계수 값에서 일정한 크기()를 빼는 방식으로 0에 가깝게 만들며, 그 과정에서 값이 0을 넘어가면 0으로 고정시킨다.
3. 3. 상관된 공변량
특수한 경우로, 두 개의 공변량(예: ''j''와 ''k'')이 모든 관측치에 대해 동일한 값(, 즉 모든 ''i''에 대해 )을 가지는 상황을 생각해 볼 수 있다. 이러한 경우, 라쏘 목적 함수를 최소화하는 계수 와 의 값은 하나로 유일하게 결정되지 않는다.
만약 어떤 해 가 를 만족한다면, 를 로, 를 로 바꾸어도 (여기서 ''s''는 0과 1 사이의 임의의 값) 여전히 라쏘 목적 함수를 최소화하는 해가 된다. 다른 계수 들은 그대로 둔다. 이는 라쏘 목적 함수를 최소화하는 해가 무수히 많이 존재할 수 있음을 의미한다.[2]
이러한 라쏘의 단점을 보완하기 위해 엘라스틱 넷을 포함한 여러 가지 변형된 라쏘 기법들이 개발되었다.
4. 일반적인 형태와 확장
라쏘 정규화는 원래 최소 제곱법의 맥락에서 도입되었으나,[40]일반화 선형 모형, 일반화 추정 방정식, 비례 위험 모형, M-추정량 등 다양한 통계 모델과 목적 함수로 확장될 수 있다.[2][40][41]
일반적으로 목적 함수가 와 같은 형태일 때, 라쏘 정규화된 추정량은 다음 최적화 문제를 푸는 해로 정의된다.[2]
여기서 는 정규화의 정도를 조절하는 미리 정해진 파라미터이며, 벡터에만 노름 제약이 가해진다. 파라미터 는 제약을 받지 않으며, 이는 기본적인 라쏘 회귀에서 절편항 가 제약을 받지 않는 것과 유사하다. 이처럼 라쏘는 다양한 문제 설정에 맞게 유연하게 적용될 수 있는 정규화 기법이다.
4. 1. 일반화 선형 모형으로의 확장
라쏘 정규화는 일반화 선형 모형, 일반화 추정 방정식, 비례 위험 모형, M-추정량 등 다양한 통계 모델에 적용될 수 있다.[2][40][41] 이러한 모델들에서 목적 함수가 다음과 같은 일반적인 형태를 가질 때,
라쏘 정규화된 추정량은 아래의 최적화 문제를 푸는 해로 정의된다.
여기서 는 페널티(벌점)를 받는 파라미터 벡터이고, 는 페널티를 받지 않는 파라미터 벡터이다. 이는 기본적인 라쏘 회귀에서 절편항 가 페널티를 받지 않은 것과 유사하며, 는 허용된 범위 내에서 어떤 값이든 자유롭게 가질 수 있다.
4. 2. 엘라스틱 넷
2005년 조우(Zou)와 하스티(Hastie)는 라쏘의 단점을 보완하기 위해 엘라스틱 넷을 제안했다.[2][43] 라쏘는 공변량의 수(''p'')가 표본 크기(''n'')보다 클 때(''p'' > ''n''), 실제 결과와 관련 있는 공변량이 더 많더라도 최대 ''n''개의 공변량만 선택할 수 있다. 또한, 상관관계가 매우 높은 공변량 그룹에서는 하나의 공변량만 선택하는 경향이 있다. 반면, 표본 크기가 공변량 수보다 큰 경우(''n'' > ''p'')라도 공변량 간 상관관계가 강하면 릿지 회귀가 라쏘보다 더 나은 성능을 보이기도 한다.
엘라스틱 넷은 이러한 라쏘의 한계를 극복하기 위해 릿지 회귀와 유사한 벌점(penalty) 항을 추가하여 라쏘를 확장한다.[11] 이를 통해 예측 변수의 수가 표본 크기보다 클 때 성능을 개선하고, 강하게 상관된 변수들을 함께 선택하며, 전반적인 예측 정확도를 높일 수 있다.[11] 엘라스틱 넷의 목적 함수는 다음과 같다.
여기서 은 라쏘 벌점의 크기를, 는 릿지 벌점의 크기를 조절하는 매개변수이다. 이 문제는 아래와 동일한 제약 조건을 가진 최적화 문제로 표현할 수 있다.
는 라쏘 벌점과 릿지 벌점 사이의 비율을 조절하며, 이면 릿지 회귀, 이면 라쏘가 된다.
엘라스틱 넷 문제는 특정 변환을 통해 단순한 라쏘 문제 형태로 바꾸어 풀 수 있다.[2] 변환된 문제는 다음과 같다.
이때 사용되는 변환은 다음과 같다.
변환된 문제의 해 를 구한 뒤, 원래 문제의 해 는 로 얻을 수 있다.
만약 공변량들이 서로 직교(orthogonal)한다면, 엘라스틱 넷의 해는 다음과 같이 표현된다.
이는 엘라스틱 넷 벌점이 라쏘 벌점과 릿지 벌점의 효과를 결합한 것임을 보여준다. 즉, 라쏘처럼 변수를 선택하는 동시에 릿지처럼 계수를 축소시키는 효과를 가진다.
엘라스틱 넷의 벌점 함수는 엄격히 볼록(strictly convex)하므로, 만약 두 공변량 와 가 같다면(), 그 계수 추정치도 같다(). 이는 라쏘와 다른 중요한 특징이다.[2] 더 일반적으로, 상관관계가 높은 공변량들은 유사한 회귀 계수를 갖는 경향이 있다. 두 계수 와 가 모두 0이 아닐 때(), 그 차이는 다음과 같은 상계를 가진다.
여기서 는 공변량 와 사이의 표본 상관계수이다 (단, 는 정규화되었다고 가정).
따라서 상관관계가 높은 공변량들은 비슷한 크기의 회귀 계수를 가지게 되며, 그 유사성의 정도는 과 값에 따라 달라진다. 이러한 현상을 그룹 효과(group effect)라고 부른다.[2] 그룹 효과는 특정 응용 분야에서 매우 유용하다. 예를 들어, 유전자와 질병 간의 연관성을 찾는 연구에서 라쏘는 상관된 유전자 그룹 중 하나만 선택하는 경향이 있지만, 엘라스틱 넷은 관련된 유전자들을 함께 찾아낼 가능성이 높다. 또한, 상관된 변수 그룹에서 하나만 선택하는 것은 모델의 견고성을 떨어뜨려 예측 오류를 증가시킬 수 있는데, 엘라스틱 넷은 그룹 효과를 통해 이러한 문제를 완화하여 릿지 회귀처럼 더 안정적인 예측 성능을 보일 수 있다.[2]
엘라스틱 넷 모델을 사용할 때 최적의 정규화 매개변수 과 를 결정하는 것은 모델 성능에 매우 중요하다. 일반적으로 교차 검증 방법을 사용하여 데이터에 가장 적합한 매개변수 조합을 찾는다.
4. 3. 그룹 라쏘
그룹 라쏘(Group Lasso)는 관련된 공변량(covariate) 그룹을 하나의 단위로 취급하여, 모델을 만들 때 해당 그룹 전체를 포함시키거나 제외하는 방법이다.[12] 이는 2006년 위안(Yuan)과 린(Lin)에 의해 제안되었으며,[2] 특정 공변량들을 개별적으로 다루기보다는 논리적으로 묶어서 함께 고려하는 것이 더 의미 있는 경우에 유용하게 사용된다.[12]
예를 들어, 범주형 변수를 여러 개의 이진(binary) 변수로 변환하여 사용할 때, 그룹 라쏘는 이 변수들을 하나의 그룹으로 묶어 모두 함께 선택되거나 제외되도록 할 수 있다.[2] 생물학 연구에서도 유용하게 쓰이는데, 유전자나 단백질은 특정 생물학적 경로(pathway)에 속해 있는 경우가 많다. 이때 그룹 라쏘를 사용하면 개별 유전자의 중요성보다는 어떤 경로가 결과 변수와 관련이 있는지를 파악하는 데 집중할 수 있다.[2]
그룹 라쏘의 목적 함수(objective function)는 표준 라쏘 목적 함수를 일반화한 형태이다.[2]
여기서 설계 행렬 와 공변량 벡터 는 개의 그룹으로 나뉘어, 각 그룹 에 해당하는 설계 행렬 와 공변량 벡터 로 표현된다. 페널티 항은 각 그룹의 공변량 벡터 에 대한 -노름()의 합으로 주어지며, 이때 는 양의 정부호 행렬(positive definite matrix)이다.[2]
만약 모든 공변량이 각각 하나의 그룹을 이루고() 모든 가 단위 행렬()이라면, 그룹 라쏘는 표준 라쏘와 동일해진다. 반대로, 모든 공변량이 단 하나의 그룹에 속하고() 라면, 이는 릿지 회귀와 같아진다.[2] 그룹 라쏘의 페널티는 각 그룹에 대해 -노름을 사용하기 때문에, 그룹 내의 일부 공변량만 선택하는 것은 불가능하다. 즉, 특정 그룹이 선택되면 해당 그룹의 모든 공변량이 모델에 포함되고, 선택되지 않으면 모두 제외된다. 하지만 페널티 항이 여러 그룹 노름의 합으로 이루어져 있어 미분 불가능한 지점을 가지므로, 일부 그룹의 계수 벡터 전체를 정확히 0으로 만들 수 있다(그룹 수준의 희소성).[2]
그룹 라쏘에는 몇 가지 확장된 형태가 있다. 희소 그룹 라쏘(Sparse Group Lasso)는 그룹 내에서도 개별 변수를 선택할 수 있도록 각 그룹에 추가적인 -페널티를 적용한다.[13][14][2]중첩 그룹 라쏘(Overlapping Group Lasso)는 하나의 공변량이 여러 그룹에 속할 수 있도록 허용하는데, 예를 들어 특정 유전자가 여러 생물학적 경로에 관여하는 경우 등에 적용할 수 있다.[13][14][2]
R에서는 "gglasso" 패키지를 통해 그룹 라쏘 모델을 빠르고 효율적으로 구현할 수 있다.[16]
4. 4. 융합 라쏘
융합 라쏘(Fused Lasso)는 분석 대상이 되는 현상이 시계열 데이터나 이미지 기반 데이터처럼 중요한 공간적 또는 시간적 구조를 가질 때 유용하게 사용될 수 있는 방법이다.[15] 2005년에 Tibshirani 등은 이러한 유형의 데이터에 라쏘 기법을 확장 적용하기 위해 융합 라쏘를 제안했다.[2]
융합 라쏘는 변수들의 계수 자체의 크기를 제한하는 일반적인 라쏘 제약 조건에 더하여, 순서상 인접한 변수들 간의 계수 차이에도 제약을 가한다. 이는 시간적으로나 공간적으로 연속된 데이터에서 계수가 급격하게 변하는 것을 막아 부드럽게 변화하도록 유도하며, 이를 통해 데이터에 내재된 구조적 특성을 더 잘 반영하는 모델을 만들 수 있다.[15] 융합 라쏘의 목적 함수는 아래와 같이 정의된다.
여기서 첫 번째 제약 조건()은 일반적인 라쏘 제약 조건이며, 변수 계수들의 절댓값 합을 제한하여 변수 선택 효과를 가진다. 두 번째 제약 조건()은 인접한 계수(와 ) 간의 차이의 절댓값 합을 제한한다. 이 제약은 시간적 또는 공간적 순서가 있는 변수들의 계수가 서로 유사한 값을 가지도록 유도하여, 계수들이 부드럽게 변화하도록 만든다.
클러스터 라쏘(Cluster Lasso)[17]는 융합 라쏘를 일반화한 방법 중 하나로, 계수 값에 기반하여 관련 있는 변수들을 식별하고 그룹화하는 데 초점을 맞춘다. 이는 계수들 간의 차이에 제약을 가함으로써 0이 아닌 계수들이 서로 비슷한 값을 가지며 군집(cluster)을 이루도록 유도한다. 클러스터 라쏘의 제약 조건은 다음과 같이 표현될 수 있다.
5. 라쏘의 이론적 해석
라쏘는 통계학 및 기계 학습에서 사용되는 회귀 분석 방법으로, 모델의 복잡도를 줄이고 변수 선택을 수행하는 데 유용하다. 라쏘는 다양한 이론적 관점에서 해석될 수 있으며, 주요 해석 방식은 다음과 같다.
기하학적 관점: 라쏘는 최소 제곱 오차를 최소화하면서 동시에 회귀 계수들의 ℓ¹-노름 합을 특정 값 이하로 제한한다. 이 제약 조건은 계수 공간에서 각 축 위에 뾰족한 모서리를 가지는 마름모(또는 고차원에서의 교차 다면체) 형태의 영역을 만든다. 최적 해를 찾는 과정에서 목적 함수의 등고선이 이 제약 영역의 모서리와 만날 가능성이 높아 특정 계수가 0이 되는 변수 선택 효과가 나타난다. 이는 원형 제약 영역을 가지는 릿지 회귀와 구별되는 특징이다.
베이지안 관점:베이지안 통계학에서는 라쏘 추정량을 회귀 계수에 대해 라플라스 분포를 사전 확률 분포로 가정한 모델의 MAP 추정량과 동일하게 본다. 라플라스 분포는 평균값(0)에서 뾰족한 모양을 가지며 0에 가까운 값에 높은 확률을 부여하는데, 이것이 일부 계수를 0으로 만드는 라쏘의 특성을 설명한다.
볼록 완화 관점: 라쏘는 최적의 변수 부분 집합을 찾는 문제(0이 아닌 계수의 개수를 제한하면서 목적 함수를 최소화하는 문제)에 대한 볼록 완화로 이해할 수 있다. 0이 아닌 계수의 개수를 세는 것은 비볼록(non-convex) ℓ⁰-노름과 관련되어 최적화가 어렵다. 라쏘는 이 문제를 다루기 쉬운 볼록 문제로 근사하기 위해, ℓ⁰-노름 대신 가장 가까운 볼록 노름인 ℓ¹-노름을 사용한다.
5. 1. 기하학적 해석
라쏘(ℓ¹-노름)와 릿지 회귀(ℓ²-노름)의 2차원 제약 영역 비교. 라쏘의 제약 영역은 축 위에 모서리가 있는 마름모(또는 회전된 정사각형) 형태이고, 릿지의 제약 영역은 원 형태이다.
라쏘는 일부 계수를 0으로 만들어 변수 선택의 효과를 가지지만, 유사해 보이는 릿지 회귀는 그렇지 않다. 이는 두 방법이 사용하는 제약 조건의 기하학적 형태가 다르기 때문이다. 라쏘와 릿지 회귀 모두 동일한 최소 제곱 목적 함수를 최소화하는 문제로 볼 수 있다.
하지만 각각 다른 제약 조건을 가진다.
라쏘: 계수 벡터 의 ℓ¹-노름 합이 특정 값 보다 작거나 같아야 한다. ()
릿지 회귀: 계수 벡터 의 ℓ²-노름 제곱 합이 특정 값 보다 작거나 같아야 한다. ()
이 제약 조건의 차이는 기하학적으로 시각화할 수 있다. 2차원 계수 공간()에서 보면,
라쏘의 제약 영역()은 각 축 위에 꼭짓점(모서리)이 놓이는 마름모 또는 회전된 정사각형 형태이다. 일반적으로 차원에서는 교차 다면체가 된다.
릿지 회귀의 제약 영역()은 원점을 중심으로 하는 원 형태이다. 일반적으로 차원에서는 n-구가 되며, 이는 회전에 대해 불변이므로 뾰족한 모서리가 없다.
최소 제곱 문제의 해는 목적 함수의 등고선(타원 형태)이 제약 영역과 처음으로 만나는 지점이다. 그림에서 볼 수 있듯이, 라쏘의 마름모꼴 제약 영역은 축 위에 뾰족한 모서리를 가지고 있다. 따라서 등고선이 확장되다가 제약 영역과 만날 때, 이 모서리 부분에서 만날 가능성이 높다. 모서리는 특정 계수가 0인 지점()에 해당하므로, 라쏘는 자연스럽게 일부 계수를 0으로 만드는 경향이 있다.
반면, 릿지 회귀의 원형 제약 영역에는 특별한 모서리가 없다. 등고선이 제약 영역과 접하는 지점은 원 위의 어느 점이든 될 수 있으며, 특정 계수가 0인 축 위의 점이라고 해서 다른 점들보다 선택될 확률이 높지 않다. 따라서 릿지 회귀는 계수의 크기를 줄일 뿐, 0으로 만들지는 않는다.[40][42]
5. 2. 베이지안 해석
라플라스 분포는 정규 분포에 비해 평균에서 뾰족하게 나타나며, 더 많은 확률 밀도가 여기에 집중되어 있다.
릿지 회귀가 계수에 정규 사전 확률 분포를 할당한 선형 회귀로 해석될 수 있는 것처럼, 라쏘는 계수에 라플라스 분포의 사전 확률 분포를 할당한 선형 회귀로 해석될 수 있다.[10] 라플라스 분포는 0에서 뾰족하며(첫 번째 도함수는 0에서 불연속이다) 정규 분포보다 0에 더 가까운 확률 질량을 집중시킨다. 이는 라쏘가 일부 계수를 0으로 설정하는 경향이 있고 릿지 회귀는 그렇지 않은 이유에 대한 또 다른 설명을 제공한다.[2]
베이즈 정리의 관점에서 보면, 계수의 사전 분포로 정규 분포를 가정한 경우의 MAP(Maximum A Posteriori) 추정값이 릿지 회귀에 해당하는 것과 마찬가지로, 계수의 사전 분포로 라플라스 분포를 가정한 경우의 MAP 추정값은 라쏘 회귀에 해당한다.[40]
MAP 추정을 위한 로그 사후 확률(log posterior probability)은 베이즈 정리에 따라 다음과 같이 표현될 수 있다.
:
여기서 는 우도 함수이고 는 사전 분포이다. 수식을 풀어서 쓰면 다음과 같다.
:
데이터 가 평균 , 분산 의 정규 분포를 따른다고 가정하면 (즉, 오차가 정규 분포를 따른다고 가정하면), 로그 우도 함수 항(우변 제1항)은 다음과 같다.
:
이제 파라미터 의 사전 분포로 평균 , 스케일 파라미터 (분산 )의 라플라스 분포를 가정하면, 로그 사전 분포 항(우변 제2항)은 다음과 같다.