맨위로가기

일반화 가법 모델

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

일반화 가법 모델(GAM)은 다변수 연속 함수를 단변수 함수의 합과 합성으로 나타낼 수 있다는 이론적 배경을 바탕으로, 관찰된 양의 기댓값을 근사하는 데 사용되는 통계적 모델이다. GAM은 매끄러운 함수의 범위를 확장하여 다양한 형태의 모델을 포함하며, 지수족 반응 분포뿐만 아니라 분산, 왜도 등 다른 모수도 모델링할 수 있다. 모델 피팅 방법으로는 백피팅 알고리즘, 스무딩 스플라인, 축소 랭크 평활 등이 사용되며, 평활 매개변수 추정을 통해 모델의 복잡성을 제어한다. 모델 검증은 잔차 플롯을 통해 이루어지며, 과잉 적합, 평활 매개변수 추정의 어려움, 더 간단한 모델과의 비교 등의 주의사항이 있다.

2. 이론적 배경

콜모고로프-아르놀트 표현 정리에 따르면, 다변수 연속 함수는 단변수 함수의 합과 합성으로 나타낼 수 있다는 것이 1950년대부터 알려져 있었다.

: f(\vec x) = \sum_{q=0}^{2n} \Phi_{q}\left(\sum_{p=1}^{n} \phi_{q,p}(x_{p})\right) .

하지만, 콜모고로프-아르놀트 표현 정리는 이러한 형태의 함수의 존재성을 보장할 뿐, 구체적인 구성 방법을 제시하지는 않는다.[1] 일반화 가법 모형은 이러한 한계를 극복하기 위해 함수를 더 간단한 형태로 제한한다.

: f(\vec x) = \Phi\left(\sum_{p=1}^{n} \phi_{p}(x_{p})\right) .

여기서 \Phi는 매끄럽고 단조로운 함수이다. g \Phi의 역함수로 쓰면,

: g(f(\vec x))=\sum_{i} f_{i}(x_{i}).

로 표현 가능하다. 이 함수가 관찰된 어떤 양의 기댓값을 근사할 때, 다음과 같이 쓸 수 있다.

: g(\operatorname{E}(Y))=\beta_0 + f_1(x_1) + f_2(x_2)+ \cdots + f_m(x_m).\,\!

이는 일반화 가법 모형의 표준 공식이며, 백피팅 알고리즘을 통해 함수를 추정할수 있다.[1]

3. 모델의 일반성

일반화 가법 모델(GAM)은 "매끄러운 함수"의 범주가 넓어 다양한 형태의 모델을 포함한다. 예를 들어 다변량 함수의 매끄러운 함수, 요인 수준을 임의 효과 값에 매핑하는 함수, 가변 계수 항, 신호 회귀 항 등을 포함할 수 있다. 또한, 일반화 선형 모델(GLM)에서 사용될 수 있는 간단한 매개변수 함수도 포함한다.

GAM은 지수족 반응 분포를 넘어서, 평균뿐만 아니라 분산, 왜도 등 다른 모수도 모델링할 수 있도록 확장되었다. 단변량 데이터뿐만 아니라 다변량, 공간, 시계열 데이터 등 다양한 형태의 데이터에도 적용 가능하다.

4. GAM 피팅 방법

일반화 가법 모델(GAM)의 피팅 방법은 초기에는 백피팅 알고리즘을 사용하여 스무딩 스플라인이나 로컬 선형 회귀 스무더와 같은 비모수 스무더로 모델의 부드러운 구성 요소를 추정했다.[1] 백피팅은 부분 잔차를 반복적으로 스무딩하여 f_j(x_j) 항을 추정하며, 다양한 스무딩 방법을 사용할 수 있는 모듈식 추정 방법이다. 그러나 백피팅은 모델 항의 스무딩 정도를 추정하기 어렵다는 단점이 있어, 사용자가 직접 값을 설정하거나 사전 정의된 스무딩 수준 집합 중에서 선택해야 했다.

f_j(x_j)가 스무딩 스플라인으로 표현되는 경우[6], 일반화된 교차 검증이나 제한된 최대 우도(REML)를 사용하여 스무딩 정도를 추정할 수 있다.[7] 이는 스플라인 스무더와 가우시안 랜덤 효과 간의 이중성을 활용한다. 하지만 이 방법은 O(n^3)의 계산 비용이 발생하여 큰 데이터 세트에는 비효율적이다.

최근에는 계산 효율성을 높이기 위해 축소 랭크 평활(reduced rank smoothing) 접근 방식을 사용한다.[8][9][10][11][12] 이 방법은 모델의 평활 함수를 기저 함수 전개로 대체한다.

: f_j(x_j) = \sum_{k=1}^{K_j} \beta_{jk} b_{jk}(x_j)

여기서 b_{jk}(x_j)는 B 스플라인과 같은 알려진 기저 함수이고, \beta_{jk}는 추정될 계수이다. 기저 차원 K_j는 과적합을 방지하고 계산 효율성을 유지할 수 있도록 적절히 선택된다. 이 방식을 사용하면 계산 비용은 O(np^2)가 된다.

f_j는 절편 항 내에서만 식별 가능하므로, 평활 항에 식별 가능성 제약 조건(일반적으로 합이 0인 제약 조건)을 부과해야 한다.[11]

:\sum_i f_j(x_{ji}) = 0

모델을 과적합에서 보호하기 위해, 모델 적합 과정에서 평활도에서 벗어나는 것에 벌점을 부과하고 평활 매개변수 (\lambda_j)를 사용하여 모델 적합도와 평활도 간의 균형을 제어한다.

: D(\beta) + \sum_j \lambda_j \int f^{\prime\prime}_j(x)^2 dx

여기서 적분된 제곱 2차 도함수 벌점은 f_j의 울퉁불퉁함에 벌점을 부과한다. 이 벌점은 모델 계수의 이차 형식으로 표현될 수 있다.[11]

:\int f^{\prime\prime}_j(x)^2 dx = \beta^T_j \bar S_j \beta_j = \beta^T S_j \beta

평활 매개변수가 주어지면, 모델 적합 문제는 다음과 같이 된다.

: \hat \beta = \text{argmin}_\beta \{ D(\beta) + \sum_j \lambda_j \beta^T S_j \beta \}

이는 반복 가중 최소 자승(IRLS) 알고리즘의 벌점 버전을 사용하여 찾을 수 있다.

평활 벌점은 추정치에 약간의 평활 편향을 발생시키지만, 평활 매개변수가 적절하게 선택되면 평균 제곱 추정 오류는 감소한다. 모델의 유효 자유도는 벌점의 작용을 고려하여 수정되어야 한다.[11]

:F = (X^T WX + \sum_j \lambda_j S_j)^{-1}X^T WX

이 외에도, 부스팅을 사용하는 대안적인 접근 방식도 존재한다.[14][15]

5. 베이지안 평활 사전 분포

평활 벌칙은 매끄러운 함수가 굴곡이 있는 것보다 더 확률이 높다는 믿음에 기반한다.[17][18][19][20] 베이즈 접근 방식에서는 모델의 굴곡에 사전 분포를 부여하여 이러한 믿음을 공식화한다.

: \pi(\beta) \propto \exp\{- \beta^T\sum_j \lambda_j S_j \beta/(2 \phi)\}

여기서 \phi는 GLM 척도 매개변수이고, S_j는 벌점 행렬이다.[19] 이 사전 분포는 평균이 0이고 정밀도 행렬이 S_\lambda = \sum_j \lambda_j S_j/\phi인 다변량 정규 분포로 해석될 수 있다. 벌칙은 일부 함수를 벌칙 없이 통과시키므로(예시 벌칙이 주어지면 직선), S_\lambda 는 순위가 부족하며 사전 분포는 부적절하며, 공분산 행렬은 S_\lambda 무어-펜로즈 유사역행렬로 제공된다.[19]

이 사전 분포가 GLM 가능도와 결합되면 \beta에 대한 사후 모드는 벌점 IRLS에 의해 찾은 \hat \beta와 정확히 같다.[19][11] 또한 다음의 대규모 표본 결과를 얻는다.

:\beta|y \sim N (\hat \beta, (X^T WX + S_\lambda)^{-1}\phi).

이는 평활 구성 요소 f_j에 대한 신뢰/신용 구간을 생성하는 데 사용될 수 있다. 가우시안 평활 사전 분포는 GAM을 사용한 완전 베이즈 추론[9]의 기반이 되며, 경험적 베이즈 방법인 혼합 모델로 GAM을 추정하는 방법의 기반이 된다.[12][21]

6. 평활 매개변수 추정

평활 모수 \(\lambda\)는 모델의 복잡성을 제어하는 중요한 요소로, 지금까지는 \(\lambda\)가 주어졌을 때의 추정과 추론을 다루었지만, 이 값 또한 추정되어야 한다.[9][13]

평활 매개변수를 추정하는 방법은 다음과 같다:


  • 완전 베이즈 접근 방식을 통해 (로그) 평활 모수에 대한 사전 분포를 정의하고, 확률적 시뮬레이션 또는 고차 근사 방법을 사용하여 모델 계수의 사후 분포에 대한 정보를 얻는다.[9][13]
  • 일반화 교차 검증 (GCV) 또는 아카이케 정보 기준 (AIC)과 같은 예측 오차 기준을 최적화하도록 평활 모수를 선택한다.[22]
  • 모델 계수 \(\beta\)를 \(\beta, y\)의 결합 밀도에서 적분하여 얻은 주변 우도 (REML)를 최대화하도록 선택할 수 있다.

::\( \hat \lambda = \text{argmax}_\lambda \int f(y|\beta,\lambda)\pi(\beta|\lambda) d \beta \)

:\(f(y|\beta,\lambda)\)는 \(\beta\)의 우도이므로, 이는 사전 분포에서 임의 추출된 표본의 평균 우도를 최대화하도록 \(\lambda\)를 선택하는 것으로 볼 수 있다. 앞의 적분은 일반적으로 해석적으로 풀 수 없지만 라플라스 방법을 사용하여 매우 높은 정확도로 근사할 수 있다.[21]

평활 모수 추론은 모델 추정/추론에서 가장 계산 집약적인 부분이다. 예를 들어, GCV 또는 주변 우도를 최적화하려면 일반적으로 뉴턴 또는 준 뉴턴 방법을 통한 수치적 최적화가 필요하며, (로그) 평활 모수 벡터의 각 시험 값에 대해 GCV 점수 또는 라플라스 근사 주변 우도 (LAML)의 다른 구성 요소와 함께 해당 \(\hat \beta\)를 평가하기 위해 페널티가 적용된 IRLS 반복이 필요하다. 또한, 최적화에 필요한 GCV 또는 LAML의 도함수를 얻기 위해, \(\hat \beta\)의 도함수를 로그 평활 모수에 관해 구하기 위한 암시적 미분이 포함되며, 효율성과 수치적 안정성을 유지하려면 주의가 필요하다.[21]

7. 소프트웨어

다양한 통계 소프트웨어에서 GAM을 지원한다.[23][11][14][25][4][26] R에서는 `mgcv`[11], `gam`[23], `mboost`[14], `gss`[25], `VGAM`[4], `gamlss`, `BayesX`[26], `INLA`[13] 등의 패키지를 통해 GAM을 구현할 수 있다. Python에서는 `PyGAM`, `InterpretML`[24] 패키지를 활용할 수 있다. SAS에서는 `GAM`, `GAMPL` 프로시저를 통해 GAM을 사용할 수 있다.

R 패키지 `mgcv`[11]는 자동 평활 매개변수 선택을 사용하는 감소 랭크 접근 방식을 기반으로 한다. `BayesX`와 R 인터페이스는 MCMC 및 페널티화 가능도 방법을 통해 GAM 및 확장을 제공한다.[26] `INLA` 소프트웨어는 희소 행렬 방법을 활용하는 마르코프 랜덤 필드 표현을 기반으로 하는 완전 베이지안 방식을 구현한다.[13]

8. 모델 검증

일반화 가법 모델(GAM)의 모델 가정을 확인하는 것은 중요하다.[27] 잔차 플롯은 다른 일반화 선형 모형(GLM)과 동일한 방식으로 검토해야 한다.[27] 즉, 편차 잔차(또는 기타 표준화된 잔차)는 모델의 독립성 또는 평균-분산 가정의 심각한 위반을 시사할 수 있는 패턴이 있는지 검토해야 한다.[27] 여기에는 일반적으로 표준화된 잔차를 적합 값 및 공변량에 대해 플로팅하여 평균-분산 문제 또는 누락된 패턴을 확인하는 작업이 포함되며, 독립성 위반을 확인하기 위해 잔차의 상관도(ACF) 및/또는 변이도를 검토하는 작업도 포함될 수 있다.[27] 모델 평균-분산 관계가 올바르면 스케일링된 잔차는 대략 일정한 분산을 가져야 한다.[27] GLM과 GAM은 준우도를 사용하여 추정할 수 있으므로, 평균-분산 관계를 넘어선 잔차 분포의 세부 사항은 상대적으로 중요하지 않다.[27]

GAM에서 다른 GLM보다 더 흔하게 발생하는 한 가지 문제는 데이터가 0으로 팽창되었다고 잘못 결론 내릴 위험이 있다는 것이다.[27] 이 문제는 데이터에 매우 낮은 기대값을 가진 푸아송 또는 이항 분포로 모델링할 수 있는 많은 0이 포함된 경우 발생한다.[27] GAM 구조의 유연성은 종종 공변량 공간의 일부 영역에서 매우 낮은 평균을 나타낼 수 있지만, 모델이 완벽하게 올바르더라도 표준화된 잔차의 분포는 소개 GLM 수업에서 기대하도록 가르치는 근사 정규성과 전혀 유사하지 않을 것이다.[27]

GAM이 도입하는 한 가지 추가 확인 사항은 선택된 자유도가 적절한지 확인해야 한다는 것이다.[27] 이는 모델 구성 요소의 매끄러움을 자동으로 추정하지 않는 방법을 사용할 때 특히 중요하다.[27] 자동 평활 매개변수 선택(smoothing parameter selection)을 사용하는 경우에도 기본 차원 선택이 제한적으로 작지 않았는지 확인해야 한다.[27] 그러나 항 추정치의 유효 자유도가 해당 기본 차원보다 편안하게 낮으면 그럴 가능성은 낮다.[27] 어쨌든 fj(xj)를 확인하는 것은 xj에 대한 잔차의 패턴을 검토하는 것을 기반으로 한다.[27] 이는

\hat f_j(x_j)의 플롯에 중첩된 부분 잔차를 사용하거나, 잔차 패턴에 대한 검정을 구성하기 위해 잔차의 순열을 사용하여 수행할 수 있다.[27]

9. 모델 선택

평활 모수 추정은 모델 선택의 많은 부분을 포함한다.[28] 평활 모수 추정으로 인해 다양한 함수 복잡성을 가진 모델군 중에서 선택이 이루어졌다. 그러나 평활 항을 완전히 제거하지는 못하는데, 대부분의 페널티는 일부 함수를 페널티 없이 남겨두기 때문이다. (예: 스플라인 도함수 페널티는 직선에 페널티를 부과하지 않음) 따라서 항의 존치 여부에 대한 문제는 여전히 남는다.

이 문제에 대한 한 가지 간단한 접근 방식은 GAM의 각 평활 항에 추가 페널티를 추가하여, 페널티가 부과되지 않을 평활의 구성 요소에 페널티를 부과하는 것이다. 각 추가 페널티에는 자체 평활 모수가 있으며, 항이 완전히 0으로 페널티화될 가능성이 있다.[28] 고차원 설정에서는 Lasso 또는 엘라스틱 넷 정규화를 사용하는 것이 더 합리적일 수 있다. 부스팅은 적합 과정의 일부로 항 선택을 자동적으로 수행한다.[14]

또 다른 방법은 단계적 회귀 방법을 사용하는 것이다. 평활 모수가 적합의 일환으로 추정되지 않는 경우의 기본 방법이며, 각 평활 항은 일반적으로 모델 내에서 미리 정의된 작은 집합의 평활 수준 중 하나를 가질 수 있으며, 단계별 방식으로 선택된다. 단계적 방법은 특정 모델 항이 있거나 없는 모델을 반복적으로 비교하여 작동하며, 각 단계에서 선택할 모델을 결정하기 위해 모델 적합도 또는 항 유의성 측정이 필요하다. 예를 들어, p-값을 사용하여 모델에서 제거할 후보 항을 결정하거나, 대안적인 모델에 대한 Akaike 정보 기준 (AIC) 값을 비교할 수 있다.

평활에 대한 p-값 계산은 페널티의 효과 때문에 간단하지 않지만, 근사가 가능하다.[1][11] AIC는 GAM에 대해 두 가지 방법으로 계산할 수 있다. 주변 AIC는 모델 계수를 적분한 주변 우도를 기반으로 하며, AIC 페널티는 모델의 평활 모수 (및 모든 분산 모수)의 수에 기반한다. 그러나 REML은 다른 고정 효과 구조를 가진 모델 간에 비교할 수 없다는 사실 때문에, 일반적으로 이러한 AIC를 사용하여 다른 평활 항을 가진 모델을 비교할 수 없다 (비페널티화된 구성 요소가 고정 효과처럼 작용하기 때문). 페널티가 부과된 효과만 적분한 주변 우도에 AIC를 기반하는 것은 가능하지만 (비페널티화된 계수의 수가 AIC 페널티에 대한 매개변수 수에 추가됨), 주변 우도의 이 버전은 REML 개발의 원래 동기를 제공한 과도한 평활화 경향을 겪는다. 이러한 문제점을 감안할 때, GAM은 종종 모델 우도 (주변 우도가 아님)를 AIC에 사용하고 매개변수 수를 모델의 유효 자유도로 간주하는 조건부 AIC를 사용하여 비교된다.[1][22]

조건부 AIC의 단순한 버전은 일부 상황에서 더 큰 모델을 선택할 가능성이 높다는 것이 밝혀졌으며, 이는 유효 자유도를 계산할 때 평활 모수 불확실성을 무시했기 때문이다.[29] 그러나 이 문제에 대한 유효 자유도를 수정하면 합리적인 성능이 복원된다.[3]

10. 주의 사항

과잉 적합은 일반화 가법 모델(GAM)에서 발생할 수 있는 문제이다.[22] 특히 모델링되지 않은 잔차 자기 상관 또는 모델링되지 않은 과대 분산이 있는 경우 더욱 그렇다. 교차 검증은 GAM의 과잉 적합 문제를 감지 및/또는 줄이는 데 사용될 수 있다.[30]

매우 많은 수의 평활 매개변수를 추정하는 것은 통계적으로 어려울 수 있으며, 예측 오류 기준(GCV, AIC 등)이 중간 표본 크기에서 언더 스무딩하는 경향이 있다. REML은 이와 관련하여 다소 문제가 덜하다.[31]

GAM이 예측 능력을 실질적으로 향상시키지 않는다면, GLM과 같은 더 간단한 모형이 선호될 수 있다.

11. 한국에서의 활용 사례

참조

[1] 서적 Generalized Additive Models Chapman & Hall/CRC
[2] 논문 Discriminative vs informative learning https://dl.acm.org/d[...] AAAI Press 1997-08-14
[3] 논문 Smoothing parameter and model selection for general smooth models (with discussion)
[4] 서적 Vector generalized linear and additive models Springer
[5] 논문 Generalized additive models for location, scale and shape (with discussion)
[6] 서적 Spline Models for Observational Data SIAM
[7] 논문 Minimizing GCV/GML scores with multiple smoothing parameters via the Newton method http://pages.stat.wi[...]
[8] 논문 Modelling and smoothing parameter estimation with multiple quadratic penalties http://opus.bath.ac.[...]
[9] 논문 Bayesian Inference for Generalized Additive Mixed Models based on Markov Random Field Priors
[10] 논문 Smoothing spline Gaussian regression: more scalable computation via efficient approximation
[11] 서적 Generalized Additive Models: An Introduction with R (2nd ed) Chapman & Hall/CRC
[12] 서적 Semiparametric Regression Cambridge University Press
[13] 논문 Approximate Bayesian inference for latent Gaussian models by using integrated nested Laplace approximations (with discussion)
[14] 논문 Boosting additive models using component-wise P-splines
[15] 논문 Generalized additive models for location, scale and shape for high dimensional data - a flexible approach based on boosting
[16] 서적 Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining - KDD '12
[17] 논문 Bayesian Confidence Intervals for the Cross Validated Smoothing Spline http://www.stat.ucla[...]
[18] 논문 Bayesian confidence intervals for smoothing splines
[19] 논문 Some Aspects of the Spline Smoothing Approach to Non-Parametric Regression Curve Fitting (with discussion) http://www-personal.[...]
[20] 논문 Coverage properties of confidence intervals for generalized additive model components http://opus.bath.ac.[...]
[21] 논문 Fast stable restricted maximum likelihood and marginal likelihood estimation of semiparametric generalized linear models http://opus.bath.ac.[...]
[22] 논문 Fast stable direct fitting and smoothness selection for generalized additive models 2008
[23] 서적 Statistical Models in S Chapman and Hall
[24] arXiv InterpretML: A Unified Framework for Machine Learning Interpretability 2019
[25] 서적 Smoothing Spline ANOVA Models (2nd ed.) Springer
[26] 논문 Structured Additive Regression Models: An R Interface to BayesX https://www.econstor[...]
[27] 논문 On quantile quantile plots for generalized linear models http://opus.bath.ac.[...]
[28] 논문 Practical Variable Selection for Generalized Additive Models
[29] 논문 On the behaviour of marginal and conditional AIC in linear mixed models
[30] 웹사이트 Additive models and cross-validation http://www.stat.cmu.[...] 2010-03-22
[31] 논문 Smoothing parameter selection for a class of semiparametric linear models
[32] 서적 Generalized Additive Models https://archive.org/[...] Chapman & Hall/CRC
[33] 논문 Discriminative vs informative learning https://dl.acm.org/d[...] AAAI Press 1997-08-14



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com