맨위로가기

비모수 회귀

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

비모수 회귀는 확률 변수 X와 Y 간의 관계를 E[Y|X=x] = m(x)로 가정하며, m(x)는 결정론적 함수이다. 선형 회귀는 비모수 회귀의 특수한 경우이다. 비모수 회귀 알고리즘에는 최근접 이웃 평활화, 회귀 트리, 커널 회귀, 국소 회귀, 다변량 적응적 회귀 스플라인, 평활 스플라인, 인공 신경망 등이 있다. 가우시안 과정 회귀(크리깅), 커널 회귀, 회귀 트리 등이 비모수 회귀의 예시로 사용된다.

더 읽어볼만한 페이지

  • 회귀분석 - 회귀 분석
    회귀 분석은 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링하고 분석하는 통계적 기법으로, 최소 제곱법 개발 이후 골턴의 연구로 '회귀' 용어가 도입되어 다양한 분야에서 예측 및 인과 관계 분석에 활용된다.
  • 회귀분석 - 로지스틱 회귀
    로지스틱 회귀는 범주형 종속 변수를 다루는 회귀 분석 기법으로, 특히 이항 종속 변수에 널리 사용되며, 오즈에 로짓 변환을 적용하여 결과값이 0과 1 사이의 값을 가지도록 하는 일반화 선형 모형의 특수한 경우이다.
비모수 회귀
정의 및 특징
정의비모수 회귀는 모수에 대한 가정을 최소화하여 회귀 관계를 추정하는 통계적 방법론이다.
특징데이터에 대한 사전 지식이나 분포 가정이 적다.
복잡한 비선형 관계를 모델링하는 데 유용하다.
과적합 가능성을 줄이기 위해 규제(regularization)가 필요할 수 있다.
종류
커널 회귀 (Kernel regression)특정 지점 주변의 데이터에 가중치를 부여하여 회귀 함수를 추정한다.
국소 회귀 (Local regression)전체 데이터셋이 아닌 특정 지점 주변의 데이터에 대해 회귀 모델을 적합시킨다.
스플라인 회귀 (Spline regression)데이터를 여러 구간으로 나누어 각 구간별로 부드러운 곡선(스플라인)을 적합시킨다.
가우스 과정 회귀 (Gaussian process regression)가우스 과정을 사용하여 회귀 함수를 모델링하고, 예측 불확실성을 추정한다.
트리 기반 방법 (Tree-based methods)의사 결정 트리: 데이터를 분할하여 예측 모델을 생성한다.
랜덤 포레스트: 여러 개의 의사 결정 트리를 결합하여 예측 성능을 향상시킨다.
경사 부스팅: 약한 학습기(weak learners)를 순차적으로 결합하여 강력한 예측 모델을 구축한다.
장점
유연성데이터에 대한 강한 가정이 없으므로 다양한 형태의 관계를 모델링할 수 있다.
해석력시각화를 통해 데이터의 패턴을 쉽게 파악할 수 있다.
단점
계산 비용대규모 데이터셋에 적용할 때 계산 비용이 많이 들 수 있다.
과적합모델이 너무 복잡해지면 과적합될 가능성이 있다.
차원의 저주변수의 수가 많아지면 모델의 성능이 저하될 수 있다.
활용 분야
경제학소비 지출 예측
주가 예측
공학신호 처리
이미지 처리
의학환자 생존율 예측
약물 반응 예측

2. 비모수 회귀의 정의

비모수 회귀에서는 확률 변수 XY가 주어지며 다음과 같은 관계를 가정한다.

:\mathbb{E}[Y\mid X=x] = m(x),

여기서 m(x)는 어떤 결정론적 함수이다. 선형 회귀m(x)가 아핀(affine) 함수라고 가정하는 비모수 회귀의 제한적인 경우이다.

일부 저자는 다음과 같은 가법 잡음(additive noise)에 대한 약간 더 강력한 가정을 사용한다.

:Y = m(X) + U,

여기서 확률 변수 U는 평균이 0인 '잡음 항'이다.

3. 비모수 회귀 알고리즘

비모수 회귀에는 다양한 알고리즘이 사용된다.


  • 최근접 이웃 평활화 (k-최근접 이웃 알고리즘 참조)[1]
  • 회귀 트리[1]
  • 커널 회귀[1]
  • 국소 회귀[1]
  • 다변량 적응적 회귀 스플라인[1]
  • 평활 스플라인[1]
  • 인공 신경망[1]

3. 1. 회귀 트리

의사결정 트리 학습을 통해 종속 변수를 예측한다.[1]

3. 2. 커널 회귀

커널 회귀는 커널 함수를 사용하여 데이터 점의 영향을 "흐리게" 함으로써 인접한 위치의 값을 예측하는 방식이다.[1]

3. 3. 국소 회귀

최근접 이웃 평활화(k-최근접 이웃 알고리즘 참조)와 커널 회귀처럼 데이터 점 주변의 국소적인 정보를 이용하여 회귀 함수를 추정한다.[1]

3. 4. 다변량 적응적 회귀 스플라인

다변량 적응적 회귀 스플라인은 다변량 데이터에 적합한 스플라인 기반 회귀 방법이다.[1]

3. 5. 평활 스플라인

평활 스플라인은 가우시안 과정 회귀의 사후 최빈값으로 해석될 수 있다.[1]

3. 6. 인공 신경망

인공 신경망은 복잡한 비선형 관계를 모델링하는 데 사용될 수 있다.[1]

4. 비모수 회귀의 예시

비모수 회귀는 특정 형태의 함수를 가정하지 않고 데이터에 가장 적합한 곡선을 찾는 방법이다. 이는 데이터의 패턴이 명확하지 않거나 복잡한 경우에 유용하다. 비모수 회귀의 몇 가지 예는 다음과 같다.


  • 가우시안 과정 회귀 (크리깅): 회귀 곡선에 가우시안 사전 분포를 가정한다.
  • 커널 회귀: 합성곱을 통해 데이터 점의 위치를 기반으로 종속 변수를 추정한다.
  • 회귀 트리: 의사 결정 트리 학습 알고리즘을 사용하여 데이터로부터 종속 변수를 예측한다.

4. 1. 가우시안 과정 회귀 (크리깅)

가우시안 과정 회귀는 크리깅(Kriging)이라고도 하며, 회귀 곡선에 대해 가우시안 사전 분포를 가정한다. 오차는 다변량 정규 분포를 따른다고 가정하며, 회귀 곡선은 사후 최빈값으로 추정된다. 가우시안 사전 분포는 알려지지 않은 하이퍼파라미터에 따라 달라질 수 있으며, 일반적으로 경험적 베이즈를 통해 추정된다.[1]

하이퍼파라미터는 일반적으로 사전 공분산 커널을 지정한다. 커널이 데이터로부터 비모수적으로 추론되어야 하는 경우, 임계 필터를 사용할 수 있다.[1]

스무딩 스플라인은 가우시안 과정 회귀의 사후 최빈값으로 해석될 수 있다.[1]

4. 2. 커널 회귀

곡선(빨간색 선)이 가우시안 커널 평활기를 사용하여 비모수 회귀로 작은 데이터 집합(검은색 점)에 적합된 예시. 분홍색 음영 영역은 주어진 x 값에 대한 y의 추정치를 얻기 위해 적용된 커널 함수를 보여준다. 커널 함수는 대상 지점에 대한 추정치를 생성할 때 각 데이터 점에 부여되는 가중치를 정의한다.


커널 회귀는 제한된 데이터 집합에서 연속적인 종속 변수를 추정하기 위해 데이터 점의 위치를 합성곱한다. 커널 함수는 데이터 점의 영향을 "흐리게"하여 인접한 위치의 값을 예측하는 데 사용된다.[1]

4. 3. 회귀 트리

의사 결정 트리 학습 알고리즘은 데이터로부터 종속 변수를 예측하는 데 사용될 수 있다.[2] 원래의 분류 및 회귀 트리(CART) 공식은 단변량 데이터 예측에만 적용되었지만, 이 프레임워크는 시계열을 포함한 다변량 데이터를 예측하는 데에도 사용할 수 있다.[3]

참조

[1] 학술지 Statistical and neural network techniques for nonparametric regression https://link.springe[...] Springer 1994
[2] 서적 Classification and regression trees Wadsworth & Brooks/Cole Advanced Books & Software
[3] 학술지 Tree-structured methods for longitudinal data American Statistical Association, Taylor & Francis



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com