맨위로가기

가우시안 과정

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

가우시안 과정은 확률 과정의 일종으로, 유한 개의 확률 변수를 선택했을 때 다변량 정규 분포를 따르는 특징을 가진다. 가우시안 과정은 평균 함수와 공분산 함수(커널 함수)에 의해 완전히 정의되며, 이를 통해 정상성, 등방성, 매끄러움, 주기성 등 다양한 특성을 정의할 수 있다. 가우시안 과정은 기계 학습, 시계열 분석, 공간 통계학, 수치 해석 등 다양한 분야에 응용되며, 베이즈 추론에서 함수의 사전 확률 분포로 활용되거나 회귀 분석, 크리깅, 코크리깅 등의 도구로 사용된다.

더 읽어볼만한 페이지

  • 정규 분포 - 로그 정규 분포
    로그 정규 분포는 확률 변수 X의 로그가 정규 분포를 따르며, 양의 실수 값을 갖고 평균 μ와 표준 편차 σ를 매개변수로 갖는 확률 분포이다.
  • 정규 분포 - 카이제곱 분포
    카이제곱 분포는 k개의 독립적인 표준정규분포를 따르는 확률변수들의 제곱의 합으로 정의되는 확률분포로서, 자유도 k에 따라 형태가 결정되며 통계적 가설 검정, 분산 분석, 적합도 검정, 독립성 검정 등 다양한 통계적 추론에 응용된다.
  • 확률 과정 - 마르코프 연쇄
    마르코프 연쇄는 현재 상태가 주어졌을 때 과거와 미래 상태가 독립적인 확률 변수 순서열로, 시간 동질성, 상태 공간 유형, 시간 매개변수 유형에 따라 다양한 유형으로 분류되며 여러 분야에서 활용되는 확률적 모델링 방법이다.
  • 확률 과정 - 브라운 운동
    브라운 운동은 액체나 기체 속 미세 입자가 매질 분자와 충돌하여 불규칙하게 움직이는 현상으로, 아인슈타인과 스몰루호프스키의 이론적 설명과 페랭의 실험적 검증을 통해 원자 존재 입증에 기여했으며, 확산/랑주뱅 방정식으로 모델링되어 다양한 분야에 응용된다.
가우시안 과정
기본 정보
가우시안 프로세스의 샘플 함수 20개의 그래프
가우시안 프로세스의 샘플 함수 20개의 그래프
분야확률론, 통계학
유형확률 과정
발명다니에 크리게
정의
정의유한한 부분집합의 결합 분포가 다변량 정규 분포인 확률 과정
성질
성질완전하게 두 함수, 즉 평균 함수와 공분산 함수에 의해 결정됨
활용
활용베이즈 최적화
기계 학습
지리 통계학
보간법
회귀 분석
분류
시계열 예측

2. 정의

가우시안 과정(Gaussian process)은 확률 과정의 한 종류이다. 어떤 확률 과정에서 시간 등의 인덱스를 유한 개 선택했을 때, 해당 인덱스에 해당하는 확률 변수들의 모임(벡터)이 항상 다변량 정규 분포를 따른다면, 이 확률 과정을 가우시안 과정이라고 부른다.[1] 즉, 가우시안 과정의 어떤 유한한 부분을 보더라도 그 부분은 항상 다변량 정규 분포의 형태를 가진다. 이는 확률 변수들의 어떤 선형 결합정규 분포를 따른다는 것과 같은 의미이다.

2. 1. 확률 과정

시간 연속 확률 과정 \left\{X_t ; t\in T\right\}는 인덱스 집합 T에 있는 모든 유한 집합의 인덱스 t_1,\ldots,t_k에 대해, 확률 변수 벡터

\mathbf{X}_{t_1, \ldots, t_k} = (X_{t_1}, \ldots, X_{t_k})

가 다변량 정규 분포를 따를 때 가우시안 과정이라고 한다.[1] 이는 벡터 (X_{t_1}, \ldots, X_{t_k})의 모든 선형 결합일변량 정규 분포(가우스 분포)를 갖는다는 것과 같다.

가우시안 과정의 이러한 성질은 확률 분포의 특성 함수를 사용하여 다음과 같이 공식화할 수도 있다. 확률 과정 \left\{X_t ; t\in T\right\}는, 인덱스 집합 T의 모든 유한 집합의 인덱스 t_1,\ldots,t_k에 대해 실수 값 \sigma_{\ell j}\mu_\ell (\sigma_{jj} > 0)이 존재하여, 모든 실수 s_1,s_2,\ldots,s_k\in\mathbb{R}에 대해 다음 등식이 성립하면 가우시안 과정이다.

{ \mathbb E }\left[\exp\left(i \sum_{\ell=1}^k s_\ell \, \mathbf{X}_{t_\ell}\right)\right] = \exp \left(-\tfrac{1}{2} \sum_{\ell, j} \sigma_{\ell j} s_\ell s_j + i \sum_\ell \mu_\ell s_\ell\right)

여기서 ii^2 =-1허수 단위이다. 이 식은 벡터 표기법을 사용하여 다음과 같이 나타낼 수도 있다.

{ \mathbb E } \left[ {\mathrm e}^{ i\, \mathbf{s}\, (\mathbf{X}_t - \mathbf{\mu}) } \right] = {\mathrm e}^{ - \mathbf{s}\, \sigma\, \mathbf{s}/2 }

이때 숫자 \sigma_{\ell j}는 과정 내 변수 X_{t_\ell}X_{t_j}공분산이고, \mu_\ellX_{t_\ell}의 평균(기댓값)이다.[2]

2. 2. 다변량 정규 분포

시간 연속 확률 과정 \left\{X_t ; t\in T\right\}는 인덱스 집합 T에 있는 모든 유한 집합의 인덱스 t_1,\ldots,t_k에 대해, 벡터 \mathbf{X}_{t_1, \ldots, t_k} = (X_{t_1}, \ldots, X_{t_k})가 다변량 가우스 확률 변수일 때 가우시안 과정이라고 한다.[1] 이는 (X_{t_1}, \ldots, X_{t_k})의 모든 선형 결합일변량 정규(또는 가우스) 분포를 갖는다는 것과 동일하다.

특성 함수를 사용하여 가우시안 과정의 속성을 다음과 같이 나타낼 수도 있다. 확률 과정 \left\{X_t ; t\in T\right\}는 모든 유한 인덱스 집합 t_1,\ldots,t_k에 대해 실수 값 \sigma_{\ell j}\mu_\ell가 존재하고 (\sigma_{jj} > 0), 모든 실수 s_1,s_2,\ldots,s_k에 대해 다음 등식이 성립하면 가우시안 과정이다.

{ \mathbb E }\left[\exp\left(i \sum_{\ell=1}^k s_\ell \, \mathbf{X}_{t_\ell}\right)\right] = \exp \left(-\tfrac{1}{2} \sum_{\ell, j} \sigma_{\ell j} s_\ell s_j + i \sum_\ell \mu_\ell s_\ell\right)

여기서 ii^2 =-1허수 단위이다. 이 식에서 \sigma_{\ell j}X_{t_\ell}X_{t_j}공분산을 나타내고, \mu_\ellX_{t_\ell}의 평균을 나타낸다.[2]

3. 성질

가우시안 과정의 핵심은 평균 함수와 공분산 함수라는 2차 통계량만으로 완전히 정의될 수 있다는 점이다.[5] 따라서 가우시안 과정의 평균이 0이라고 가정하면, 공분산 함수를 정의하는 것만으로 과정의 전체적인 동작 방식이 결정된다. 공분산 함수는 두 입력 지점 xx'에서의 함수 값 사이의 관련성을 나타내며, 이 함수의 중요한 성질 중 하나인 비음수 정부호성(non-negative definiteness) 덕분에 카루넨-레브 정리를 이용한 스펙트럼 분해가 가능하다.

공분산 함수를 통해 가우시안 과정의 여러 기본적인 특성을 정의할 수 있다. 주요 특성으로는 과정의 정상성, 등방성, 매끄러움, 주기성 등이 있다.[6][7]


  • 정상성 (Stationarity): 과정의 통계적 특성이 입력 공간 전체에 걸쳐 변하지 않음을 의미한다. 정상 과정의 공분산 함수는 두 점 xx' 사이의 상대적인 위치 벡터 x-x'에만 의존한다.
  • 등방성 (Isotropy): 과정의 통계적 특성이 방향에 관계없이 두 점 사이의 유클리드 거리 |x-x'|에만 의존함을 의미한다. 정상성이면서 동시에 등방성인 과정은 균질(homogeneous)하다고 부른다.[8]
  • 매끄러움 (Smoothness): 가우시안 과정으로 모델링되는 함수가 얼마나 부드러운지를 결정한다.[2] 공분산 함수는 함수에 대한 사전 분포(prior distribution)로 해석될 수 있으며, 이 사전 분포의 매끄러움은 공분산 함수로부터 유도된다.
  • 주기성 (Periodicity): 과정의 동작에서 주기적인 패턴을 유도하는 것을 의미한다.


이러한 성질들은 실제 문제에서 관찰자의 위치나 방향에 따라 과정의 동작이 어떻게 달라지는지(또는 달라지지 않는지), 모델링하려는 함수의 부드러움 정도, 주기적 경향 등을 반영하는 데 사용된다.

3. 1. 평균 함수

가우시안 과정 {''X''''t''}''t''∈''T''는 각 시점 ''t''에서의 확률 변수 ''X''''t''의 기대값(평균)을 나타내는 평균 함수 \mu(t) = \mathbb{E}[X_t]와 두 시점 ''t'', ''s''에서의 값들 사이의 공분산을 나타내는 공분산 함수 K(t, s) = \operatorname{cov}(X_t, X_s)에 의해 완전히 정의된다.[5] 즉, 평균 함수는 각 입력 지점 ''t''에 대응하는 확률 변수 ''X''''t''의 평균값을 매핑하는 함수이다.

실제 많은 응용에서는 계산을 단순화하기 위해 평균 함수를 0으로 가정하기도 한다. 이 경우, 공분산 함수만으로 가우시안 과정의 전체적인 특성이 결정된다.[5]

가우시안 과정의 정의에 따르면, 임의의 유한한 첨자 집합 {''t''1, ..., ''t''''k''} ⊂ ''T''에 대해, 확률 변수 벡터

\mathbf{X}_{t_1, \ldots, t_k} = (X_{t_1}, \ldots, X_{t_k})

는 다변량 정규 분포를 따른다. 이 분포의 평균 벡터는 각 성분이 해당 시점에서의 평균 함수 값인 (\mu(t_1), \ldots, \mu(t_k))이다.

또한, 확률 분포의 특성 함수를 사용하여 가우시안 과정을 정의할 수도 있다. 임의의 유한 개의 첨자 ''t''1, ..., ''t''''k''와 실수 a_1, \ldots, a_k에 대해, 선형 결합 \sum_{l=1}^k a_l X_{t_l}정규 분포를 따른다. 구체적으로, 특성 함수는 다음과 같이 표현된다.

\mathbb{E}\!\left(\exp\!\left(i\sum_{l=1}^k a_l X_{t_l}\right)\right) = \exp\!\left(-\frac{1}{2} \sum_{l, j} K(t_l, t_j) a_l a_j + i \sum_l \mu(t_l) a_l\right)

여기서 \mu(t_l)는 ''X''''t''''l''의 기대값(평균)이며, 이는 평균 함수 \mu(t)의 ''t''''l''에서의 값이다. K(t_l, t_j)는 ''X''''t''''l''과 ''X''''t''''j''공분산으로, 공분산 함수 K(t, s)의 값이다. 따라서 평균 함수는 가우시안 과정의 기댓값을 명시하는 핵심적인 요소이다.

3. 2. 공분산 함수 (커널 함수)

가우시안 과정의 핵심은 평균 함수와 공분산 함수라는 2차 통계량만으로 완전히 정의될 수 있다는 점이다.[5] 많은 경우 계산 편의를 위해 가우시안 과정의 평균이 0이라고 가정하며, 이때는 공분산 함수를 정의하는 것만으로 과정의 전체적인 동작 방식이 결정된다. 공분산 함수는 두 입력 지점 xx'에서의 함수 값 f(x)f(x') 사이의 관련성을 나타낸다. 이 함수가 가지는 중요한 성질 중 하나는 비음수 정부호성(non-negative definiteness)인데, 이 덕분에 카루넨-레브 정리를 이용한 스펙트럼 분해가 가능하다.

공분산 함수는 가우시안 과정의 여러 중요한 특성을 결정한다. 주요 특성은 다음과 같다.[6][7]

  • 정상성 (Stationarity): 과정의 통계적 특성이 입력 공간 전체에 걸쳐 변하지 않음을 의미한다. 정상 과정의 공분산 함수는 두 점 xx' 사이의 상대적인 위치 벡터 x-x'에만 의존한다. 예를 들어, 오른스타인-울렌벡 과정은 정상 과정이다.
  • 등방성 (Isotropy): 과정의 통계적 특성이 방향에 관계없이 두 점 사이의 거리 |x-x'|에만 의존함을 의미한다. 정상성이면서 동시에 등방성인 과정은 균질(homogeneous)하다고 부른다.[8] 실제 문제에서 이러한 속성은 관찰자의 위치나 방향에 따라 과정의 동작이 어떻게 달라지는지(또는 달라지지 않는지)를 나타낸다.
  • 매끄러움 (Smoothness): 가우시안 과정으로 모델링되는 함수가 얼마나 부드러운지를 결정한다.[2] 공분산 함수는 함수에 대한 사전 분포(prior distribution)로 해석될 수 있으며, 이 사전 분포의 매끄러움은 공분산 함수로부터 유도된다. 만약 입력 지점 xx'이 가까울 때 해당 출력 yy'도 가까울 것으로 예상한다면, 이는 함수가 연속적이라는 가정을 내포한다. 더 급격한 변화를 허용하려면 덜 매끄러운(거친) 공분산 함수를 선택할 수 있다. 예를 들어, 오른스타인-울렌벡 공분산 함수는 미분 불가능한 함수를 생성하는 반면, 제곱 지수 공분산 함수는 무한히 미분 가능한 함수를 생성한다.
  • 주기성 (Periodicity): 과정의 동작에서 주기적인 패턴을 나타내고 싶을 때 사용된다. 이는 입력을 2차원 벡터 u(x) = \left( \cos(x), \sin(x) \right)로 변환하는 방식으로 구현될 수 있다.


가우시안 과정의 사전 함수 분포에 대한 다양한 커널(공분산 함수) 선택의 효과. 왼쪽: 제곱 지수 커널, 중간: 브라운 운동(오른스타인-울렌벡 과정과 관련), 오른쪽: 2차 커널.


다양한 형태의 공분산 함수(커널 함수)가 존재하며, 문제의 특성에 맞게 선택하여 사용할 수 있다. 몇 가지 일반적인 공분산 함수는 다음과 같다.[7]

이름수식설명
상수 K_\operatorname{C}(x,x') = C 모든 점 사이의 공분산이 상수로 일정함.
선형 K_\operatorname{L}(x,x) = x^\mathsf{T} x입력 벡터의 내적을 사용하며, 베이즈 선형 회귀와 관련됨.
백색 가우시안 잡음 K_\operatorname{GN}(x,x) = \sigma^2 \delta_{x,x}각 점에서 독립적인 잡음을 모델링 (\delta_{x,x'}크로네커 델타, \sigma는 잡음의 표준 편차).
제곱 지수 (Squared Exponential) K_\operatorname{SE}(x,x') = \exp \left(-\tfrac{d^2}{2\ell^2} \right)d =>x- x'|는 유클리드 거리, \ell은 길이 척도(length-scale) 파라미터). 가우시안 커널 또는 RBF(Radial Basis Function) 커널이라고도 불림.
오른스타인-울렌벡 (Ornstein–Uhlenbeck) K_\operatorname{OU}(x,x') = \exp \left(-\tfrac{d} \ell \right)연속적이지만 미분 불가능한 함수(예: 브라운 운동)를 모델링.
마테른 (Matérn) K_\operatorname{Matern}(x,x') = \tfrac{2^{1-\nu}}{\Gamma(\nu)} \left(\tfrac{\sqrt{2\nu}d}{\ell} \right)^\nu K_\nu \left(\tfrac{\sqrt{2\nu}d}{\ell} \right)함수의 매끄러움을 조절할 수 있는 유연한 커널 (K_\nu\nu차 수정된 베셀 함수, \Gamma(\nu)감마 함수, \nu는 매끄러움 파라미터). \nu \to \infty이면 제곱 지수 커널과 같아짐.
주기 (Periodic) K_\operatorname{P}(x,x') = \exp\left(-\tfrac{2}{\ell^2} \sin^2 (d/2) \right)주기적인 함수를 모델링. (원문 소스 표기)
유리수 2차 (Rational Quadratic) K_\operatorname{RQ}(x,x') = \left(1+d^2\right)^{-\alpha}, \quad \alpha \geq 0다양한 길이 척도의 조합으로 볼 수 있으며, 제곱 지수 커널의 일반화 (\alpha \to \infty일 때 제곱 지수 커널과 같아짐). (원문 소스 표기)



위 표에서 d = |x- x'|는 두 점 사이의 유클리드 거리를 나타낸다. 파라미터 \ell길이 척도(length-scale)라고 불리며, 두 점 xx'이 서로에게 유의미한 영향을 미치기 위해 얼마나 가까워야 하는지를 결정한다. \sigma는 잡음의 변동 크기를 나타내는 표준 편차이다. K_\nu\nu차 수정된 베셀 함수이고 \Gamma(\nu)\nu에서 평가된 감마 함수이다. 중요한 점은, 복잡한 현상을 모델링하기 위해 여러 간단한 공분산 함수를 더하거나 곱하여 새로운 공분산 함수를 만들 수 있다는 것이다. 예를 들어, 주기적인 경향과 장기적인 추세를 함께 모델링하기 위해 주기 커널과 선형 커널을 더할 수 있다.

가우시안 과정 모델의 실제 적용에서는 공분산 함수에 포함된 하이퍼파라미터(hyperparameter, 예: 길이 척도 \ell, 잡음 표준 편차 \sigma, 마테른 커널의 \nu 등)의 값을 결정해야 한다. 이 값들은 모델의 구체적인 동작을 결정하며, 주어진 데이터에 가장 적합한 값을 찾는 과정이 필요하다. 일반적으로 사용되는 방법 중 하나는 데이터가 주어졌을 때 하이퍼파라미터의 사후 확률을 최대화하는 값, 즉 최대 사후 확률(Maximum A Posteriori, MAP) 추정치를 찾는 것이다. 만약 하이퍼파라미터에 대한 사전 분포가 특별한 정보를 주지 않는 균일 분포(uniform distribution)라면, 이는 관측된 데이터 y에 대한 주변 우도(marginal likelihood)를 최대화하는 것과 동일하다. 이 접근 방식은 최대 우도 II(Maximum Likelihood II), 증거 최대화(Evidence Maximization), 또는 경험적 베이즈(Empirical Bayes)라고도 불린다.[9]

3. 3. 정상성

일반적인 확률 과정의 경우 엄격 정상성은 광의 정상성을 의미하지만, 모든 광의 정상 확률 과정이 엄격 정상 확률 과정인 것은 아니다. 그러나 가우시안 확률 과정의 경우 이 두 개념은 동일하다는 중요한 특징을 갖는다.[3]

가우시안 확률 과정은 광의 정상성을 만족할 때와, 그리고 그 때만 엄격 정상성을 만족한다.

3. 4. 연속성

가우시안 과정의 경우, 확률적 연속성은 평균 제곱 연속성과 동일하며,[10] 확률 1로의 연속성은 표본 연속성과 동일하다.[11] 후자는 확률적 연속성을 함의하지만, 그 역은 성립하지 않는다.

확률적 연속성은 평균과 자기 공분산이 연속 함수일 때에만 성립한다. 반대로, 표본 연속성은 심지어 정상 가우시안 과정에 대해서도 어려운 문제였으며 (아마도 안드레이 콜모고로프가 처음 언급했을 것이다), 더 일반적인 과정에 대해서는 더욱 어려운 문제였다.[12][13][14][15]

일반적으로, 표본 연속적인 과정이란 표본 연속적인 수정을 허용하는 과정을 의미한다.[16][17] 정상 가우시안 과정 X=(X_t)_{t\in\R}에 대해, 그 스펙트럼에 대한 몇 가지 조건은 표본 연속성을 위한 충분 조건이지만, 필요 조건은 아니다. 때때로 Dudley-Fernique 정리라고 불리는 필요충분 조건은 다음과 같이 정의된 함수 \sigma를 포함한다.

\sigma(h) = \sqrt{ {\mathbb E} \big[ X(t+h) - X(t) \big]^2 }

(우변은 정상성으로 인해 t에 의존하지 않는다). 확률에서 X의 연속성은 \sigma0에서의 연속성과 동일하다. \sigma(h)0으로 수렴하는 속도(as h\to 0)가 너무 느리면, X의 표본 연속성이 실패할 수 있다. 다음 적분의 수렴이 중요하다.

I(\sigma) = \int_0^1 \frac{ \sigma(h) }{ h \sqrt{ \log(1/h) } } \, dh = \int_0^\infty 2\sigma( e^{-x^2}) \, dx ,

이 두 적분은 치환 적분 h = e^{-x^2}, x = \sqrt{\log(1/h)} 에 따라 같다. 첫 번째 피적분 함수는 h\to 0+일 때 유계일 필요가 없으므로, 적분은 수렴(I(\sigma)<\infty)하거나 발산(I(\sigma)=\infty)할 수 있다. 예를 들어, \sigma( e^{-x^2}) = \tfrac{1}{x^a} (큰 x에 대해), 즉 \sigma(h) = (\log(1/h))^{-a/2} (작은 h에 대해)로 하면 a>1일 때 I(\sigma)<\infty이고, 0 < a\le 1일 때 I(\sigma)=\infty가 된다.

이 두 경우에서 함수 \sigma[0,\infty)에서 증가하지만, 일반적으로 그렇지 않다. 또한, 다음 조건

(∗) \sigma[0,\varepsilon]에서 단조로운 \varepsilon > 0가 존재한다

\sigma의 연속성과 명백한 관계 \sigma(h) \ge 0(모든 h에 대해) 및 \sigma(0) = 0에서 나오지 않는다.
정리 1: \sigma가 연속이고 (∗)을 만족한다고 하자. 그러면 I(\sigma) < \infty 조건은 X의 표본 연속성에 대한 필요충분 조건이다.

약간의 역사.[17] 충분성은 1964년에 자비에 페르니크(Xavier Fernique)에 의해 발표되었지만, 첫 번째 증명은 1967년에 리처드 M. 더들리(Richard M. Dudley)에 의해 발표되었다.[16] 필요성은 1970년에 마이클 B. 마커스(Michael B. Marcus)와 로렌스 셰프(Lawrence Shepp)에 의해 증명되었다.[18]

I(\sigma)=\infty인 표본 연속 과정 X가 존재하며, 이러한 과정은 조건 (∗)을 위반한다. 마커스와 셰프가 찾은 예시[18]는 다음과 같은 임의의 틈새 푸리에 급수(lacunary Fourier series)이다.

X_t = \sum_{n=1}^\infty c_n ( \xi_n \cos \lambda_n t + \eta_n \sin \lambda_n t ) ,

여기서 \xi_1,\eta_1,\xi_2,\eta_2,\dots는 표준 정규 분포를 갖는 독립적인 확률 변수이고; 주파수 0<\lambda_1<\lambda_2<\dots는 빠르게 증가하는 수열이며; 계수 c_n>0\sum_n c_n < \infty를 만족한다. 후자의 관계는 다음을 의미한다.

{\mathbb E} \sum_n c_n ( |\xi_n| + |\eta_n| ) = \sum_n c_n {\mathbb E} [ |\xi_n| + |\eta_n| ] = \text{const} \cdot \sum_n c_n < \infty,

따라서 \sum_n c_n ( |\xi_n| + |\eta_n| ) < \infty 거의 확실하게 성립하며, 이는 푸리에 급수의 균등 수렴을 거의 확실하게 보장하고, X의 표본 연속성을 보장한다.

무작위의 lacunary 푸리에 급수의 자기상관


그 자기공분산 함수

{\mathbb E}[X_t X_{t+h}] = \sum_{n=1}^\infty c_n^2 \cos \lambda_n h

는 어디에서도 단조롭지 않으며(그림 참조), 이에 해당하는 함수 \sigma,도 마찬가지이다.

\sigma(h) = \sqrt{ 2 {\mathbb E}[X_t X_t] - 2 {\mathbb E}[X_t X_{t+h}] } = 2 \sqrt{ \sum_{n=1}^\infty c_n^2 \sin^2 \frac{\lambda_n h}2 } .

4. 주요 가우시안 과정

여러 종류의 가우시안 과정이 존재하며, 각각 다른 특성을 가진다. 대표적인 예시는 다음과 같다.


  • 비너 과정: 가장 널리 연구되는 가우스 과정 중 하나로, 정상 과정은 아니지만 정상 증분을 가진다.
  • 오른슈타인-울렌베크 과정: 정상 과정인 가우스 과정이다.
  • 브라운 다리: 증분이 독립적이지 않은 가우스 과정이다.
  • 비정수 브라운 운동: 비너 과정의 정상 증분 개념을 비정수 차수(2H)까지 확장한 가우스 과정이다.

4. 1. 비너 과정 (Wiener Process)

비너 과정은 브라운 운동이라고도 불리며, 백색 잡음을 적분한 형태의 일반화된 가우시안 과정이다. 이 과정은 정상 과정은 아니지만, 정상 증분이라는 특징을 가지며, 가장 널리 연구되는 가우시안 과정 중 하나이다.

4. 2. 오른슈타인-울렌베크 과정 (Ornstein-Uhlenbeck Process)

오른슈타인-울렌베크 과정은 정상 과정인 가우스 과정이다.

4. 3. 브라운 다리 (Brownian Bridge)

브라운 다리는 증분이 독립적이지 않은 가우시안 과정이다.

4. 4. 비정수 브라운 운동 (Fractional Brownian Motion)

비정수 브라운 운동은 가우스 과정의 한 종류이다. 이는 비너 과정에서 정상 증분이 따르는 정규 분포\mathcal{N}(0,|t-s|^{2H})로 비정수 차수(2H)까지 확장한 것이다.

5. RKHS 구조와 가우시안 과정

평균이 0인 가우시안 과정 f \left\{X_t ; t\in T\right\}가 있고, 음이 아닌 정부호 공분산 함수 K가 있으며, R은 대칭적이고 양의 반정부호 함수라고 하자. 그러면 공분산 R을 갖는 가우시안 과정 X가 존재한다. 게다가, R 과 관련된 재생 커널 힐베르트 공간(RKHS)은 X의 캐머런-마틴 정리와 관련된 공간 R(H)와 일치하며, 모든 공간 R(H), H_X\mathcal{H}(K)는 등거리이다.[19] 이제부터, \mathcal{H}(R)을 양의 정부호 커널 R을 갖는 재생 커널 힐베르트 공간이라고 하자.

드리스콜의 0-1 법칙은 가우시안 과정에 의해 생성된 표본 함수를 특징짓는 결과이다:

\lim_{n\to\infty} \operatorname{tr}[K_n R_n^{-1}] < \infty,

여기서 K_nR_nn개의 점의 모든 가능한 쌍의 공분산 행렬이며, 다음을 의미한다.

\Pr[f \in \mathcal{H}(R)] = 1.

게다가,

\lim_{n\to\infty} \operatorname{tr}[K_n R_n^{-1}] = \infty

는 다음을 의미한다.[20]

\Pr[f \in \mathcal{H}(R)] = 0.

이는 K = R일 때 다음과 같은 중요한 의미를 갖는다.

\lim_{n \to \infty} \operatorname{tr}[R_n R_n^{-1}] = \lim_{n\to\infty}\operatorname{tr}[I] = \lim_{n \to \infty} n = \infty.

이와 같이, 양의 정부호 커널 K를 갖는 평균이 0인 가우시안 과정의 거의 모든 표본 경로는 힐베르트 공간 \mathcal{H}(K) 밖에 놓이게 된다.

6. 선형 제약 조건과 가우시안 과정

관심 있는 여러 응용 분야에서는 대상 시스템에 대한 기존 지식이 이미 주어져 있는 경우가 있다. 예를 들어 가우시안 과정의 출력이 자기장에 해당한다고 가정해 보자. 실제 자기장은 맥스웰 방정식이라는 물리 법칙에 의해 제한되는데, 이러한 제약 조건을 가우시안 과정 모델에 통합하면 알고리즘의 정확도를 향상시킬 수 있으므로 바람직하다.

가우시안 과정에 선형 제약 조건을 통합하는 방법은 이미 알려져 있다.[21]

어떤 선형 연산자 \mathcal{F}_X에 대해 \mathcal{F}_X(f(x)) = 0이라는 선형 제약을 따르는 것으로 알려진 (벡터 값) 출력 함수 f(x)를 생각해 보자.

\mathcal{F}_X(f(x)) = 0.

이때, g(x) \sim \mathcal{GP}(\mu_g, K_g)가 가우시안 과정으로 모델링된다고 하자. 만약 모든 g에 대해 다음 조건을 만족하는 선형 변환 \mathcal{G}_X를 찾을 수 있다면,

\mathcal{F}_X(\mathcal{G}_X(g)) = 0 \qquad \forall g.

f(x) = \mathcal{G}_X(g(x))로 선택함으로써 함수 f(x)가 제약 조건 \mathcal{F}_X를 만족하도록 만들 수 있다.

\mathcal{G}_X가 주어지고 가우시안 과정이 선형 변환에 대해 닫혀 있다는 성질을 이용하면, 제약 \mathcal{F}_X를 따르는 f에 대한 가우시안 과정은 다음과 같이 표현된다.

f(x) = \mathcal{G}_X g \sim \mathcal{GP} ( \mathcal{G}_X \mu_g, \mathcal{G}_X K_g \mathcal{G}_{X'}^\mathsf{T} ).

결론적으로, 선형 제약 조건은 가우시안 과정의 평균 함수와 공분산 함수에 통합될 수 있다.

7. 응용

가우시안 과정은 다양한 분야에서 활용된다. 주요 응용 분야는 기계 학습으로, 특히 베이즈 추론에서 함수에 대한 사전 확률 분포로 사용되거나[7][23] 지도 학습 기반의 회귀 분석 문제 해결에 쓰인다. 연속적인 값을 추론하는 가우시안 과정 회귀크리깅(Kriging)이라고도 불리며,[26] 강력한 비선형 다변량 보간법 도구로 유용하다. 여러 목표 변수를 동시에 예측하는 코크리깅(Cokriging)으로 확장될 수도 있다.[26]

또한, 가우시안 과정은 확률적 수치 해석 분야에서 수치 적분, 미분 방정식 풀이, 최적화와 같은 수치 해석 문제를 해결하는 데에도 사용된다.

이 외에도 전문가 혼합 모델(mixture of experts model)의 구성 요소로 사용되거나,[28][29] 자연 과학 분야에서 천문 시계열 데이터의 확률적 모델링, 분자 특성 예측,[30] 힘장(force field) 최적화를 위한 대리 모델(surrogate model) 등으로 활용되고 있다.[31]

7. 1. 기계 학습

제곱 지수 커널을 사용한 가우시안 과정 회귀(예측). 왼쪽 그림은 사전 함수 분포에서 추출한 그림이다. 중간은 사후 분포에서 추출한 그림이다. 오른쪽은 평균 예측이며, 1 표준 편차는 음영 처리되어 있다.


가우시안 과정은 기계 학습 분야, 특히 베이즈 추론에서 함수에 대한 사전 확률 분포로 사용될 수 있다.[7][23] 함수의 원하는 정의역(domain)에서 임의의 ''N''개의 점이 주어졌을 때, 특정 커널을 사용하여 이 ''N''개 점들의 그람 행렬을 계산하고, 이를 공분산 행렬 매개변수로 하는 다변량 가우스 분포를 정의한다. 이 분포에서 샘플링하여 함수를 표현할 수 있다.

가우시안 과정은 연속적인 값의 예측 문제인 회귀 분석에 널리 사용된다. 가우시안 과정 사전 분포를 이용한 연속 값 추론은 가우시안 과정 회귀(Gaussian Process Regression, GPR) 또는 크리깅(Kriging)으로 알려져 있으며,[26] 이는 강력한 비선형 다변량 보간법 도구로 유용하다. 여러 개의 목표 변수를 동시에 예측하도록 확장된 기법은 코크리깅(Cokriging)이라고 한다.[26] 벡터 값 함수에 대한 가우시안 과정 회귀는 다중 출력 예측 문제를 해결하기 위해 개발되었으며, 모든 입력 및 출력 변수 간의 상관관계를 설명하는 '큰' 공분산 행렬을 구성한다.[24] 이러한 접근 방식은 행렬 값 가우시안 과정으로 확장되었고,[25] 혼합 정수 입력의 경우에도 적용되도록 확장되었다.[27]

가우시안 과정은 확률적 수치 해석 분야에서도 수치 적분, 미분 방정식 풀이, 최적화와 같은 수치 분석 문제를 해결하는 데 사용된다. 특히 베이즈 최적화에서 대리 모델(surrogate model)로 활용되어 함수의 최댓값 또는 최솟값을 효율적으로 찾는 데 기여하며, 예측의 불확실성을 정량화하는 데 유용하다.

더 복잡한 문제에서는 단일 가우시안 과정 모델만으로는 데이터의 패턴을 잘 포착하기 어려울 수 있다. 이런 경우, 관찰 공간을 여러 하위 집합으로 나누고 각 하위 집합을 서로 다른 매핑 함수(가우시안 과정)로 모델링하는 전문가 혼합 모델(mixture of experts model)을 사용할 수 있다.[28][29]

일반적인 가우시안 과정 회귀(크리깅) 문제에서, 좌표 x에서 관측된 가우시안 과정 f에 대해, 값의 벡터 f(x)는 관측된 좌표 n개의 수와 같은 차원의 다변량 가우시안 분포에서 추출된 단일 표본이라고 가정한다. 평균이 0인 분포를 가정하면, f(x') \sim N(0, K(\theta, x, x'))이며, 여기서 K(\theta, x, x')는 주어진 하이퍼파라미터 집합 \theta에 대해 모든 가능한 점 쌍 (x, x') 간의 공분산 행렬이다.

로그 주변 가능성(log marginal likelihood)은 다음과 같이 주어진다.



\log p(f(x')\mid\theta,x) = -\frac{1}{2} \left(f(x)^\mathsf{T} K(\theta,x,x')^{-1} f(x') + \log \det(K(\theta,x,x')) + n \log 2\pi \right)



이 주변 가능성을 하이퍼파라미터 \theta에 대해 최대화하면 가우시안 과정 f가 완전히 명시된다. 여기서 첫 번째 항은 모델이 관측값을 잘 맞추지 못할 때 커지는 페널티 항이고, 두 번째 항은 모델의 복잡도에 비례하는 페널티 항이다. \theta가 결정되면, 새로운 좌표 x^*에서의 예측값 f(x^*)는 예측 분포 p(y^*\mid x^*,f(x),x) = N(y^*\mid A,B)에서 표본을 추출하여 얻을 수 있다. 여기서 사후 평균 추정 A와 사후 분산 추정 B는 다음과 같다.



A = K(\theta,x^*,x) K(\theta,x,x')^{-1} f(x)





B = K(\theta,x^*,x^*) - K(\theta,x^*,x) K(\theta,x,x')^{-1} K(\theta,x^*,x)^\mathsf{T}



여기서 K(\theta, x^*, x)는 새로운 점 x^*와 기존 관측점 x 간의 공분산, K(\theta, x, x')는 기존 관측점들 간의 공분산, f(x)는 관측값 벡터, K(\theta, x^*, x^*)는 점 x^*에서의 분산이다. 예측 평균 A는 관측값 f(x)의 선형 결합이며, 예측 분산 B는 관측값 자체와는 무관하다는 특징이 있다.

가우시안 과정의 주요 단점 중 하나는 계산 복잡도이다. 추론 및 가능도 평가에 필요한 계산량이 데이터 점의 수 n의 세제곱에 비례(O(n^3))하기 때문에 대규모 데이터셋에는 적용하기 어렵다. 이 문제를 해결하기 위해 전체 데이터 대신 일부 '대표' 데이터 점만을 사용하여 계산량을 줄이는 희소 가우시안 과정(sparse Gaussian process) 방법들이 연구되고 있다.[32][33]

요약하면, 가우시안 과정은 기계 학습 분야에서 지도 학습 기반의 회귀 분석 문제에 효과적으로 응용된다. 평균 함수와 공분산 함수(커널)를 정의하고 데이터가 해당 가우시안 과정을 따른다고 가정하면, 새로운 입력에 대한 예측값의 평균과 분산(불확실성)을 추정할 수 있다.

7. 2. 시계열 분석

자연 과학 분야에서 가우시안 과정은 시계열 데이터의 확률적 모델로 활용된다.[30] 특히 천문학 분야에서 시계열 데이터를 분석하고 모델링하는 데 사용된 사례가 있다.[30]

7. 3. 공간 통계학

가우시안 과정을 이용한 연속 값의 추론은 가우시안 과정 회귀 또는 크리깅으로 알려져 있다.[26] 크리깅은 특히 공간 데이터의 보간 및 예측에 사용되는 핵심 기법으로, 가우시안 과정은 이러한 크리깅의 이론적 기반을 제공하며 강력한 비선형 다변량 보간 도구로 활용된다.[26] 가우시안 과정 회귀를 여러 목표 변수로 확장하는 것을 ''코크리깅''이라고 부른다.[26] 또한 크리깅은 정수와 실수가 혼합된 입력 값에 대해서도 가우시안 과정을 확장하여 적용할 수 있다.[27]

7. 4. 수치 해석

가우시안 과정은 수치 적분, 미분 방정식 풀이, 최적화와 같은 확률적 수치 해석 분야의 수치 해석 문제를 해결하는 데에도 일반적으로 사용된다.

7. 5. 기타 응용

가우시안 과정은 다양한 분야에서 응용되고 있다. 예를 들어, 전문가 혼합 모델(Mixture of experts)의 맥락에서 사용될 수 있다.[28][29] 이 접근 방식은 하나의 가우시안 과정 모델만으로는 복잡한 데이터의 패턴을 충분히 설명하기 어려울 수 있다는 가정에서 출발한다. 대신, 전체 데이터 공간을 여러 하위 집합으로 나누고, 각 하위 집합에 대해 별도의 가우시안 과정 모델을 적용하여 데이터의 서로 다른 특징을 학습한다.

자연 과학 분야에서도 가우시안 과정이 활용된다. 천문학에서는 시계열 데이터의 확률적 모델을 만드는 데 사용되며, 화학에서는 분자의 특성을 예측하는 변수로 사용된다.[30] 또한, 분자 시뮬레이션 등에서 힘장(Force field)을 최적화하기 위한 대리 모델(surrogate model)로서의 사용이 증가하고 있다.[31]

베이즈 신경망은 딥 러닝인공 신경망 모델을 확률적으로 다루는 베이즈 네트워크의 한 종류로, 모델의 통계적 모수에 사전 확률을 부여하여 만들어진다. 인공 신경망은 여러 층(layer)으로 구성된 인공 뉴런으로 이루어지는데, 각 층에 있는 뉴런의 수를 층의 너비(width)라고 한다. 많은 종류의 베이즈 신경망에서 층의 너비가 무한히 커지면, 그 동작이 특정한 커널 함수를 가지는 가우시안 과정으로 근사될 수 있다. 이 특별한 가우시안 과정을 신경망 가우시안 과정(Neural Network Gaussian Process, NNGP)이라고 부른다.[7][36][37] NNGP는 베이즈 신경망의 예측 결과를 더 효율적으로 계산할 수 있게 해주며, 복잡한 딥 러닝 모델의 작동 방식을 이해하는 데 유용한 분석 도구를 제공한다.

8. 관련 소프트웨어

가우시안 과정 모델링 및 분석을 위한 다양한 소프트웨어 도구가 존재한다. 이 도구들은 MATLAB, Python, C++ 등 여러 프로그래밍 언어 환경에서 사용할 수 있으며, 기계 학습, 통계학, 지질 통계학 등 다양한 분야의 연구 및 응용에 활용된다.

8. 1. MATLAB

8. 2. Python


  • [https://github.com/SheffieldML/GPy GPy] – Python 기반의 가우시안 과정 프레임워크이다.
  • [https://github.com/GeoStat-Framework/GSTools GSTools] - Python으로 작성된 가우시안 과정 회귀를 포함한 지질 통계 툴박스이다.
  • [http://scikit-learn.org scikit-learn] – 가우시안 과정 회귀 및 분류를 포함하는 Python용 머신 러닝 라이브러리이다.
  • [https://github.com/modsim/KriKit KriKit] - 크리깅 툴킷으로, 독일의 율리히 연구 센터(FZJ) 내 생물 및 지구 과학 연구소 1(IBG-1)에서 개발되었다.

8. 3. 기타


  • [http://www.gaussianprocess.org/gpml/code/matlab/doc/ GPML]: GP 회귀 및 분류를 위한 포괄적인 Matlab 툴박스
  • [http://sourceforge.net/projects/kriging STK]: 크리깅 및 GP 모델링을 위한 소규모 (Matlab/Octave) 툴박스
  • [http://www.uqlab.com/ UQLab 프레임워크]의 크리깅 모듈 (Matlab)
  • [http://codes.arizona.edu/toolbox/ CODES 툴박스]: 크리깅, 변분 크리깅 및 다중 충실도 모델 구현 (Matlab)
  • [http://au.mathworks.com/matlabcentral/fileexchange/38880 고정 가우시안 필드]를 위한 Matlab/Octave 함수
  • [https://github.com/Yelp/MOE Yelp MOE]: 가우시안 과정 학습을 사용하는 블랙 박스 최적화 엔진
  • [http://www.sumo.intec.ugent.be/ooDACE ooDACE]: 유연한 객체 지향 크리깅 Matlab 툴박스.
  • [https://web.archive.org/web/20141009045756/http://becs.aalto.fi/en/research/bayes/gpstuff/ GPstuff]: Matlab 및 Octave용 가우시안 과정 툴박스
  • [https://github.com/SheffieldML/GPy GPy]: Python 기반의 가우시안 과정 프레임워크
  • [https://github.com/GeoStat-Framework/GSTools GSTools]: Python으로 작성된 가우시안 과정 회귀를 포함한 지질 통계 툴박스
  • [http://www.tmpl.fi/gp/ 대화형 가우시안 과정 회귀 데모]
  • [https://github.com/ChristophJud/GPR GPR]: C++11로 작성된 기본 가우시안 과정 라이브러리
  • [http://scikit-learn.org scikit-learn]: 가우시안 과정 회귀 및 분류를 포함하는 Python용 머신 러닝 라이브러리
  • [https://github.com/modsim/KriKit KriKit]: 율리히 연구 센터(FZJ)의 생물 및 지구 과학 연구소 1(IBG-1)에서 개발한 크리깅 툴킷

8. 4. 학술 자료


  • [https://gaussianprocess.org 가우시안 과정 웹 사이트] (라스무센과 윌리엄스의 '머신 러닝을 위한 가우시안 과정' 텍스트 포함)
  • Ebden, Mark (2015). [https://arxiv.org/abs/1505.02965 가우시안 과정: 간략한 소개]. arXiv:1505.02965 [math.ST].
  • [http://publications.nr.no/917_Rapport.pdf 가우시안 랜덤 필드와 상관 함수에 대한 검토]
  • [https://web.archive.org/web/20180826005000/https://pdfs.semanticscholar.org/c9f2/1b84149991f4d547b3f0f625f710750ad8d9.pdf 가우시안 과정을 사용한 효율적인 강화 학습]

참조

[1] 서적 Information Theory, Inference, and Learning Algorithms http://www.inference[...] Cambridge University Press
[2] 서적 Real Analysis and Probability Wadsworth and Brooks/Cole
[3] 서적 A Foundation in Digital Communication https://books.google[...] Cambridge University Press 2017-02-08
[4] 논문 An Explicit Representation of a Stationary Gaussian Process
[5] 서적 Pattern Recognition and Machine Learning Springer Science+Business Media
[6] 서적 Bayesian Reasoning and Machine Learning http://web4.cs.ucl.a[...] Cambridge University Press
[7] 서적 Gaussian Processes for Machine Learning http://www.gaussianp[...] MIT Press
[8] 서적 Probability and Random Processes Oxford University Press
[9] 논문 Gaussian Processes for Machine Learning
[10] 서적 Proceedings of the International Congress of Mathematicians
[11] 서적 Selected Works of R.M. Dudley 2010
[12] 서적 Upper and lower bounds for stochastic processes: modern methods and classical problems https://www.springer[...] Springer, Heidelberg
[13] 간행물 Lectures on Probability Theory and Statistics: Ecole d'Eté de Probabilités de Saint-Flour XXIV–1994 Springer
[14] 서적 An Introduction to Continuity, Extrema, and Related Topics for General Gaussian Processes Institute of Mathematical Statistics
[15] 논문 Review of: Adler 1990 'An introduction to continuity...' 1992
[16] 논문 The sizes of compact subsets of Hilbert space and continuity of Gaussian processes
[17] 서적 Proceedings of the sixth Berkeley symposium on mathematical statistics and probability, vol. II: probability theory Univ. California, Berkeley
[18] 논문 Continuity of Gaussian processes
[19] 논문 Necessary and sufficient conditions for Hölder continuity of Gaussian processes
[20] 논문 The reproducing kernel Hilbert space structure of the sample paths of a Gaussian process
[21] Arxiv Linearly constrained Gaussian processes 2017-09-19
[22] 문서 The documentation for scikit-learn also has similar examples. http://scikit-learn.[...]
[23] 서적 Kernel Adaptive Filtering: A Comprehensive Introduction http://www.cnel.ufl.[...] John Wiley & Sons 2010-03-26
[24] 논문 Kernels for vector-valued functions: A review http://eprints.white[...]
[25] 논문 Multivariate Gaussian and Student-t process regression for multi-output prediction
[26] 서적 Interpolation of Spatial Data: Some Theory for Kriging Springer Science+Business Media
[27] 논문 A mixed-categorical correlation kernel for Gaussian process
[28] 논문 Gaussian Process-Mixture Conditional Heteroscedasticity
[29] 논문 A latent variable Gaussian process model with Pitman–Yor process priors for multiclass classification
[30] 학위논문 Applications of Gaussian Processes at Extreme Lengthscales: From Molecules to Black Holes University of Cambridge
[31] 논문 Accelerated Bayesian Inference for Molecular Simulations using Local Gaussian Process Surrogate Models https://pubs.acs.org[...] 2024
[32] 논문 Sparse greedy matrix approximation for machine learning
[33] 논문 Sparse on-line Gaussian processes
[34] 논문 Bayesian Hierarchical Modeling: Application Towards Production Results in the Eagle Ford Shale of South Texas
[35] 논문 Bayesian Uncertainty Quantification with Multi-Fidelity Data and Gaussian Processes for Impedance Cardiography of Aortic Dissection 2019-12-31
[36] 논문 Neural Tangents: Fast and Easy Infinite Neural Networks in Python 2020
[37] 서적 Bayesian Learning for Neural Networks Springer Science and Business Media



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com