데이터 동화

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

데이터 동화는 예측 값과 관측 값의 차이를 기반으로 예측 값을 보정하는 기술이다. 이는 예측의 정확도를 높이기 위해 관측 값과 예측 값에 가중치를 적용하여 시스템 상태에 대한 최적의 추정치를 도출하는 과정이다. 데이터 동화는 초기 조건의 작은 변화가 예측 정확도에 큰 영향을 미치는 혼돈적인 동적 시스템에 유용하게 사용되며, 통계적 추정, 모델 업데이트, 비용 함수 최소화 등 다양한 방식으로 구현된다. 수치 일기 예보 분야에서 기상 변수의 관측값을 활용하여 수치 예보 모델을 초기화하는 데 널리 사용되며, 물과 에너지 이동 모니터링, 수문학, 자연 재해 평가, 외계 행성 대기 분석, 궤적 추정, 대기 화학 등 다양한 분야에도 적용된다. 관측 자료의 증가와 함께 데이터 동화 기술은 지속적으로 발전할 것으로 예상된다.

데이터 동화
📚 더 읽어볼만한 페이지
  • 수치적 기후 및 날씨 모형 - 기후변화 완화
    기후변화 완화는 온실가스 배출 감축과 흡수원 증진을 통해 지구 온난화를 억제하고, 지속 가능한 에너지 전환, 효율 향상, 농업 및 산업 정책, 탄소 흡수원 강화, 이산화탄소 제거 기술 개발 등 다양한 조치로 지구 온도 상승을 제한하는 노력이다.
  • 수치적 기후 및 날씨 모형 - Climateprediction.net
    Climateprediction.net은 분산 컴퓨팅을 통해 기후 모델의 불확실성을 연구하고 미래 기후 변화 예측의 정확도를 높이는 프로젝트이다.
  • 통계 예측 - 표본 분포
    표본 분포는 모집단에서 추출한 표본 통계량의 확률 분포로, 모집단 분포, 표본 크기, 추출 방법에 따라 달라지며, 중심 극한 정리에 따라 표본 크기가 크면 정규 분포에 근사하여 통계적 추론에 활용된다.
  • 통계 예측 - 베이즈 추론
    베이즈 추론은 관측된 데이터를 통해 추론 대상의 확률 분포를 업데이트하는 통계적 추론 방법이며, 베이즈 정리를 기반으로 사전 확률과 가능도를 결합하여 사후 확률을 계산하고 다양한 분야에 응용된다.
  • 추정 이론 - 기댓값 최대화 알고리즘
  • 추정 이론 - 델파이 기법
    델파이 기법은 전문가들의 의견을 반복적인 피드백을 통해 수렴하여 문제를 해결하는 하향식 의견 도출 방법으로, 익명성, 정보 흐름의 구조화, 정기적인 피드백을 특징으로 하며 다양한 분야에서 활용된다.

2. 데이터 동화의 과정

데이터 동화는 예측하기 어려운 혼돈적인 동적 시스템에 적용되어 왔다. 초기 조건의 작은 변화가 예측 정확도에 큰 변화를 가져올 수 있기 때문이다. 이는 나비 효과라고도 불리는데, 결정론적 비선형 시스템에서 초기 조건에 민감하게 의존하여 작은 변화가 큰 차이를 유발할 수 있음을 의미한다.

데이터 동화는 매 업데이트 시점에 예측(또는 최초 추측, 배경 정보)을 사용하고, 관측된 데이터와 그 예측 및 관측 자체의 추정 오차를 바탕으로 예측을 보정한다. 예측과 관측 간의 차이를 이탈 또는 혁신이라고 부르며, 이는 데이터 동화 과정에 새로운 정보를 제공한다. 이 혁신에 가중치를 적용하여 예측에 대한 보정량을 결정하고, 이를 통해 시스템 상태에 대한 최상의 추정치인 분석을 얻는다. 1차원에서는 예측 값과 관측 값의 가중 평균을 구하는 것만큼 간단할 수 있지만, 다차원에서는 더 복잡해진다. 데이터 동화에서는 시스템 오차에 대한 복잡한 지식을 바탕으로 적절한 가중치를 추정하는 것이 중요하다.

측정은 보통 모델이 아닌 실제 시스템에 대해 이루어지므로, 모델 변수를 관측과 비교 가능한 형태로 변환하는 관측 연산자(h() 또는 H)라는 특수 함수가 필요하다.

그림 1. 최초 시점의 방.
그림 1. 최초 시점의 방.

그림 2. 온도의 예측.
그림 2. 온도의 예측.

그림 3. 17℃를 가리키는 관측.
그림 3. 17℃를 가리키는 관측.

그림 4. 국소적인 수정.
그림 4. 국소적인 수정.

그림 5. 대국적인 수정.
그림 5. 대국적인 수정.


예를 들어, 20℃의 열원이 있는 방의 온도를 알고 싶다고 가정하자. 초기(t_0)에 방 전체 온도는 15℃이고, 열원은 정지해 있다. 예측은 열원에서 20℃를 적용하고 일정 시간 후 온도가 점차 감소하는 방식으로 이루어진다. 3시간 후 관측자가 18℃로 예측했던 지점에서 17℃를 측정하면, 이 정보를 바탕으로 이전 예측을 수정하는 데이터 동화를 시작한다. 예를 들어, 환기 때문에 온도가 낮아졌거나 열원이 예상보다 빨리 온도가 내려갔다고 가정할 수 있다. 이러한 과정을 통해 상황에 대한 분석을 얻는다.

온도계의 정밀도(예: +/-0.5℃ 오차)와 예측 오차(예: 방의 단열 정보 부족)를 고려하여 데이터 동화에서 관측의 영향력을 조정한다. 이러한 오차의 차이는 수학적 형식화를 통해 더 명확하게 나타난다.

2.1. 통계적 추정으로서의 데이터 동화

데이터 동화는 베이즈 정리를 적용한 재귀 베이즈 추정 문제로 볼 수 있다. 이 관점에서 분석 단계는 베이즈 정리의 적용이며, 전체 동화 절차는 재귀 베이즈 추정의 한 예이다. 그러나 실제 계산에서는 여러 제약으로 인해 단순화된 형태로 수행된다.

시간에 따른 확률 분포의 변화는 일반적인 경우 포커-플랑크 방정식으로 정확하게 나타낼 수 있지만, 고차원 시스템에서는 실행 가능하지 않다. 따라서 확률 분포를 단순화된 표현으로 근사하는 다양한 방법이 사용된다.

흔히 확률 분포는 정규 분포로 가정되며, 이 경우 평균과 공분산으로 표현할 수 있다. 이는 칼만 필터의 기반이 된다. 확률 분포를 평균과 미리 계산된 공분산으로 표현하는 방법 중 하나는 최적 통계적 보간(OI)이다.

다른 접근 방식으로는 비용 함수를 반복적으로 풀어 문제를 해결하는 3D-Var, 4D-Var와 같은 변분 방법이 있다. 켤레 기울기 방법이나 일반화된 최소 잔차 방법과 같은 알고리즘이 사용된다.

앙상블 칼만 필터는 몬테카를로 접근 방식을 사용하여 앙상블 시뮬레이션을 통해 가우스 확률 분포의 평균과 공분산을 모두 추정하는 순차적 방법이다. 최근에는 앙상블 접근 방식과 변분 방법의 하이브리드 조합이 많이 사용되고 있다. (예: 유럽 중기 예보 센터(ECMWF), NOAA 국립 환경 예측 센터(NCEP)).

2.2. 모델 업데이트로서의 데이터 동화

데이터 동화는 모델 업데이트 루프 내에서 수행될 수 있으며, 여기서 관측된 데이터에 모델을 제약하기 위해 최적화 루프에서 초기 모델(또는 초기 추정)을 반복한다. 많은 최적화 접근 방식이 존재하며, 모든 접근 방식은 모델을 업데이트하도록 설정할 수 있다. 예를 들어, 진화 알고리즘은 가설에 구애받지 않으면서 효율적인 것으로 입증되었지만 계산 비용이 많이 든다.

그림 1. 최초 시점의 방.
그림 1. 최초 시점의 방.


20℃의 열원과 같은 점이 배치된 방의 온도를 알고 싶다고 가정해 보자. 열원은 정지해 있다. 시간 t_0에서 방 전체를 15℃로 한다. 열원의 열은 능동적으로 변화하며, 관측자는 방 밖에 있다고 가정한다. 예측은 다음 두 가지를 언급하는 것으로 구성된다. 하나는 열원의 점에서 20℃를 적용하고 일정 시간 d_t 후의 마지막 온도를 적용하는 것이고, 다른 하나는 이로부터 멀어짐에 따라 점차 식어가는 것이다. 방의 공간 요소에서 유효한 예측에서, 이것들이 작용한다.

관측자는 3시간 후에 다시 검토한다. 18℃로 예측했던 곳에서, 한 측정점에서 17℃를 가리키며 온도계가 멈춘다. 이 정보로 직전의 예측을 수정하는 데이터 동화를 시작하는 것을 생각한다. 예를 들어, 국소적으로는 환기가 이 온도를 낮춘다는 것을 가정한다. 또는 열원이 아직 또는 너무 빨리 온도가 내려간다는 것을 가정한다. 그렇게 해서 그 상황의 분석을 얻는다.

👆
좌우로 밀어서 보기
그림 2. 온도의 예측.
그림 2. 온도의 예측.
그림 3. 17℃를 가리키는 관측.
그림 3. 17℃를 가리키는 관측.
그림 4. 국소적인 수정.
그림 4. 국소적인 수정.
그림 5. 대국적인 수정.
그림 5. 대국적인 수정.


그 온도계는 결코 정밀도가 좋지 않다. 예를 들어 +/-0.5℃의 오차이다. 온도계의 정밀도 결함에 따른 관측 오차에 대한 지식은 데이터 동화 시 이 관측의 영향을 줄인다. 예측 오차에 대한 지식(예: 해당 방의 정확한 단열에 대한 정보 부족)은 다른 방향으로 사용된다. 이러한 양상의 차이는 수학적 형식화 후에 더 잘 나타난다.

2.3. 비용 함수

데이터 동화에서 분석 값을 생성하기 위해 비용 함수를 최소화하는 방법을 사용한다. 일반적인 비용 함수는 관측 값의 정확도로 가중된 분석 값과 관측 값의 제곱 편차 합, 그리고 예측의 정확도로 가중된 예측장과 분석장의 제곱 편차 합으로 구성된다. 이는 분석이 일반적으로 신뢰할 수 있는 것으로 알려진 관측 및 예측으로부터 너무 멀리 벗어나지 않도록 하는 효과를 가진다.

비용 함수는 다음과 같이 표현된다.

:J(\mathbf{x}) = (\mathbf{x}-\mathbf{x}_{b})^{\mathrm{T}}\mathbf{B}^{-1}(\mathbf{x}-\mathbf{x}_{b}) + (\mathbf{y}-\mathit{H}[\mathbf{x}])^{\mathrm{T}}\mathbf{R}^{-1}(\mathbf{y}-\mathit{H}[\mathbf{x}]),

여기서 \mathbf{B}는 배경 오차 공분산을, \mathbf{R}은 관측 오차 공분산을 나타낸다. \mathit{H}는 관측 연산자이다.

시간에 따라 관측 값이 변하는 경우, 비용 함수는 다음과 같이 표현할 수 있다.

:J(\mathbf{x}) = (\mathbf{x}-\mathbf{x}_{b})^{\mathrm{T}}\mathbf{B}^{-1}(\mathbf{x}-\mathbf{x}_{b}) + \sum_{i=0}^{n}(\mathbf{y}_{i}-\mathit{H}_{i}[\mathbf{x}_{i}])^{\mathrm{T}}\mathbf{R}_{i}^{-1}(\mathbf{y}_{i}-\mathit{H}_{i}[\mathbf{x}_{i}])

이러한 비용 함수를 최소화하는 방법으로 3D-Var, 4D-Var 등의 방법이 사용된다.

3. 수치 일기 예보에서의 활용

수치 일기 예보(NWP)에서 데이터 동화는 온도기압과 같은 기상 변수의 관측값을 이전 예보와 결합하여 수치 예보 모델을 초기화하는 방법으로 널리 알려져 있다. 세계 기상 기구는 이러한 관측의 전 세계적인 기기 표준화, 관측 관행 및 시기를 관리한다. 기상 관측소는 METAR 보고서에서 매시간 또는 SYNOP 보고서에서 6시간마다 보고한다. 이러한 관측은 불규칙하게 간격을 두고 있으므로, 데이터 동화 및 객관적 분석 방법을 통해 처리되며, 이 과정에서 품질 관리가 수행되고 모델의 수학적 알고리즘에서 사용할 수 있는 위치의 값을 얻는다.

관측 데이터 수집에는 다양한 방법이 사용된다. 관측소에서는 대류권성층권으로 상승하는 기상 관측 기구인 라디오존데를 발사한다. 기존 데이터 소스를 사용할 수 없는 경우 기상 위성의 정보를 사용한다. 상업적인 측면에서는 항공기 경로를 따라 파일럿 보고를 제공하고, 해상 운송 경로를 따라 선박 보고서를 제공한다. 연구 프로젝트에서는 기상 정찰기를 사용하여 열대 저기압과 같은 관심 있는 기상 시스템 안팎을 비행한다.

3.1. 필요성

대기는 유체이다. 수치 일기 예보는 유체 역학과 열역학 방정식을 사용하여 미래의 특정 시간에 유체의 상태를 추정한다. 관측 데이터를 모델에 입력하여 초기값 문제를 생성하는 과정을 "초기화"라고 한다.

3.2. 역사

--
루이스 프라이 리처드슨은 1922년에 수치적 날씨 예측을 최초로 시도했으나, 초기 조건의 불균형으로 인해 큰 오차가 발생했다. 리처드슨은 빌헬름 비에르크네스의 원시 방정식을 사용하여 중앙 유럽 두 지점의 6시간 뒤 날씨를 예측했지만, 145mbar라는 비현실적인 대기압 변화를 예측하여 실패했다.

이후 기상학자들의 전문성을 활용하는 "주관적 분석" 방법이 사용되었고, 자동화를 위한 "객관적 분석"(예: 크레스만 알고리즘) 방법이 도입되었다. 이러한 방법들은 3차원 데이터 동화(3DDA) 방법이었다.

시간이 지남에 따라, MM5 (기상 모델) 모델과 같이 "누징"이라고 하는 4차원 데이터 동화(4DDA) 방법이 개발되었다. 누징은 뉴턴의 완화 법칙을 기반으로 하며, 관측값과 계산값의 차이에 비례하는 항을 모델 방정식에 추가하여 계산된 상태 벡터를 관측값에 가깝게 유지한다.

L. 간딘은 1963년에 "통계적 보간"(최적 보간) 방법을 도입하여 3DDA 방법을 발전시켰다. 이 방법은 이전 예보와 실제 오류의 공분산 함수에 대한 정보를 활용하는 회귀 분석의 일종이다.

칼만 필터 알고리즘을 NWP 모델에 도입하려는 시도가 있었으나, 방대한 계산량으로 인해 어려움을 겪었다. 이를 극복하기 위해 앙상블 칼만 필터와 같은 근사 알고리즘이 개발되었다.

최적 제어 이론(변분적 접근 방식)을 활용한 4DDA 방법은 Le Dimet과 Talagrand(1986)에 의해 개발되었다. 이 방법은 기상 필드가 NWP 모델의 방정식을 만족시키면서 관측값과의 차이를 최소화하는 함수를 찾는다.

현재 예보 센터에서는 하이브리드 증분 4D-Var 방법이 운영 방식으로 사용되고 있다. 이 방법은 앙상블을 사용하여 데이터 동화 시간 창 시작 시 기후 배경 오류 공분산을 보강하고, 단순화된 NWP 예보 모델을 통해 시간 창 동안 배경 오류 공분산을 진화시킨다.

4. 기타 활용 분야

데이터 동화는 물과 에너지 이동을 모니터링하는 데 활용되어 왔다. 1980년대와 1990년대에 여러 HAPEX (수문 및 대기 파일럿 실험) 프로젝트에서 토양, 식생, 대기 사이의 에너지 전달을 관찰하는 데 사용되었다. 예를 들면 다음과 같다.

* HAPEX-MobilHy
* HAPEX-Sahel
* 프랑스 남동부 알피유 지역에서 진행된 FP4-ENV 프로그램의 유럽 프로젝트 "Alpilles-ReSeDA"(원격 감지 데이터 동화) 실험 (1996-97)



이 외에도 데이터 동화는 다음과 같은 다양한 분야에서 활용되고 있다.

* 수문학 및 지하수 예측: 수문학 및 지하수 예측과 같은 환경 예측 문제에 사용된다.
* 자연 재해 평가: 베이즈 네트워크는 산사태와 같은 자연 재해 평가를 위한 데이터 동화 접근 방식에 활용될 수 있다.
* 외계 행성 대기 분석: 외계 행성의 대기 상태를 재분석하는 데 적용된다. 화성은 데이터 동화가 적용된 대표적인 외계 행성이다. 미국 항공우주국(NASA)의 화성 탐사선에 탑재된 열 방출 분광계와 화성 정찰 궤도선에 탑재된 화성 기후 감지기로부터 얻은 온도 및 먼지/물/얼음의 광학 두께 데이터를 활용한다. 이러한 데이터에 분석 보정 방식과 두 개의 앙상블 칼만 필터 방식이 적용되었으며, 두 방식 모두 화성 대기의 전방 모델로 전 지구 순환 모델을 사용한다. 화성 분석 보정 데이터 동화(MACDA) 데이터 세트는 영국 대기 데이터 센터에서 공개적으로 이용할 수 있다.
* 궤적 추정: 아폴로 계획, GPS 등 궤적 추정에도 활용된다.
* 대기 화학: 대기 화학 분야에서도 사용된다.

5. 미래 발전 방향

관측 자료 활용 증가와 다양한 종류의 관측 자료(소다, 레이더, 위성)의 증가로 인해 데이터 동화 기술의 발전이 가속화될 것으로 예상된다.