데이터 동화
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
데이터 동화는 예측 값과 관측 값의 차이를 기반으로 예측 값을 보정하는 기술이다. 이는 예측의 정확도를 높이기 위해 관측 값과 예측 값에 가중치를 적용하여 시스템 상태에 대한 최적의 추정치를 도출하는 과정이다. 데이터 동화는 초기 조건의 작은 변화가 예측 정확도에 큰 영향을 미치는 혼돈적인 동적 시스템에 유용하게 사용되며, 통계적 추정, 모델 업데이트, 비용 함수 최소화 등 다양한 방식으로 구현된다. 수치 일기 예보 분야에서 기상 변수의 관측값을 활용하여 수치 예보 모델을 초기화하는 데 널리 사용되며, 물과 에너지 이동 모니터링, 수문학, 자연 재해 평가, 외계 행성 대기 분석, 궤적 추정, 대기 화학 등 다양한 분야에도 적용된다. 관측 자료의 증가와 함께 데이터 동화 기술은 지속적으로 발전할 것으로 예상된다.
데이터 동화는 예측하기 어려운 혼돈적인 동적 시스템에 적용되어 왔다. 초기 조건의 작은 변화가 예측 정확도에 큰 변화를 가져올 수 있기 때문이다. 이는 나비 효과라고도 불리는데, 결정론적 비선형 시스템에서 초기 조건에 민감하게 의존하여 작은 변화가 큰 차이를 유발할 수 있음을 의미한다.
2. 데이터 동화의 과정
데이터 동화는 매 업데이트 시점에 '''예측'''(또는 '''최초 추측''', '''배경''' 정보)을 사용하고, 관측된 데이터와 그 예측 및 관측 자체의 추정 오차를 바탕으로 예측을 보정한다. 예측과 관측 간의 차이를 '''이탈''' 또는 '''혁신'''이라고 부르며, 이는 데이터 동화 과정에 새로운 정보를 제공한다. 이 혁신에 가중치를 적용하여 예측에 대한 보정량을 결정하고, 이를 통해 시스템 상태에 대한 최상의 추정치인 '''분석'''을 얻는다. 1차원에서는 예측 값과 관측 값의 가중 평균을 구하는 것만큼 간단할 수 있지만, 다차원에서는 더 복잡해진다. 데이터 동화에서는 시스템 오차에 대한 복잡한 지식을 바탕으로 적절한 가중치를 추정하는 것이 중요하다.
측정은 보통 모델이 아닌 실제 시스템에 대해 이루어지므로, 모델 변수를 관측과 비교 가능한 형태로 변환하는 '''관측 연산자'''(''h()'' 또는 '''H''')라는 특수 함수가 필요하다.
예를 들어, 20℃의 열원이 있는 방의 온도를 알고 싶다고 가정하자. 초기()에 방 전체 온도는 15℃이고, 열원은 정지해 있다. 예측은 열원에서 20℃를 적용하고 일정 시간 후 온도가 점차 감소하는 방식으로 이루어진다. 3시간 후 관측자가 18℃로 예측했던 지점에서 17℃를 측정하면, 이 정보를 바탕으로 이전 예측을 수정하는 데이터 동화를 시작한다. 예를 들어, 환기 때문에 온도가 낮아졌거나 열원이 예상보다 빨리 온도가 내려갔다고 가정할 수 있다. 이러한 과정을 통해 상황에 대한 분석을 얻는다.
온도계의 정밀도(예: +/-0.5℃ 오차)와 예측 오차(예: 방의 단열 정보 부족)를 고려하여 데이터 동화에서 관측의 영향력을 조정한다. 이러한 오차의 차이는 수학적 형식화를 통해 더 명확하게 나타난다.
2. 1. 통계적 추정으로서의 데이터 동화
데이터 동화는 베이즈 정리를 적용한 재귀 베이즈 추정 문제로 볼 수 있다. 이 관점에서 분석 단계는 베이즈 정리의 적용이며, 전체 동화 절차는 재귀 베이즈 추정의 한 예이다. 그러나 실제 계산에서는 여러 제약으로 인해 단순화된 형태로 수행된다.
시간에 따른 확률 분포의 변화는 일반적인 경우 포커-플랑크 방정식으로 정확하게 나타낼 수 있지만, 고차원 시스템에서는 실행 가능하지 않다. 따라서 확률 분포를 단순화된 표현으로 근사하는 다양한 방법이 사용된다.
흔히 확률 분포는 정규 분포로 가정되며, 이 경우 평균과 공분산으로 표현할 수 있다. 이는 칼만 필터의 기반이 된다. 확률 분포를 평균과 미리 계산된 공분산으로 표현하는 방법 중 하나는 최적 통계적 보간(OI)이다.
다른 접근 방식으로는 비용 함수를 반복적으로 풀어 문제를 해결하는 3D-Var, 4D-Var와 같은 변분 방법이 있다. 켤레 기울기 방법이나 일반화된 최소 잔차 방법과 같은 알고리즘이 사용된다.
앙상블 칼만 필터는 몬테카를로 접근 방식을 사용하여 앙상블 시뮬레이션을 통해 가우스 확률 분포의 평균과 공분산을 모두 추정하는 순차적 방법이다. 최근에는 앙상블 접근 방식과 변분 방법의 하이브리드 조합이 많이 사용되고 있다. (예: 유럽 중기 예보 센터(ECMWF), NOAA 국립 환경 예측 센터(NCEP)).
2. 2. 모델 업데이트로서의 데이터 동화
데이터 동화는 모델 업데이트 루프 내에서 수행될 수 있으며, 여기서 관측된 데이터에 모델을 제약하기 위해 최적화 루프에서 초기 모델(또는 초기 추정)을 반복한다. 많은 최적화 접근 방식이 존재하며, 모든 접근 방식은 모델을 업데이트하도록 설정할 수 있다. 예를 들어, 진화 알고리즘은 가설에 구애받지 않으면서 효율적인 것으로 입증되었지만 계산 비용이 많이 든다.[1]
20℃의 열원과 같은 점이 배치된 방의 온도를 알고 싶다고 가정해 보자.[1] 열원은 정지해 있다. 시간 에서 방 전체를 15℃로 한다. 열원의 열은 능동적으로 변화하며, 관측자는 방 밖에 있다고 가정한다.[1] 예측은 다음 두 가지를 언급하는 것으로 구성된다. 하나는 열원의 점에서 20℃를 적용하고 일정 시간 후의 마지막 온도를 적용하는 것이고, 다른 하나는 이로부터 멀어짐에 따라 점차 식어가는 것이다. 방의 공간 요소에서 유효한 예측에서, 이것들이 작용한다.[1]
관측자는 3시간 후에 다시 검토한다. 18℃로 예측했던 곳에서, 한 측정점에서 17℃를 가리키며 온도계가 멈춘다. 이 정보로 직전의 예측을 수정하는 데이터 동화를 시작하는 것을 생각한다. 예를 들어, 국소적으로는 환기가 이 온도를 낮춘다는 것을 가정한다. 또는 열원이 아직 또는 너무 빨리 온도가 내려간다는 것을 가정한다. 그렇게 해서 그 상황의 분석을 얻는다.[1]
그 온도계는 결코 정밀도가 좋지 않다. 예를 들어 +/-0.5℃의 오차이다. 온도계의 정밀도 결함에 따른 관측 오차에 대한 지식은 데이터 동화 시 이 관측의 영향을 줄인다. 예측 오차에 대한 지식(예: 해당 방의 정확한 단열에 대한 정보 부족)은 다른 방향으로 사용된다. 이러한 양상의 차이는 수학적 형식화 후에 더 잘 나타난다.[1]
2. 3. 비용 함수
데이터 동화에서 분석 값을 생성하기 위해 비용 함수를 최소화하는 방법을 사용한다. 일반적인 비용 함수는 관측 값의 정확도로 가중된 분석 값과 관측 값의 제곱 편차 합, 그리고 예측의 정확도로 가중된 예측장과 분석장의 제곱 편차 합으로 구성된다. 이는 분석이 일반적으로 신뢰할 수 있는 것으로 알려진 관측 및 예측으로부터 너무 멀리 벗어나지 않도록 하는 효과를 가진다.비용 함수는 다음과 같이 표현된다.
:
여기서 는 배경 오차 공분산을, 은 관측 오차 공분산을 나타낸다. 는 관측 연산자이다.
시간에 따라 관측 값이 변하는 경우, 비용 함수는 다음과 같이 표현할 수 있다.
:
이러한 비용 함수를 최소화하는 방법으로 3D-Var, 4D-Var 등의 방법이 사용된다.
3. 수치 일기 예보에서의 활용
수치 일기 예보(NWP)에서 데이터 동화는 온도 및 기압과 같은 기상 변수의 관측값을 이전 예보와 결합하여 수치 예보 모델을 초기화하는 방법으로 널리 알려져 있다. 세계 기상 기구는 이러한 관측의 전 세계적인 기기 표준화, 관측 관행 및 시기를 관리한다. 기상 관측소는 METAR 보고서[3]에서 매시간 또는 SYNOP 보고서[4]에서 6시간마다 보고한다. 이러한 관측은 불규칙하게 간격을 두고 있으므로, 데이터 동화 및 객관적 분석 방법을 통해 처리되며, 이 과정에서 품질 관리가 수행되고 모델의 수학적 알고리즘에서 사용할 수 있는 위치의 값을 얻는다.[5]
관측 데이터 수집에는 다양한 방법이 사용된다. 관측소에서는 대류권과 성층권으로 상승하는 기상 관측 기구인 라디오존데를 발사한다.[8] 기존 데이터 소스를 사용할 수 없는 경우 기상 위성의 정보를 사용한다. 상업적인 측면에서는 항공기 경로를 따라 파일럿 보고를 제공하고,[9] 해상 운송 경로를 따라 선박 보고서를 제공한다.[10] 연구 프로젝트에서는 기상 정찰기를 사용하여 열대 저기압과 같은 관심 있는 기상 시스템 안팎을 비행한다.[11][12]
3. 1. 필요성
대기는 유체이다. 수치 일기 예보는 유체 역학과 열역학 방정식을 사용하여 미래의 특정 시간에 유체의 상태를 추정한다. 관측 데이터를 모델에 입력하여 초기값 문제를 생성하는 과정을 "초기화"라고 한다.[2]3. 2. 역사
루이스 프라이 리처드슨은 1922년에 수치적 날씨 예측을 최초로 시도했으나, 초기 조건의 불균형으로 인해 큰 오차가 발생했다. 리처드슨은 빌헬름 비에르크네스의 원시 방정식을 사용하여[16] 중앙 유럽 두 지점의 6시간 뒤 날씨를 예측했지만, 145mbar라는 비현실적인 대기압 변화를 예측하여 실패했다.[17]이후 기상학자들의 전문성을 활용하는 "주관적 분석" 방법이 사용되었고, 자동화를 위한 "객관적 분석"(예: 크레스만 알고리즘) 방법이 도입되었다. 이러한 방법들은 3차원 데이터 동화(3DDA) 방법이었다.
시간이 지남에 따라, MM5 (기상 모델) 모델과 같이 "누징"이라고 하는 4차원 데이터 동화(4DDA) 방법이 개발되었다. 누징은 뉴턴의 완화 법칙을 기반으로 하며, 관측값과 계산값의 차이에 비례하는 항을 모델 방정식에 추가하여 계산된 상태 벡터를 관측값에 가깝게 유지한다.
L. 간딘은 1963년에 "통계적 보간"(최적 보간) 방법을 도입하여 3DDA 방법을 발전시켰다. 이 방법은 이전 예보와 실제 오류의 공분산 함수에 대한 정보를 활용하는 회귀 분석의 일종이다.
칼만 필터 알고리즘을 NWP 모델에 도입하려는 시도가 있었으나, 방대한 계산량으로 인해 어려움을 겪었다. 이를 극복하기 위해 앙상블 칼만 필터와 같은 근사 알고리즘이 개발되었다.
최적 제어 이론(변분적 접근 방식)을 활용한 4DDA 방법은 Le Dimet과 Talagrand(1986)에 의해 개발되었다. 이 방법은 기상 필드가 NWP 모델의 방정식을 만족시키면서 관측값과의 차이를 최소화하는 함수를 찾는다.
현재 예보 센터에서는 하이브리드 증분 4D-Var 방법이 운영 방식으로 사용되고 있다.[21][22] 이 방법은 앙상블을 사용하여 데이터 동화 시간 창 시작 시 기후 배경 오류 공분산을 보강하고, 단순화된 NWP 예보 모델을 통해 시간 창 동안 배경 오류 공분산을 진화시킨다.
4. 기타 활용 분야
데이터 동화는 물과 에너지 이동을 모니터링하는 데 활용되어 왔다. 1980년대와 1990년대에 여러 HAPEX (수문 및 대기 파일럿 실험) 프로젝트에서 토양, 식생, 대기 사이의 에너지 전달을 관찰하는 데 사용되었다. 예를 들면 다음과 같다.
- HAPEX-MobilHy[23]
- HAPEX-Sahel[24]
- 프랑스 남동부 알피유 지역에서 진행된 FP4-ENV 프로그램[27]의 유럽 프로젝트 "Alpilles-ReSeDA"(원격 감지 데이터 동화) 실험 (1996-97)[25][26]

이 외에도 데이터 동화는 다음과 같은 다양한 분야에서 활용되고 있다.
- 수문학 및 지하수 예측: 수문학 및 지하수 예측과 같은 환경 예측 문제에 사용된다.[30]
- 자연 재해 평가: 베이즈 네트워크는 산사태와 같은 자연 재해 평가를 위한 데이터 동화 접근 방식에 활용될 수 있다.[31]
- 외계 행성 대기 분석: 외계 행성의 대기 상태를 재분석하는 데 적용된다. 화성은 데이터 동화가 적용된 대표적인 외계 행성이다. 미국 항공우주국(NASA)의 화성 탐사선에 탑재된 열 방출 분광계와 화성 정찰 궤도선에 탑재된 화성 기후 감지기로부터 얻은 온도 및 먼지/물/얼음의 광학 두께 데이터를 활용한다. 이러한 데이터에 분석 보정 방식[32]과 두 개의 앙상블 칼만 필터 방식[33][34]이 적용되었으며, 두 방식 모두 화성 대기의 전방 모델로 전 지구 순환 모델을 사용한다. 화성 분석 보정 데이터 동화(MACDA) 데이터 세트는 영국 대기 데이터 센터에서 공개적으로 이용할 수 있다.[35]
- 궤적 추정: 아폴로 계획, GPS 등 궤적 추정에도 활용된다.
- 대기 화학: 대기 화학 분야에서도 사용된다.
5. 미래 발전 방향
관측 자료 활용 증가와 다양한 종류의 관측 자료(소다, 레이더, 위성)의 증가로 인해 데이터 동화 기술의 발전이 가속화될 것으로 예상된다.
참조
[1]
논문
The NCEP/NCAR 40-Year Reanalysis Project
[2]
서적
Parameterization schemes: keys to understanding numerical weather prediction models
https://books.google[...]
Cambridge University Press
[3]
웹사이트
Key to METAR Surface Weather Observations
http://www.ncdc.noaa[...]
National Oceanic and Atmospheric Administration
2011-02-11
[4]
웹사이트
SYNOP Data Format (FM-12): Surface Synoptic Observations
http://weather.unisy[...]
UNISYS
2008-05-25
[5]
논문
Numerical Weather Prediction
[6]
서적
Parallel computational fluid dynamics: parallel computings and its applications : proceedings of the Parallel CFD 2006 Conference, Busan city, Korea (May 15–18, 2006)
Elsevier
2011-01-06
[7]
웹사이트
The WRF Variational Data Assimilation System (WRF-Var)
http://www.mmm.ucar.[...]
University Corporation for Atmospheric Research
2007-08-14
[8]
웹사이트
Radiosonde Observations and Their Use in SPARC-Related Investigations
http://www.aero.juss[...]
2007-06-07
[9]
논문
Systematic Differences in Aircraft and Radiosonde Temperatures
[10]
웹사이트
The WMO Voluntary Observing Ships (VOS) Scheme
http://www.vos.noaa.[...]
National Oceanic and Atmospheric Administration
2009-01-28
[11]
웹사이트
The Hurricane Hunters
http://www.hurricane[...]
53rd Weather Reconnaissance Squadron
2006-03-30
[12]
뉴스
Drone, Sensors May Open Path Into Eye of Storm
https://www.washingt[...]
2007-10-08
[13]
웹사이트
NOAA Dispatches High-Tech Research Plane to Improve Winter Storm Forecasts
http://www.noaanews.[...]
2010-12-22
[14]
서적
Parameterization schemes: keys to understanding numerical weather prediction models
https://books.google[...]
Cambridge University Press
[15]
서적
The Global Climate
https://books.google[...]
Cambridge University Press archive
[16]
논문
The origins of computer weather prediction and climate modeling
https://zenodo.org/r[...]
[17]
서적
The Emergence of Numerical Weather Prediction
Cambridge University Press
[18]
간행물
Suboptimal schemes for atmospheric data assimilation based on the Kalman filter.
https://journals.ame[...]
[19]
웹사이트
Abstract: Mesoscale ensemble 4DVAR and its comparison with EnKF and 4DVAR (91st American Meteorological Society Annual Meeting)
http://ams.confex.co[...]
2011-01-27
[20]
논문
A comparison of variational, ensemble-based, and hybrid data assimilation methods over East Asia for two one-month periods
http://hfip.psu.edu/[...]
2022-11-09
[21]
웹사이트
Hybrid Variational/Ensemble Data Assimilation
https://www.ecmwf.in[...]
2011-09-01
[22]
웹사이트
Numerical weather prediction models
http://www.metoffice[...]
[23]
논문
HAPEX—MOBLIHY: A Hydrologic Atmospheric Experiment for the Study of Water Budget and Evaporation Flux at the Climatic Scale
[24]
논문
An overview of HAPEX-Sahel: A study in climate and desertification
[25]
간행물
Assimilation of Multi-Sensor and Multi-Temporal Remote Sensing Data, to Monitor Vegetation and Soil: the Alpilles-ReSeDA project.
http://w3.avignon.in[...]
IGARSS'98, International Geoscience and Remote Sensing Symposium
2019-07-08
[26]
서적
IGARSS '98. Sensing and Managing the Environment. 1998 IEEE International Geoscience and Remote Sensing. Symposium Proceedings. (Cat. No.98CH36174)
https://hal.inrae.fr[...]
[27]
웹사이트
ReSeDA
https://cordis.europ[...]
2019-07-08
[28]
final report, European contract number ENV4CT960326
ReSeDA: Assimilation of Multi-Sensor & Multi-Temporal Remote Sensing Data to Monitor Soil & Vegetation Functioning
http://w3.avignon.in[...]
Institut national de la recherche agronomique
2019-07-08
[29]
간행물
Spatial Aspects in the Alpilles-ReSeDA Project
http://w3.avignon.in[...]
2019-07-08
[30]
논문
Data assimilation for real-time subsurface flow modeling with dynamically adaptive meshless node adjustments
https://doi.org/10.1[...]
2023-10-01
[31]
논문
On the use of Bayesian networks as a meta-modelling approach to analyse uncertainties in slope stability analysis
2019-01-01
[32]
웹사이트
Oxford Physics: Atmospheric, Oceanic and Planetary Physics: SRC: Research
http://www.atm.ox.ac[...]
2019-07-01
[33]
문서
http://www.eps.jhu.edu/~mjhoffman/pages/research.html
[34]
웹사이트
marsclimatecenter.com
http://www.marsclima[...]
marsclimatecenter.com
2022-04-19
[35]
문서
http://badc.nerc.ac.uk/home/
[36]
간행물
State-of-the-art stochastic data assimilation methods for high-dimensional non-Gaussian problems
2018
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com