예측 모델링

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 모델
3. 응용 분야
4. 예측 모델링의 한계
- 4.1. 예측 모델링의 실패 사례
- 4.2. 근본적인 한계
참조

1. 개요

예측 모델링은 통계 모델을 사용하여 미래의 결과를 예측하는 기술이다. 예측 모델은 모수적, 비모수적, 반모수적 모델로 분류되며, 향상 모델링, 고고학, 고객 관계 관리, 자동차 보험, 의료, 알고리즘 트레이딩, 리드 추적 시스템 등 다양한 분야에서 활용된다. 그러나 과거 데이터에 의존하는 한계, 알 수 없는 변수의 존재, 알고리즘 조작 가능성 등의 한계점도 존재하며, 2007-2008년 금융 위기, 롱텀 캐피탈 매니지먼트의 실패 사례와 같이 예측 모델링의 실패 사례도 존재한다.

더 읽어볼만한 페이지

통계 모형 - 예측 분석
예측 분석은 통계학, 기계 학습 등의 분석 기법을 활용하여 과거 및 현재 데이터를 토대로 미래의 사건이나 결과를 예측하는 방법론으로, 다양한 분야에서 의사 결정 지원 및 위험 관리 등에 활용되지만, 인간 행동의 복잡성으로 인한 예측 불가능성에 대한 비판도 존재한다.
통계 모형 - 박스-젠킨스 방법
박스-젠킨스 방법은 자기상관 및 편자기상관 함수를 활용하여 시계열 데이터를 분석하고 예측하는 통계적 방법론으로, ARIMA 모델을 통해 데이터에 적합한 모델을 식별, 추정, 검증한다.
통계적 분류 - 서포트 벡터 머신
서포트 벡터 머신(SVM)은 지도 학습 모델로서 분류와 회귀 분석에 사용되며, 데이터 집합을 기반으로 새로운 데이터의 범주를 판단하는 비확률적 이진 선형 분류 모델을 생성하고, 커널 트릭을 통해 비선형 분류에도 활용될 수 있다.
통계적 분류 - 민감도와 특이도
민감도와 특이도는 의학적 진단에서 검사의 정확성을 평가하는 지표로, 민감도는 실제 양성인 대상 중 양성으로 나타나는 비율, 특이도는 실제 음성인 대상 중 음성으로 나타나는 비율을 의미하며, 선별 검사에서 두 지표를 모두 높여 질병을 정확하게 진단하는 것을 목표로 한다.
비즈니스 인텔리전스 - 예측 분석
예측 분석은 통계학, 기계 학습 등의 분석 기법을 활용하여 과거 및 현재 데이터를 토대로 미래의 사건이나 결과를 예측하는 방법론으로, 다양한 분야에서 의사 결정 지원 및 위험 관리 등에 활용되지만, 인간 행동의 복잡성으로 인한 예측 불가능성에 대한 비판도 존재한다.
비즈니스 인텔리전스 - 데이터 웨어하우스
데이터 웨어하우스는 의사결정 지원을 위해 운영 시스템과 분리되어 운영되는 데이터 저장소로, 여러 시스템의 데이터를 통합하여 신뢰성 있는 단일 정보를 제공하며, 시간 가변성, 주제 중심성, 사용자 접근성, 읽기 전용 데이터베이스라는 특징을 가진다.

예측 모델링
개요
유형	통계적 모델링
하위 유형	회귀 분석 분류 클러스터링
목적
목표	미래 결과 예측
방법론
핵심 아이디어	통계적 기법 사용
세부 방법	데이터 마이닝 기계 학습 통계
관련 분야
관련 학문	통계학 인공지능 데이터 과학

2. 모델

대부분의 통계 모델은 예측 목적으로 사용될 수 있다. 예측 모델은 크게 모수적 모델과 비모수적 모델의 두 가지 종류로 나뉜다. 세 번째 종류인 반모수적 모델은 두 모델의 특징을 모두 포함한다.^[3]^[4]

2. 1. 모수적 모델

대부분의 통계 모델은 예측 목적으로 사용될 수 있다. 예측 모델은 크게 모수적 모델과 비모수적 모델의 두 가지 종류로 나뉜다. 세 번째 종류인 반모수적 모델은 두 모델의 특징을 모두 포함한다. 모수적 모델은 "기저 분포를 특징짓는 하나 이상의 모집단 매개변수에 관하여 구체적인 가정을 한다".^[3] 비모수적 모델은 "일반적으로 [모수적 모델보다] 구조 및 분포 형태에 대한 가정이 적지만, 일반적으로 독립성에 대한 강한 가정을 포함한다".^[4]

2. 2. 비모수적 모델

통계 모델은 예측 목적으로 사용될 수 있으며, 크게 모수적 모델과 비모수적 모델로 나뉜다. 반모수적 모델은 이 두 모델의 특징을 모두 포함한다. 비모수적 모델은 "일반적으로 [모수적 모델보다] 구조 및 분포 형태에 대한 가정이 적지만, 일반적으로 독립성에 대한 강한 가정을 포함한다"^[4]

2. 3. 반모수적 모델

대부분 통계 모델은 예측 목적으로 사용될 수 있다. 크게 예측 모델은 모수적 모델과 비모수적 모델의 두 가지 종류로 나뉜다. 세 번째 종류인 반모수적 모델은 두 모델의 특징을 모두 포함한다. 모수적 모델은 "기저 분포를 특징짓는 하나 이상의 모집단 매개변수에 관하여 구체적인 가정을 한다".^[3] 비모수적 모델은 "일반적으로 [모수적 모델보다] 구조 및 분포 형태에 대한 가정이 적지만, 일반적으로 독립성에 대한 강한 가정을 포함한다".^[4]

3. 응용 분야

예측 모델링은 다양한 분야에서 활용되며, 특정한 패턴이나 결과를 예측하여 의사 결정을 돕는 데 사용된다.

향상 모델링: 특정 마케팅 조치가 고객의 행동 변화(예: 구매, 서비스 이용 증가)에 미치는 영향을 예측한다. 이를 통해 기업은 효과적인 마케팅 전략을 수립하고, 불필요한 비용 지출을 줄일 수 있다.
고고학: 고든 윌리가 페루의 비루 계곡에서 진행한 연구가 그 시초로,^[5] 문화 유물과 자연적 특징(경사, 식생 등) 간의 관계를 분석한다. 미조사 지역의 "고고학적 민감도"를 예측하여 문화 자원 관리 계획에 활용된다.
고객 관계 관리: 데이터 마이닝과 함께 사용되어 고객의 특정 행동(판매, 마케팅, 고객 유지) 가능성을 예측한다. 이동 통신사와 같은 대규모 소비자 단체는 교차 판매, 업셀링, 이탈 예측 등에 활용한다.
자동차 보험: 사고 위험을 평가하고, 사용 기반 보험 솔루션에서 원격 측정 데이터를 활용하여 청구 가능성을 예측한다. GPS나 가속도계 센서 입력을 사용하며, 일부 모델은 고급 운전 행동, 사고 기록, 도로 이력, 사용자 프로필 등 다양한 예측 입력을 활용한다.
의료: 전자의무기록을 분석하여 재입원 위험이 높은 환자를 식별하거나, 환자의 기대 수명을 추정하는 데 사용된다. 파크랜드 보건 및 병원 시스템에서는 재입원 위험 환자 예측에 활용되었으며,^[8] 2018년에는 딥 러닝 모델을 통해 환자의 단기 기대 수명을 예측하는 연구가 발표되었다.^[9]
알고리즘 트레이딩: 예측 변수를 사용하여 주식, 선물, 통화, 상품 등의 가격 변동 확률을 예측한다. 트레이딩 회사는 이를 활용하여 전략을 수립하고 거래한다.
리드 추적 시스템: 잠재 고객의 반응을 예측하여 리드 생성기의 효율성을 높이고, 고객의 의사 결정을 지원한다.^[12]

3. 1. 향상 모델링 (Uplift modeling)

향상 모델링은 특정 조치로 인해 발생하는 ''확률 변화''를 모델링하는 기술이다. 일반적으로 이는 제품 구매 제안, 제품 사용 증가 제안 또는 계약 재갱신과 같은 마케팅 조치이다. 예를 들어, 고객 유지 캠페인에서 연락을 취할 경우 고객이 계속 고객으로 남을 확률의 변화를 예측하고자 한다. 확률 변화 모델을 사용하면 확률 변화가 유익한 고객을 대상으로 유지 캠페인을 진행할 수 있다. 이를 통해 유지 프로그램은 불필요한 고객 이탈율 또는 고객 이탈을 유발하는 것을 방지하는 동시에, 어차피 행동할 사람들에게 불필요한 비용을 낭비하지 않을 수 있다.

3. 2. 고고학 (Archaeology)

고고학에서의 예측 모델링은 페루의 비루 계곡에서 1950년대 중반 고든 윌리의 연구를 통해 그 기반을 다졌다.^[5] 당시에는 완전하고 집중적인 조사가 수행되었으며, 문화 유물과 경사, 식생과 같은 자연적 특징 간의 공분산이 결정되었다. 정량적 방법의 개발과 적용 가능한 데이터의 증가로 인해 1960년대에 이 분야가 성장했으며, 1980년대 후반에는 전 세계 주요 토지 관리자들에 의해 상당한 진전이 이루어졌다.

일반적으로 고고학에서의 예측 모델링은 토양 유형, 고도, 경사, 식생, 물과의 근접성, 지질, 지형과 같은 자연적 대리변수와 고고학적 특징의 존재 사이의 통계적으로 유효한 인과 관계 또는 공변 관계를 설정하는 것이다. 고고학적 조사가 수행된 토지에서 이러한 정량화 가능한 속성을 분석하여, 때로는 해당 지역의 자연적 대리변수를 기반으로 미조사 지역의 "고고학적 민감도"를 예측할 수 있다. 미국 연방 토지 관리국(BLM), 미국 국방부(DOD)^[6]^[7] 및 수많은 고속도로 및 공원 관리 기관과 같은 미국의 대규모 토지 관리자들이 이 전략을 성공적으로 사용해 왔다. 문화 자원 관리 계획에 예측 모델링을 사용함으로써, 지상 교란을 필요로 하고 결과적으로 고고학적 유적에 영향을 미칠 수 있는 활동을 계획할 때 더 많은 정보를 바탕으로 결정을 내릴 수 있다.

3. 3. 고객 관계 관리 (Customer relationship management)

예측 모델링은 고객이 특정 행동을 할 가능성을 설명하는 고객 수준의 모델을 생성하기 위해 분석적 고객 관계 관리 및 데이터 마이닝에 광범위하게 사용된다. 이러한 행동은 일반적으로 판매, 마케팅 및 고객 유지와 관련이 있다.

예를 들어, 이동 통신 사업자와 같은 대규모 소비자 단체는 제품 교차 판매, 제품 심층 판매(또는 업셀링) 및 이탈에 대한 예측 모델을 갖게 된다. 또한 이러한 조직에서 향상 모델을 사용하여 고객 유지 가능성을 모델링하는 것도 이제 더 일반적이다. 이는 표준 이탈 예측 모델과 반대로 계약 기간 종료 시 고객을 유지할 수 있는 가능성(이탈 확률 변화)을 예측한다.

3. 4. 자동차 보험 (Auto insurance)

예측 모델링은 자동차 보험에서 보험 가입자로부터 얻은 정보를 바탕으로 보험 가입자에게 사고 위험을 할당하는 데 사용된다. 이는 예측 모델이 원격 측정 데이터를 활용하여 청구 가능성에 대한 예측 위험 모델을 구축하는 사용 기반 보험 솔루션에서 광범위하게 사용된다. 블랙 박스 자동차 보험 예측 모델은 GPS 또는 가속도계 센서 입력만 사용한다. 일부 모델은 고급 운전 행동, 독립적인 사고 기록, 도로 이력 및 사용자 프로필을 포함한 기본 원격 측정 외에 광범위한 예측 입력을 포함하여 개선된 위험 모델을 제공한다.

3. 5. 의료 (Health care)

파크랜드 보건 및 병원 시스템은 2009년에 재입원 위험이 높은 환자를 식별하기 위해 예측 모델링을 사용하고자 전자의무기록 분석을 시작했다. 처음에는 울혈성 심부전 환자에 집중했지만, 이 프로그램은 당뇨병, 급성 심근 경색 및 폐렴 환자를 포함하도록 확장되었다.^[8]

2018년, Banerjee et al.은^[9] 전자 의무 기록에 있는 자유 텍스트 임상 노트를 분석하여 환자의 단기 기대 수명(3개월 초과)을 추정하는 딥 러닝 모델을 제안하는 동시에 방문 시간 순서를 유지했다. 이 모델은 대규모 데이터 세트(10,293명 환자)에서 훈련되었고 별도의 데이터 세트(1818명 환자)에서 검증되었다. 이는 수신자 조작 특성(ROC) 곡선 아래 면적이 0.89를 달성했다. 설명 가능성을 제공하기 위해 모델 예측의 근거에 대한 의사의 이해를 개선할 수 있는 대화형 그래픽 도구를 개발했다. PPES-Met 모델의 높은 정확성과 설명 가능성은 이 모델을 전이성 암 치료를 개인화하고 의사에게 귀중한 도움을 제공하는 의사 결정 지원 도구로 사용할 수 있게 한다.

최초의 임상 예측 모델 보고 지침은 2015년에 발표되었고(개별 예후 또는 진단을 위한 다변수 예측 모델의 투명한 보고 (TRIPOD)), 이후 업데이트되었다.^[10]

예측 모델링은 수술 시간을 추정하는 데 사용되었다.

3. 6. 알고리즘 트레이딩 (Algorithmic trading)

거래 예측 모델링은 일련의 예측 변수를 사용하여 결과의 확률을 예측하는 모델링 프로세스이다. 예측 모델은 주식, 선물, 통화, 상품 등과 같은 다양한 자산에 대해 구축할 수 있다. 예측 모델링은 트레이딩 회사에서 전략을 고안하고 거래하는 데 여전히 광범위하게 사용된다. 가격, 거래량, 미결제 약정 및 기타 과거 데이터에 대한 지표를 평가하여 반복 가능한 패턴을 발견하기 위해 수학적으로 진보된 소프트웨어를 활용한다.^[1]

3. 7. 리드 추적 시스템 (Lead tracking systems)

예측 모델링은 각 잠재적인 캠페인에 대한 데이터 기반 결과를 예측하여 리드 생성기에게 유리한 출발점을 제공한다. 이 방법은 시간을 절약하고 잠재적인 사각지대를 노출하여 고객이 더 현명한 결정을 내릴 수 있도록 돕는다.^[12]

4. 예측 모델링의 한계

예측 모델링은 과거 데이터를 기반으로 미래를 예측하지만, 몇 가지 근본적인 한계가 있다.
1. 과거 데이터 의존의 문제점과거 데이터로 미래를 예측하려면 복잡한 시스템에 지속적인 조건이나 상수가 있다는 가정이 필요하다. 그러나 사람이 포함된 시스템에서는 이러한 가정이 부정확할 수 있다.^[1]
2. 알 수 없는 미지수의 존재데이터를 수집할 때 변수를 신중하게 선택해도, 결과에 중요하지만 고려되지 않은 새로운 변수가 항상 존재할 수 있다.^[1]
3. 알고리즘의 악용 가능성알고리즘이 표준으로 인정되면, 결과를 조작하려는 사람들에 의해 악용될 수 있다. 부채 담보부 증권(CDO) 등급 평가에서 CDO 거래자들이 등급 기관의 모델을 조작하여 높은 등급을 받은 것이 그 예시이다.^[1]

4. 1. 예측 모델링의 실패 사례

예측 모델링은 주류 예측 모델링 커뮤니티에서는 널리 논의되지 않지만, 과거에 금융 산업에서 널리 사용된 방법론이며, 주요 실패 사례 중 일부는 2007-2008년 금융 위기의 원인이 되었다. 이러한 실패는 본질적으로 과거를 돌아보는 데 기반한 모델에만 전적으로 의존하는 것의 위험성을 보여준다. 다음은 완벽한 목록은 아니지만 그 예시이다.

채권 신용 등급. 스탠다드 앤 푸어스(S&P), 무디스(Moody's) 및 피치(Fitch)는 신용 등급이라고 하는 이산 변수를 사용하여 채권의 채무 불이행 확률을 정량화한다. 신용 등급은 AAA에서 D까지의 이산 값을 가질 수 있다. 신용 등급은 차용인과 관련된 다양한 변수와 과거의 거시 경제 데이터를 기반으로 한 채무 불이행 위험의 예측 변수이다. 신용 평가 기관은 6000억달러 규모의 주택 저당 증권 CDO(Collateralized Debt Obligation) 시장에 대한 신용 등급 평가에 실패했다. CDO 시장의 거의 모든 AAA 등급 부문 (그리고 신용 평가 기관이 매우 안전한 투자를 나타내기 위해 제공한 새로운 등급인 슈퍼 AAA 부문)이 2008년에 채무 불이행되거나 심각하게 등급이 강등되었으며, 이들 중 다수는 불과 1년 전에 신용 등급을 받았다.
지금까지 역사적 데이터를 기반으로 주식 시장 가격을 예측하려는 통계 모델은 장기적으로 일관되게 정확한 예측을 하는 것으로 간주되지 않는다. 특히 기억할 만한 실패 사례는 롱텀 캐피탈 매니지먼트로, 노벨 경제학상 수상자를 포함한 매우 유능한 분석가들을 고용하여 서로 다른 증권 간의 가격 스프레드를 예측하는 정교한 통계 모델을 개발했다. 이 모델은 당시 연방 준비 제도(Federal Reserve) 의장 앨런 그린스펀이 채권 시장 붕괴를 막기 위해 월 스트리트 중개 딜러들의 구제 계획을 중재하도록 개입하기 전까지 인상적인 수익을 올렸다.

4. 2. 근본적인 한계

역사는 항상 미래를 정확하게 예측할 수 없다. 과거 데이터에서 도출된 관계를 사용하여 미래를 예측하는 것은 복잡한 시스템에 특정한 지속적인 조건 또는 상수가 있다는 것을 암묵적으로 가정한다. 이러한 가정은 시스템에 사람이 포함될 경우 거의 항상 어느 정도의 부정확성을 초래한다.

알 수 없는 미지수는 문제이다. 모든 데이터 수집에서 수집자는 먼저 데이터를 수집할 변수 집합을 정의한다. 그러나 수집자가 변수 선택을 아무리 광범위하게 고려하더라도, 결과에 매우 중요하지만 아직 고려되거나 정의되지 않은 새로운 변수가 존재할 가능성은 항상 존재한다.

알고리즘은 적대적으로 무력화될 수 있다. 알고리즘이 측정의 표준으로 인정된 후에는, 알고리즘을 이해하고 결과를 속이거나 조작하려는 유인이 있는 사람들에 의해 악용될 수 있다. 이것이 CDO(부채담보부증권) 등급에서 발생한 일이다. CDO 거래자들은 등급 기관의 "정교한" 모델에서 "알 수 없는" 변수를 교묘하게 조작하여, 발행하는 CDO에 대해 AAA 또는 수퍼 AAA 등급을 받기 위해 등급 기관의 입력을 적극적으로 충족시켰다.

참조

_[1] 서적 Predictive Inference: An Introduction Chapman & Hall
_[2] 서적 Predictive Analytics, Data Mining and Big Data. Myths, Misconceptions and Methods Palgrave Macmillan 2014
_[3] 서적 Handbook of Parametric and Nonparametric Statistical Procedures CRC Press 2011-04-27
_[4] 서적 Principles of Statistical Inference Cambridge University Press
_[5] 간행물 "Prehistoric Settlement Patterns in the Virú Valley, Peru" Bureau of American Ethnology 1953
_[6] 간행물 "An Evaluation of the Archaeological Sample Survey Program at the Nevada Test and Training Range" SRI 2002
_[7] 간행물 "Predictive Modeling in the Military: Similar Goals, Divergent Paths" SRI Foundation 2004
_[8] 웹사이트 Hospital Uses Data Analytics and Predictive Modeling To Identify and Allocate Scarce Resources to High-Risk Patients, Leading to Fewer Readmissions https://innovations.[...] Agency for Healthcare Research and Quality 2014-01-29
_[9] 논문 Probabilistic Prognostic Estimates of Survival in Metastatic Cancer Patients (PPES-Met) Utilizing Free-Text Clinical Narratives 2018-07-03
_[10] 논문 TRIPOD+AI statement: updated guidance for reporting clinical prediction models that use regression or machine learning methods 2024-04-16
_[11] 뉴스 Predictive-Model Based Trading Systems, Part 1 - System Trader Success http://systemtraders[...] 2013-07-22
_[12] 뉴스 Predictive Modeling for Call Tracking https://phonexa.uk/c[...] 2019-08-22

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com