대치법 (통계학)
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
대치법(통계학)은 통계 분석에서 결측된 데이터를 처리하는 방법을 의미한다. 데이터 결측 유형에는 완전 무작위 결측(MCAR), 무작위 결측(MAR), 무작위 아님 결측(MNAR)이 있다. 결측 데이터 처리 방법에는 완전 사례 삭제, 대응별 삭제, 단일 대치, 다중 대치, 비음수 행렬 분해(NMF) 등이 있다. 단일 대치에는 평균 대치, 회귀 대치, 핫덱/콜드덱 대치, 최근 관측치 이월(LOCF) 등이 있으며, 다중 대치에는 MICE, 기계 학습 기반 다중 대치(MIDAS) 등이 있다. 각 방법은 장단점을 가지며, 결측 데이터 처리 방법 선택 시 여러 요소를 고려해야 한다.
더 읽어볼만한 페이지
- 통계 자료 부호 - 국제질병분류
국제질병분류는 세계보건기구가 작성하는 국제적인 질병 분류 체계로, 질병 및 건강 관련 문제에 대한 분류 기준을 제공하며, 여러 차례 개정을 거쳐 최신판인 ICD-11은 2019년 세계보건총회에서 승인되어 새로운 질병 분류를 포함하고 있다. - 통계 자료 부호 - 사망원인
사망원인은 개인의 사망에 이르게 된 직접적인 요인으로, 질병, 사고, 자살, 감정적 요인 등 다양한 원인을 가지며 국가별, 연령별, 사회경제적 환경에 따라 차이를 보이고, 건강 불평등 해소와 국민 건강 증진을 위한 정책 수립의 기반이 된다.
대치법 (통계학) | |
---|---|
통계적 대치 | |
![]() | |
개요 | |
분야 | 통계학 |
문제 | 결측치 |
해결책 | 대치법 |
대치 방법 | |
단일 대치 | 평균 대치 중앙값 대치 최빈값 대치 회귀 대치 핫 덱 대치 콜드 덱 대치 |
다중 대치 | 다중 대치법 |
관련 항목 | |
관련 항목 | 결측 자료 결측 자료의 통계적 추론 EM 알고리즘 사전 확률 |
2. 결측 데이터의 유형
(이전 출력이 없으므로, 수정할 내용이 없습니다. 원문 소스를 제공해주시면 해당 섹션에 대한 위키텍스트를 작성해드리겠습니다.)
결측 데이터 처리 방법은 다양하며, 각각 장단점과 적용 가능한 상황이 다르다.
3. 결측 데이터 처리 방법
3. 1. 완전 사례 삭제 (Listwise Deletion)
결측 데이터를 처리하는 가장 일반적인 방법은 완전 사례 삭제(목록별 삭제라고도 함)이다. 결측값이 있는 모든 사례를 분석에서 제외한다. 데이터가 완전 무작위 결측인 경우, 완전 사례 삭제는 편향을 추가하지 않지만, 유효 표본 크기가 줄어들어 분석의 검정력이 감소한다.[3] 예를 들어 1000개의 사례를 수집했지만 80개가 결측값을 갖는 경우, 완전 사례 삭제 후 유효 표본 크기는 920이 된다.
사례가 완전 무작위 결측이 아닌 경우, 완전 사례 삭제는 편향을 도입한다. 결측 데이터로 표시되는 사례의 하위 표본이 원래 표본을 대표하지 않기 때문이다. (원래 표본 자체가 모집단의 대표 표본이었다면, 완전 사례 또한 해당 모집단을 대표하지 않는다).[3] 완전 사례 삭제는 결측 데이터가 완전 무작위 결측일 때 편향되지 않지만, 실제로는 이런 경우는 거의 없다.[4]
대응별 삭제(또는 "가용 사례 분석")는 특정 분석에 필요한 변수가 결측된 경우 사례를 삭제하지만, 필요한 모든 변수가 있는 분석에는 해당 사례를 포함한다. 대응별 삭제를 사용하면 분석에 대한 총 N이 매개변수 추정 전체에서 일관되지 않는다. 다른 매개변수에 대해 완전 사례 비교를 유지하면서 일부 시점에서 불완전한 N 값으로 인해, 대응별 삭제는 100%를 초과하는 상관관계와 같은 수학적으로 불가능한 상황을 초래할 수 있다.[5]
완전 사례 삭제가 다른 방법보다 갖는 한 가지 장점은 간단하고 구현하기 쉽다는 것이다. 이는 완전 사례 삭제가 가진 많은 단점에도 불구하고 결측 데이터를 처리하는 가장 인기 있는 방법인 주된 이유이다.
3. 2. 대응별 삭제 (Pairwise Deletion)
대응별 삭제(또는 "가용 사례 분석")는 특정 분석에 필요한 변수에 결측값이 있는 경우 해당 사례를 삭제하지만, 필요한 모든 변수가 있는 분석에는 해당 사례를 포함하는 방법이다. 대응별 삭제를 사용하면 분석에 사용되는 전체 표본 크기(N)가 분석에 사용되는 변수에 따라 달라진다.[5] 일부 변수에서는 결측값이 포함된 사례로 인해 표본 크기가 완전하지 않을 수 있지만, 다른 변수를 사용하는 분석에는 완전한 사례가 포함될 수 있다. 이로 인해 대응별 삭제는 100%를 초과하는 상관관계와 같이 수학적으로 불가능한 상황을 초래할 수 있다.[5]
3. 3. 단일 대치 (Single Imputation)
단일 대치(Single Imputation)는 결측값을 특정 값으로 대체하는 방법이다.
3. 3. 1. 평균 대치 (Mean Substitution)
평균 대치법은 결측값을 해당 변수의 다른 모든 관측값의 평균으로 대체하는 기법이다. 이 방법은 해당 변수의 표본 평균을 변경하지 않는다는 장점이 있다. 그러나 평균 대치는 대치된 변수와 관련된 모든 상관관계를 약화시킨다. 대치가 이루어진 경우, 대치된 변수와 다른 측정된 변수 간의 관계가 보장되지 않기 때문이다. 따라서 평균 대치는 단변량 분석에는 유용하지만, 다변량 분석에서는 문제가 된다.
평균 대치는 성별과 같은 범주(클래스) 내에서 수행될 수 있으며, 로 표현될 수 있다. 여기서 는 i번째 기록의 대푯값이고, 는 클래스 h 내의 응답자 데이터의 표본 평균이다. 이는 일반화된 회귀 대치의 특수한 경우이다.
여기서 값은 대치되지 않은 데이터에서 y를 x에 회귀하여 추정되고, z는 클래스 멤버십에 대한 더미 변수이며, 데이터는 응답자(r)와 누락된 값(m)으로 나뉜다.
3. 3. 2. 회귀 대치 (Regression Imputation)
회귀 대치법은 평균 대치법과는 반대되는 문제를 갖는다. 회귀 모델은 다른 변수를 기반으로 변수의 관측값을 예측하도록 추정되며, 이 모델은 해당 변수의 값이 누락된 경우 값을 대치하는 데 사용된다. 즉, 완전한 사례와 불완전한 사례에 대한 사용 가능한 정보는 특정 변수의 값을 예측하는 데 사용된다. 그런 다음 회귀 모델에서 적합된 값은 누락된 값을 대치하는 데 사용된다. 문제는 대치된 데이터 추정에 오차항이 포함되어 있지 않아 추정치가 잔차 분산 없이 회귀선에 완벽하게 일치한다는 것이다. 이로 인해 관계가 과도하게 식별되고, 대치된 값에 정당한 것보다 더 큰 정밀도를 제안한다. 회귀 모델은 누락된 데이터의 가장 가능성이 높은 값을 예측하지만 해당 값에 대한 불확실성은 제공하지 않는다.[5]
확률적 회귀는 회귀 대치법에서 오차항 부족을 수정하려는 비교적 성공적인 시도였으며, 오차를 도입하기 위해 평균 회귀 분산을 회귀 대치에 추가했다. 확률적 회귀는 위에 언급된 기술보다 편향이 훨씬 적지만, 여전히 한 가지를 놓치고 있다. 데이터를 대치한다면, 단순히 잔차 분산보다 더 많은 잡음이 문제에 도입되어야 한다고 직관적으로 생각할 것이다.[5]
3. 3. 3. 핫덱/콜드덱 대치 (Hot-deck/Cold-deck Imputation)
핫덱 대치는 동일한 데이터 세트 내에서 누락된 값을 무작위로 선택된 유사한 기록의 값으로 대체하는 방식이다. "핫덱(Hot deck)"이라는 용어는 천공 카드에 데이터를 저장하던 시절에서 유래되었으며, 정보를 제공하는 쪽(기증자)이 정보를 받는 쪽(수령자)과 동일한 데이터 세트에 속한다는 것을 의미한다.[6] 핫덱 대치법의 한 형태인 "최근 관측치 이월(last observation carried forward, LOCF)"은 데이터 세트를 정렬하고, 누락된 값 바로 앞의 셀 값을 사용하여 누락된 값을 대체한다. 이는 측정이 누락된 경우 마지막으로 측정했을 때와 변하지 않았을 것이라는 가정을 바탕으로 한다. 그러나 이 방법은 편향(바이어스)을 증가시키고 잘못된 결론을 도출할 위험이 있어 사용하지 않는 것이 권장된다.[6][25]
콜드덱 대치는 다른 데이터 세트에서 기증자를 선택하여 결측값을 대체하는 방법이다. 컴퓨터 성능의 발전으로 인해 더 정교한 대체 방법이 일반적으로 핫덱 및 콜드덱 대치 기술을 대체하였다. 콜드덱 대치는 과거 설문 조사에서 유사한 항목의 응답 값으로 대체하는 방법으로, 시간 간격을 측정하는 설문 조사에서 사용된다.
3. 3. 4. 최근 관측치 이월 (LOCF)
최근 관측치 이월(last observation carried forward, LOCF)은 핫덱 대치법의 한 형태이다. 이 기법은 여러 변수 중 임의의 변수에 따라 데이터 세트를 정렬하고, 첫 번째 누락된 값을 찾아 그 바로 앞의 값으로 대체한다. 모든 누락된 값이 대체될 때까지 이 과정을 반복한다.[6]
사람이나 사물에 대한 반복적인 측정값이 있는 경우, "데이터가 결측된 경우에는 마지막 측정값이 변하지 않았다고 추정하는 것이 가장 타당하다"라는 가정을 따른다. 그러나 이 방법은 편향을 증가시켜 잘못된 결론을 유발할 수 있으므로 사용하지 않는 것이 권장된다.[25]
3. 4. 다중 대치 (Multiple Imputation)
다중 대치(Multiple Imputation)는 결측값을 여러 개의 추정치로 대체하여 대치의 불확실성을 반영하는 방법이다. 1987년 루빈(Rubin)은 대치로 인한 잡음 증가 문제를 해결하기 위해 여러 대치 데이터 집합의 결과를 평균하는 방법을 개발했다.[10]
다중 대치는 다음 세 단계를 따른다.[3]
다중 대치는 데이터가 완전 무작위 결측, 무작위 결측인 경우에 사용할 수 있지만, 무작위 아님 결측의 경우에는 편향될 수 있다.[14]
단일 대치는 대치에 대한 불확실성을 고려하지 않아 과도하게 정확한 결과가 나타나고, 결론을 내리는 데 오류가 발생할 수 있다는 단점이 있다.[17] 반면, 다중 대치는 여러 번 대치함으로써 진정한 값이 가질 수 있는 불확실성과 값의 범위를 고려한다. 불확실성 추정과 딥 러닝을 결합한 방법이 이종 약물 발견 데이터를 모델링하는 데 사용되기도 한다.[18][19]
다중 대치는 구현하기 어렵지 않으며, 다양한 통계 소프트웨어에서 관련 기능을 제공하고 있다.
3. 4. 1. MICE (Multiple Imputation by Chained Equations)
MICE는 "완전 조건적 명세" 및 "순차적 회귀 다중 대치"라고도 불리는 다중 대치 방법이다.[15] MICE는 무작위 결측 데이터를 위해 설계되었지만, 충분한 수의 보조 변수를 사용하면 무작위 아님 결측 데이터에서도 작동할 수 있다는 시뮬레이션 증거가 있다. 그러나 MICE는 관측 수가 많고 데이터가 비선형성 및 고차원성과 같은 복잡한 특징을 가질 때 성능 문제가 발생할 수 있다.R 사용자들은 MICE 패키지를 사용하여 MICE 방법을 이용한 다중 대치를 수행할 수 있다.[20]
3. 4. 2. 기계 학습 기반 다중 대치 (MIDAS)
MIDAS(Multiple Imputation with Denoising Autoencoders)는 비지도 신경망의 일종인 노이즈 제거 오토인코더를 사용하여 관측된 데이터의 세분화된 잠재 표현을 학습하는 기계 학습 기반 다중 대치 방법이다.[16] MIDAS는 기존의 다중 대치 전략보다 정확성과 효율성 면에서 이점을 제공하는 것으로 나타났다.MIDAS는 rMIDAS 패키지를 사용하여 R에서, MIDASpy 패키지를 사용하여 Python에서 구현할 수 있다.[16]
3. 5. 비음수 행렬 분해 (Non-negative Matrix Factorization, NMF)
비음수 행렬 분해(NMF)는 결측값을 0으로 처리하여 편향을 발생시키는 대신, 비용 함수를 최소화하면서 결측 데이터를 처리할 수 있다.[9] 이는 NMF가 데이터 대치에 대한 수학적으로 입증된 방법임을 보여준다. NMF는 비용 함수에서 결측 데이터를 무시할 수 있으며, 결측 데이터의 영향은 2차 효과만큼 작을 수 있다.NMF 구성 요소를 얻는 방법에 따라, NMF를 사용한 대입 절차는 두 가지로 나눌 수 있다. Ren 등(2020)은 데이터 대입 중 결측 데이터에 의한 영향("타겟 모델링")이 NMF 구성 요소가 알려진 경우에는 2차, NMF 구성 요소가 불명인 경우에는 1차에서 2차의 오더임을 증명했다.
NMF 구성 요소를 얻는 방법에 따라 위에서 언급한 전자의 절차는 후자와 독립적이거나 의존적일 수 있다. 또한 더 많은 NMF 구성 요소를 사용하면 대입의 품질을 향상시킬 수 있다.[29]
4. 결측 데이터 처리 방법 선택 시 고려 사항
결측 데이터를 처리하는 가장 일반적인 방법은 완전 사례 삭제(목록별 삭제라고도 함)로, 결측값이 있는 모든 사례를 삭제하는 것이다. 데이터가 완전 무작위 결측인 경우, 완전 사례 삭제는 어떠한 편향도 추가하지 않지만, 유효 표본 크기를 줄여 분석의 검정력을 감소시킨다. 예를 들어 1000개의 사례가 수집되었지만 80개가 결측값을 갖는 경우, 완전 사례 삭제 후 유효 표본 크기는 920이 된다. 사례가 완전 무작위 결측이 아닌 경우, 완전 사례 삭제는 편향을 도입한다. 왜냐하면 결측 데이터로 표시되는 사례의 하위 표본이 원래 표본을 대표하지 않기 때문이다(그리고 원래 표본 자체가 모집단의 대표 표본이었다면, 완전 사례 또한 해당 모집단을 대표하지 않는다).[3] 완전 사례 삭제는 결측 데이터가 완전 무작위 결측일 때 편향되지 않지만, 실제로는 이런 경우는 거의 없다.[4]
대응별 삭제(또는 "가용 사례 분석")는 특정 분석에 필요한 변수가 결측된 경우 사례를 삭제하지만, 필요한 모든 변수가 있는 분석에는 해당 사례를 포함하는 것을 말한다. 대응별 삭제를 사용하면 분석에 대한 총 N이 매개변수 추정 전체에서 일관되지 않는다. 다른 매개변수에 대해 완전 사례 비교를 유지하면서 일부 시점에서 불완전한 N 값으로 인해, 대응별 삭제는 100%를 초과하는 상관관계와 같은 불가능한 수학적 상황을 초래할 수 있다.[5]
완전 사례 삭제가 다른 방법보다 갖는 한 가지 장점은 간단하고 구현하기 쉽다는 것이다. 이것은 완전 사례 삭제가 가진 많은 단점에도 불구하고 결측 데이터를 처리하는 가장 인기 있는 방법인 주된 이유이다.
참조
[1]
논문
Applications of multiple imputation in medical studies: from AIDS to NHANES
1999-03-01
[2]
서적
Data analysis using regression and multilevel/hierarchical models
Cambridge University Press
[3]
논문
How Multiple Imputation Makes a Difference
https://www.cambridg[...]
2016
[4]
논문
The handling of missing data in clinical trials
https://semanticscho[...]
2013-02-26
[5]
서적
Applied Missing Data Analysis
Guilford Press
[6]
논문
Does analysis using "last observation carried forward" introduce bias in dementia research?
2008-10-07
[7]
논문
The treatment of missing survey data
[8]
논문
Imputing for missing survey responses
https://pdfs.semanti[...]
American Statistical Association
[9]
논문
Using Data Imputation for Signal Separation in High Contrast Imaging
[10]
서적
Multiple imputation for nonresponse in surveys
Wiley
1987-06-09
[11]
논문
Multiple imputation for missing data: Concepts and new development
https://support.sas.[...]
2018-01-17
[12]
서적
Flexible Imputation of Missing Data
Chapman and Hall/CRC
2012-03-29
[13]
논문
Analyzing Incomplete Political Science Data: An Alternative Algorithm for Multiple Imputation
https://www.cambridg[...]
2001-03
[14]
논문
A Note on Listwise Deletion versus Multiple Imputation
Cambridge University Press (CUP)
2018-08-03
[15]
논문
Multiple imputation by chained equations: what is it and how does it work?
2011-03-01
[16]
논문
The MIDAS Touch: Accurate and Scalable Missing-Data Imputation with Deep Learning
2021
[17]
논문
Missing data analysis: making it work in the real world
2009-01-01
[18]
논문
Practical Applications of Deep Learning to Impute Heterogeneous Drug Discovery Data
2020-06-01
[19]
논문
Imputation of Assay Bioactivity Data Using Deep Learning
2019-02-12
[20]
논문
Much ado about nothing: A comparison of missing data methods and software to fit incomplete data regression models
2007-02-01
[21]
논문
Applications of multiple imputation in medical studies: from AIDS to NHANES
1999-03-01
[22]
서적
Data analysis using regression and multilevel/hierarchical models
Cambridge University Press
[23]
논문
The handling of missing data in clinical trials
https://semanticscho[...]
2013-02-26
[24]
서적
Applied Missing Data Analysis
Guilford Press
[25]
논문
Does analysis using "last observation carried forward" introduce bias in dementia research?
2008-10-07
[26]
논문
The treatment of missing survey data
[27]
논문
Imputing for missing survey responses
https://pdfs.semanti[...]
American Statistical Association
[28]
논문
Using Data Imputation for Signal Separation in High Contrast Imaging
[29]
논문
Using Data Imputation for Signal Separation in High Contrast Imaging
[30]
서적
Applied Missing Data Analysis
Guilford Press
[31]
서적
Multiple imputation for nonresponse in surveys
Wiley
1987-06-09
[32]
논문
Multiple imputation for missing data: Concepts and new development
https://support.sas.[...]
[33]
서적
Flexible Imputation of Missing Data
Chapman and Hall/CRC
2012-03-29
[34]
논문
Analyzing Incomplete Political Science Data: An Alternative Algorithm for Multiple Imputation
https://www.cambridg[...]
2001-03
[35]
논문
Multiple imputation by chained equations: what is it and how does it work?
2011-03-01
[36]
논문
Handling Missing Data in Item Response Theory. Assessing the Accuracy of a Multiple Imputation Procedure Based on Latent Class Analysis
2017-07
[37]
논문
Missing data analysis: making it work in the real world
2009-01-01
[38]
논문
Much ado about nothing: A comparison of missing data methods and software to fit incomplete data regression models
2007-02-01
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com