등분산성
1. 개요
등분산성은 통계학에서 모수 추정치의 통계량들이 동일한 분산을 갖는 성질을 의미한다. 독립성, 정규성과 함께 NID(Normally, Independently, Distributed with mean of zero and common variance)라고 불리는 조건 중 하나이며, 단순 선형 회귀 분석에서 오차항의 표준 편차가 일정하고 예측 변수에 의존하지 않는다는 가정이 필요하다. 등분산성을 검정하기 위해 바틀렛 검정, 레빈 검정, 브루쉬-페이건 검정 등이 사용되며, 등분산적 분포는 통계적 패턴 인식 및 기계 학습 알고리즘에 유용하게 활용된다.
-
분산 분석 -
다층 모형
-
분산 분석 -
교락
교락은 데이터 생성 모델에서 독립 변수와 종속 변수 간의 관계를 왜곡하는 현상으로, 독립 변수와 종속 변수 모두에 영향을 미치는 외생 변수, 즉 교란 변수의 존재로 인해 발생하며, 이를 통제하기 위해 변수 고정, 통계적 조정 등 다양한 방법이 사용된다. -
통계학 -
확률
확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다. -
통계학 -
사분위수
사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.
2. 가정
통계학에서 모수(母數) 추정치의 통계량들이 동일한 분산을 갖는 성질이다. 고전적 회귀 모형이나 T 테스트 등에서 오차 항에 대한 기본적인 가정으로, 평균이 0이고 분산이 모든 관찰값에 대하여 같은 값을 갖는다고 가정한다. 등분산성(等分散性, homoskedasticity) 이외의 나머지 조건으로는 독립성(Independently)과 정규성(Normally)이 있으며, 세 가지를 모두 합쳐 NID(Normally, Independently, Distributed with mean of zero and common variance)라고도 약칭한다.
3. 검정 방법
등분산성을 검정하기 위한 방법으로는 바틀렛 검정(Bartlett's test)으로 알려진 바틀렛 박스플롯(boxplot) 등분산검정이나 레빈 검정(Levene's test)으로 불리는 등분산검정을 활용한다. 제곱 잔차를 독립 변수에 회귀하는 브루쉬-페이건 검정을 사용하여 잔차의 등분산성을 검정할 수 있다. 브루쉬-페이건 검정은 정규성에 민감하기 때문에, 코엔카-바셋 검정 또는 "일반화된 브루쉬-페이건 검정"이 일반적인 목적을 위해 사용된다. 그룹별 등분산성은 골드펠트-콴트 검정을 필요로 한다.
4. 회귀 모델의 가정
회귀 모형이나 T 테스트 등에서 오차 항에 대한 기본적인 가정은 평균이 0이고, 분산이 모든 관찰값에 대하여 같은 값을 갖는다는 것이다. 단순 선형 회귀 분석에서, (가우스-마르코프 정리에 의해) 최량 선형 불편 추정량인 최소 자승 추정량이 각 모집단 파라미터의 최량 선형 불편 추정량임을 보장하는 적합 모델의 한 가지 가정은 오차항의 표준 편차가 일정하고, x값(예측 변수)에 의존하지 않는다는 것이다. 따라서, y (응답 변수)의 각 확률 분포는, x값에 관계없이 동일한 표준 편차를 가진다.