평균 절대 편차
1. 개요
평균 절대 편차는 통계적 분산의 척도 중 하나로, 데이터 값과 중심 경향성(평균, 중앙값, 최빈값 등) 간의 절대 차이의 평균을 나타낸다. 평균 절대 편차는 중심 경향성을 어떻게 정의하느냐에 따라 여러 가지 방식으로 계산될 수 있으며, 특히 평균 주변의 평균 절대 편차(MAD)와 중앙값 주변의 중앙값 절대 편차(MAD)가 널리 사용된다. MAD는 표준 편차보다 변동성을 측정하는 간단한 척도로, 이상치에 덜 민감하며, 정규 분포의 경우 표준 편차와 밀접한 관계를 갖는다. 평균 절대 편차는 평균 제곱 오차(MSE)와 관련이 있으며, L1 노름 통계에서 평균 절대 편차를 최소화하는 것은 중앙값이다.
2. 분산 측도로서의 절대 편차
통계적 분산의 여러 척도는 절대 편차의 관점에서 정의된다.
"평균 절대 편차"라는 용어는 통계적 분산의 척도를 명확하게 나타내지 않는다. 왜냐하면 절대 편차와 중심 경향성을 측정하는데 여러 척도가 사용될 수 있기 때문이다. 따라서 절대 편차를 특정하려면 편차 척도와 중심 경향성 척도를 모두 명시해야 한다. 통계 문헌에서는 아직 표준 표기법을 채택하지 않아, 평균 주변의 평균 절대 편차와 중앙값 주변의 중앙값 절대 편차 모두 "MAD"라는 약어로 표시되어 혼란을 야기할 수 있다. 이 둘은 일반적으로 서로 상당히 다른 값을 가지기 때문이다.
2.1. 중심점 주변의 평균 절대 편차
집합 X = {x1, x2, …, xn}의 평균 절대 편차는 다음과 같이 정의된다.
:
여기서 m(X)는 중심 경향성 측도(산술 평균, 중앙값, 최빈값 등)를 나타낸다. 중심 경향성 측도의 선택은 평균 절대 편차 값에 큰 영향을 미친다.
데이터 집합 {2, 2, 3, 4, 14}에 대한 예시는 다음과 같다.
2.1.1. 평균 주변의 평균 절대 편차 (MAD)
평균 절대 편차(MAD)는 "평균 편차" 또는 "평균 절대 편차"라고도 불린다. 이는 데이터의 평균을 중심으로 한 데이터의 절대 편차의 평균, 즉 평균으로부터의 평균(절대) 거리이다. "평균 절대 편차"는 이 용어 또는 지정된 중심점과 관련된 일반적인 형태를 나타낼 수 있다.
MAD는 실제 생활에 더 잘 부합하기 때문에 표준 편차 대신 사용될 것을 제안했다. MAD는 표준 편차보다 변동성을 측정하는 간단한 척도이기 때문에 학교 교육에 유용할 수 있다.
이 방법의 예측 정확도는 예측의 평균 제곱 오차(MSE) 방법과 매우 밀접하게 관련되어 있다. MAD는 MSE보다 계산하기 쉽고(제곱할 필요가 없음) 이해하기 쉽기 때문에 더 일반적으로 사용된다.
평균으로부터의 평균 절대 편차는 표준 편차보다 작거나 같다.
2.1.2. 중앙값 주변의 평균 절대 편차
중앙값은 평균 편차가 최소화되는 지점이다. 중앙값을 기준으로 한 MAD는 중앙값을 중심으로 한 임의 변수의 척도를 직접적으로 측정한다.
이는 라플라스 분포의 척도 모수 의 최대 우도 추정량이다.
중앙값은 평균 절대 거리를 최소화하므로 이다. 중앙값으로부터의 평균 절대 편차는 평균으로부터의 평균 절대 편차보다 작거나 같다. 사실, 중앙값으로부터의 평균 절대 편차는 다른 고정된 숫자로부터의 평균 절대 편차보다 항상 작거나 같다.
Habib (2011)은 일반적인 분산 함수를 사용하여 중앙값을 기준으로 한 MAD를 다음과 같이 정의했다.
여기서 지표 함수는 다음과 같다.
이 표현을 통해 MAD 중앙값 상관 계수를 얻을 수 있다.
2.2. 중앙값 주변의 중앙값 절대 편차 (MAD)
원칙적으로 평균이나 다른 중앙값을 중앙값 절대 편차의 중심점으로 사용할 수 있지만, 대부분 중앙값이 대신 사용된다.
중앙값 절대 편차(MAD)는 중앙값에서 절대 편차의 중앙값이다. 이는 분산에 대한 강건한 추정량이다.
예를 들어 {2, 2, 3, 4, 14}의 경우: 3은 중앙값이므로 중앙값에서 절대 편차는 {1, 1, 0, 1, 11} (재정렬하면 {0, 1, 1, 1, 11})이며 중앙값은 1이다. 이 경우 이상치 14의 값에 영향을 받지 않으므로 중앙값 절대 편차는 1이다.
대칭 분포의 경우, 중앙값 절대 편차는 사분위 범위의 절반과 같다.
3. 최대 절대 편차
최대 절대 편차는 임의의 점을 중심으로 한 표본의 각 값과 해당 점 사이의 절대 편차 중 최댓값이다. 엄밀히 말해 중심 경향성 척도는 아니지만, 최대 절대 편차는 평균 절대 편차 공식에서 를 사용하여 구할 수 있으며, 여기서 는 표본 최댓값이다.
4. 최소화
L1 노름 통계에서 중앙값은 평균 절대 편차를 최소화한다.
5. 추정
표본의 평균 절대 편차는 모집단의 평균 절대 편차에 대한 편향 추정량이다.
절대 편차가 비편향 추정량이 되려면, 모든 표본 절대 편차의 기대값(평균)이 모집단 절대 편차와 같아야 한다. 그러나 그렇지 않다. 모집단이 1, 2, 3인 경우, 중앙값에 대한 모집단 절대 편차와 평균에 대한 모집단 절대 편차는 모두 2/3이다. 모집단에서 추출할 수 있는 크기 3인 표본의 평균에 대한 모든 표본 절대 편차의 평균은 44/81인 반면, 중앙값에 대한 모든 표본 절대 편차의 평균은 4/9이다. 따라서 절대 편차는 편향 추정량이다.
그러나 이 주장은 평균 비편향성의 개념에 기반한다. 각 위치 측정값에는 고유한 형태의 비편향성이 있다([편향 추정량] 항목 참조). 여기서 관련 있는 비편향성은 중앙값 비편향성이다.