중앙값 절대 편차
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
중앙값 절대 편차(MAD)는 통계적 분산의 척도이며, 데이터의 중앙값으로부터의 절대 편차들의 중앙값으로 정의된다. MAD는 이상치에 강건한 통계량으로, 표준 편차보다 이상치의 영향을 덜 받는다. MAD는 표준 편차를 추정하는 데 사용될 수 있으며, 정규 분포 데이터의 경우 표준 편차의 약 0.67449배에 해당한다. MAD는 다변량 데이터에 대한 일반화인 MADGM으로 확장될 수 있으며, 모집단 MAD는 표본이 아닌 전체 모집단을 기반으로 한다.
더 읽어볼만한 페이지
| 중앙값 절대 편차 |
|---|
2. 정의
중앙값 절대 편차(MAD)는 주어진 데이터의 중앙값에서 각 데이터 값을 뺀 후, 그 절댓값들의 중앙값을 의미한다. 예를 들어, 데이터 (1, 1, 2, '''2''', 4, 6, 9)의 중앙값은 2이다. 각 데이터에서 중앙값을 뺀 절대 편차는 (1, 1, 0, 0, 2, 4, 7)이며, 이 값들의 중앙값은 1이다. 따라서 이 데이터의 중앙값 절대 편차는 1이다.
2. 1. 예시
데이터 (1, 1, 2, '''2''', 4, 6, 9)를 생각해 보자. 이 데이터의 중앙값은 2이다. 2에 대한 절대 편차는 (1, 1, 0, 0, 2, 4, 7)이며, 이 값들의 중앙값은 1이다(정렬된 절대 편차는 (0, 0, 1, '''1''', 2, 4, 7)이기 때문이다). 따라서 이 데이터의 중앙값 절대 편차는 1이다.3. 활용
중앙값 절대 편차(MAD)는 통계적 분산을 측정하는 척도이며, 강건 통계량으로 표준 편차보다 데이터 세트의 이상치에 더 강하다. 표준 편차는 평균과의 거리를 제곱하여 계산하기 때문에 큰 편차에 더 큰 가중치가 부여되어 이상치의 영향을 크게 받는다. 반면 MAD는 소수 이상치의 편차는 무시한다.
MAD는 표본 분산이나 표준 편차보다 더 강건한 척도 추정치이므로, 코시 분포와 같이 평균이나 분산이 없는 분포에서 더 잘 작동한다.
3. 1. 이상치에 대한 강건성
중앙값 절대 편차(MAD)는 통계적 분산을 측정하는 척도이다. MAD는 강건 통계량으로, 표준 편차보다 데이터 세트의 이상치에 더 강하다. 표준 편차는 평균과의 거리를 제곱하여 계산하기 때문에 큰 편차에 더 큰 가중치가 부여되어 이상치의 영향을 크게 받는다. 반면 MAD는 소수 이상치의 편차는 무시한다.MAD는 표본 분산 또는 표준 편차보다 더 강건한 척도 추정치이므로, 코시 분포와 같이 평균이나 분산이 없는 분포에서 더 잘 작동한다.
3. 2. 평균 또는 분산이 없는 분포
중앙값 절대 편차(MAD)는 표본 분산이나 표준 편차보다 더 강건한 척도 추정치이므로, 코시 분포와 같이 평균이나 분산이 없는 분포에서 더 잘 작동한다.4. 표준 편차와의 관계
MAD는 평균에 대한 편차를 사용하는 것과 유사하게 사용할 수 있다. MAD를 사용하여 표준 편차의 일관 추정량을 구할 수 있다.[2]
4. 1. 추정 공식
MAD를 일관 추정량으로 사용하여 표준 편차 를 추정하려면 다음 식을 사용한다.:
여기서 는 분포에 따라 달라지는 상수 척도 인자이다.[2]
정규 분포 데이터를 사용하는 경우 는 다음과 같다.
:
즉, 표준 정규 분포 에 대한 분위수 함수 (누적 분포 함수의 역함수)의 곱셈 역원이다.[3][4]
4. 2. 공식 유도
MAD는 일관 추정량으로 사용하여 표준 편차 를 추정할 때 다음 식을 이용한다.:
여기서 는 분포에 따라 달라지는 상수 척도 인자이다.[2]
정규 분포에서 는 다음과 같다.
:
이는 표준 정규 분포 에 대한 분위수 함수 (누적 분포 함수의 역함수)의 곱셈 역원이다.[3][4]
3/4는 가 표준 정규 누적 분포 함수의 50% (1/4과 3/4 사이)를 포함하도록 하는 값이며, 다음이 성립한다.
:
따라서 다음이 성립한다.
:
다음 관계에 주목하면,
:
이므로, 스케일 팩터 을 얻는다.
이 관계는 MAD가 반정규 분포의 중앙값과 같다는 점에서도 확인할 수 있다.
:
이 형식은 개연 오차에서 사용된다.
5. 다변량 일반화
중앙값이 다변량 데이터에서 기하학적 중앙값(GM)으로 일반화되는 것처럼, MAD는 ''n'' 차원에서 ''GM까지의 거리의 중앙값''(MADGM)으로 일반화될 수 있다. 이는 1차원의 절대 차이를 ''n'' 차원 데이터 점과 기하학적 중앙값 간의 유클리드 거리로 대체하여 수행된다.[5]
5. 1. MADGM 계산
중앙값이 다변량 데이터에서 기하학적 중앙값(GM)으로 일반화되는 것과 유사하게, MAD는 ''n'' 차원에서 ''GM까지의 거리의 중앙값''(MADGM)으로 일반화될 수 있다. 이는 1차원의 절대 차이를 ''n'' 차원 데이터 점과 기하학적 중앙값 간의 유클리드 거리로 대체하여 수행된다.[5] MADGM은 1차원의 단변량 MAD와 동일한 결과를 제공하며, 임의의 차원으로 일반화된다. MADGM은 기하학적 중앙값을 찾아야 하며, 이는 반복적인 과정을 통해 수행된다.6. 모집단 MAD
모집단 MAD는 표본 MAD와 유사하게 정의되지만, 표본이 아닌 전체 모집단을 기반으로 한다. 평균이 0인 대칭 분포의 경우, 모집단 MAD는 분포의 75번째 백분위수이다.
분산과는 달리, 모집단 MAD는 항상 유한한 숫자이다. 분산은 무한대이거나 정의되지 않을 수 있다. 예를 들어, 표준 코시 분포는 정의되지 않은 분산을 갖지만 MAD는 1이다.[6][7]
MAD 개념에 대한 가장 초기의 언급은 1816년, 카를 프리드리히 가우스가 수치 관측의 정확성 결정에 관한 논문에서였다.[6][7]
7. 역사
MAD 개념은 1816년 카를 프리드리히 가우스가 수치 관측의 정확성 결정에 관한 논문에서 처음 언급했다.[6][7]
참조
[1]
서적
The concise encyclopedia of statistics
Springer
2010
[2]
논문
Alternatives to the median absolute deviation
[3]
서적
Statistics and Data Analysis for Financial Engineering
https://books.google[...]
Springer
2010
[4]
논문
Detecting outliers: Do not use standard deviation around the mean, use absolute deviation around the median
https://dipot.ulb.ac[...]
[5]
웹사이트
Rstats - Rust Implementation of Statistical Measures, Vector Algebra, Geometric Median, Data Analysis and Machine Learning
https://crates.io/cr[...]
2022-07-26
[6]
논문
Bestimmung der Genauigkeit der Beobachtungen
1816
[7]
서적
Studies in the History of the Statistical Method
Williams & Wilkins Co
1931
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com