맨위로가기

중앙값

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

중앙값은 유한한 숫자 목록에서 크기 순으로 정렬했을 때 가운데 위치하는 값이며, 데이터 개수에 따라 두 가운데 값의 산술 평균으로 정의되기도 한다. 확률 분포에서는 누적 분포 함수 값이 1/2이 되는 지점 또는 그 구간 내의 값으로 정의된다. 중앙값은 평균 절대 오차를 최소화하며, 극단값의 영향을 덜 받아 데이터의 중심 경향을 나타내는 데 유용하다. 산술 평균과 달리 소득 데이터와 같이 왜곡된 분포에서 대표값을 나타내기에 적합하며, 통계적 추론, 특정 분포의 계산, 다변량 데이터 분석 등 다양한 분야에서 활용된다. 표본 중앙값은 표본 데이터를 정렬하여 계산하며, 선택 알고리즘을 통해 효율적으로 계산할 수 있다. 중앙값의 개념은 6세기 탈무드에서 처음 등장했으며, 1881년 프랜시스 골턴에 의해 "중앙값"이라는 용어가 사용되었다.

더 읽어볼만한 페이지

  • 평균 - 제곱평균제곱근
    제곱평균제곱근(RMS)은 값들의 크기를 나타내는 통계량으로, 이산 데이터의 경우 각 값의 제곱의 평균의 제곱근, 연속 함수의 경우 함수 제곱의 적분 평균의 제곱근으로 정의되며, 전기공학, 물리학 등 다양한 분야에서 활용되고 표준편차와 밀접한 관련이 있다.
  • 평균 - 조화 평균
    조화 평균은 양의 실수들의 역수의 산술 평균의 역수로 정의되며, 작은 값에 민감하게 반응하여 비율이나 비를 포함하는 상황에서 유용하게 활용되는 평균의 한 종류이다.
  • 통계학 용어 - 퍼센트 포인트
    퍼센트포인트는 전체 비율을 나타내는 퍼센트와 달리 두 퍼센트 값의 차이를 나타내는 단위로, 경제 지표나 여론조사 등에서 명확한 정보 전달을 위해 중요하며 절대적 변화량을 나타낸다.
  • 통계학 용어 - 편차
    편차는 관측값과 참값의 차이인 오차를 의미하며 통계적 분산 측정에 중요하고, 데이터 분석, 과학 실험, 무선 공학 등에서 활용된다.
  • 입력지원 - 인류학
    인류학은 인간의 생물학적, 문화적, 사회적 측면을 종합적으로 연구하는 학문으로, 형질인류학, 문화인류학, 고고학, 언어인류학 등의 분야로 나뉘어 인간의 진화, 문화적 다양성, 사회 조직, 언어의 기원과 발전을 탐구하며, 학제 간 연구를 통해 인간과 사회에 대한 포괄적인 이해를 추구한다.
  • 입력지원 - 양궁
    양궁은 활과 화살로 표적을 맞히는 스포츠로, 선사 시대부터 무기로 사용되다가 1538년 영국에서 스포츠로 발전하여 올림픽 정식 종목으로 채택되었으며, 대한민국에서는 1950년대 말부터 시작되어 국제 대회에서 경기가 열린다.
중앙값
중앙값
중앙값의 정의크기 순서대로 정렬했을 때 가운데에 위치하는 값
자료의 개수가 홀수일 때가운데 값
자료의 개수가 짝수일 때가운데 두 값의 평균
예시
예시 12, 3, 4, 5, 6의 중앙값은 4
예시 22, 3, 4, 5, 6, 7의 중앙값은 4.5
활용
대표값평균과 함께 자료의 대표값으로 사용
극단적인 값의 영향극단적인 값에 영향을 적게 받음
기타
다른 이름중간값
같이 보기평균
최빈값
사분위수
수학적 개념크기 순서대로 정렬된 데이터 집합의 중간 값
자료의 개수 홀수중앙에 있는 값
자료의 개수 짝수중앙 두 값의 평균
기호x˜ 또는 med(x)
확률 분포확률 변수의 값 중에서 확률 분포를 반으로 나누는 값
중앙값 계산
정렬데이터를 크기 순으로 정렬
홀수 데이터 개수정렬된 데이터의 (n+1)/2 번째 값
짝수 데이터 개수정렬된 데이터의 n/2 번째 값과 (n/2)+1 번째 값의 평균
성질
극단값 영향극단값에 덜 민감
분포 중심분포의 중심을 나타내는 값
이상치이상치에 강함
활용
통계 분석데이터 분석의 기초 통계량
데이터 대표값평균과 함께 데이터의 대표값으로 사용
같이 보기
관련 개념평균
최빈값
사분위수

정의데이터를 크기 순으로 정렬했을 때, 중앙에 위치하는 값
데이터 개수 홀수가운데 값
데이터 개수 짝수중앙에 위치한 두 값의 평균
예시
데이터1, 2, 3, 4, 5의 중앙값은 3
데이터1, 2, 3, 4, 5, 6의 중앙값은 3.5
특징
극단값 영향극단적인 값의 영향을 덜 받음
활용
대표값데이터의 대표값으로 사용
통계 분석데이터 분석의 기초적인 통계량
같이 보기
관련 개념평균
최빈값
사분위수

2. 정의

중앙값은 주어진 데이터를 크기 순서대로 정렬했을 때 가장 중앙에 위치하는 값을 의미한다. 데이터의 개수가 홀수일 경우, 중앙값은 정 가운데 위치한 값이 된다. 데이터의 개수가 짝수일 경우, 중앙값은 가운데 두 값의 산술 평균으로 계산한다.[1][2]

모집단의 중앙값은 모집단의 적어도 절반이 제시된 중앙값 이하이고, 적어도 절반이 제시된 중앙값 이상인 값이다. 중앙값은 유일하지 않을 수 있다. 각 집합에 모집단의 절반 이상이 포함된다면, 모집단의 일부는 유일한 중앙값과 정확히 같다.

중앙값은 임의의 순서가 있는(1차원) 데이터에 대해 잘 정의되며, 거리 측정값과는 독립적이다. 따라서 숫자로 나타내지 않고 순위만 매겨진 학급에도 적용될 수 있다. (예: 학생들의 시험 점수가 F에서 A까지 등급으로 매겨진 경우 중앙값 등급을 구하는 것). 다만, 학급 수가 짝수인 경우 결과는 학급 사이의 중간값이 될 수 있다.

기하 중앙값은 임의의 차원에서 정의된다.

중앙값에 대한 표준 표기법은 없지만, 일부 저자는 변수 ''x''의 중앙값을 med(''x''), ''x͂'',[3] ''μ''1/2,[1] 또는 ''M''[3][4]으로 나타낸다.

중앙값은 평균 절대 오차(MAE)를 최소화하는 성질을 가지고 있다.

:\operatorname{MAE}(t) = \frac{1}{n} \sum_{i=1}^{n} |x_i-t|

2. 1. 유한한 숫자 데이터 집합

유한한 숫자 목록의 중앙값은 그 숫자들을 작은 것부터 큰 것까지 순서대로 나열했을 때 "가운데" 숫자이다.

데이터 집합에 관측값이 홀수 개 있으면, 가운데 값을 선택한다(오름차순으로 정렬한 후). 예를 들어, 다음과 같은 일곱 개의 숫자 목록,

: 1, 3, 3, '''6''', 7, 8, 9

의 중앙값은 네 번째 값인 ''6''이다.

데이터 집합에 관측값이 짝수 개 있으면, 별개의 가운데 값이 없으므로 중앙값은 일반적으로 두 가운데 값의 산술 평균으로 정의된다.[1][2] 예를 들어, 다음과 같은 8개의 숫자 데이터 집합

: 1, 2, 3, '''4, 5''', 6, 8, 9

의 중앙값은 ''4.5''이다. 즉, (4 + 5)/2이다.

일반적으로 이러한 관례에 따라 중앙값은 다음과 같이 정의할 수 있다. n개의 요소로 구성된 데이터 집합 x에서 가장 작은 것부터 가장 큰 것까지 순서대로 정렬했을 때,

: n이 홀수이면, 중앙값(x) = x(n + 1)/ 2

: n이 짝수이면, 중앙값(x) = (x(n/2) + x((n/2)+1))/2

값 [ 1, 2, 2, 3, 4, 7, 9 ]의 일반적인 평균 비교
유형설명예시결과
중앙값데이터 집합의 최솟값과 최댓값 사이의 중간 지점1, 2, 2, 3, 4, 7, 95
산술 평균데이터 집합의 값의 합을 값의 개수로 나눈 값(1 + 2 + 2 + 3 + 4 + 7 + 9) / 74
중앙값데이터 집합의 더 큰 절반과 더 작은 절반을 구분하는 가운데 값1, 2, 2, 3, 4, 7, 93
최빈값데이터 집합에서 가장 빈번한 값1, 2, 2, 3, 4, 7, 92


2. 2. 확률 분포

확률 분포에서 중앙값은 누적분포함수(CDF) 값이 1/2이 되는 지점, 혹은 그 지점을 포함하는 구간 내의 값으로 정의된다. 중앙값은 확률 분포를 두 개의 동일한 면적으로 나누는 값이다.[9]

확률분포 \operatorname{P}에서 실수 m이 다음 식을 만족할 경우 그 값을 중앙값이라고 정의한다.

:\operatorname{P}(X\leq m) \geq \frac{1}{2} \quad\land\quad \operatorname{P}(X\geq m) \geq \frac{1}{2}

누적분포함수(CDF) ''F''를 갖는 임의의 실수값 확률분포에서 중앙값은 다음 부등식을 만족하는 임의의 실수 ''m''으로 정의된다.



\lim_{x\to m-} F(x) \leq \frac12 \leq F(m)



기댓값 ''F''에 따라 분포된 확률변수 ''X''를 사용하는 동등한 표현은 다음과 같다.



\operatorname{P}(X\leq m) \geq \frac{1}{2}\text{ and } \operatorname{P}(X\geq m) \geq \frac{1}{2}\,.



이 정의는 ''X''가 절대 연속 분포(확률밀도함수 ''f''를 갖는)일 필요도, 이산 분포일 필요도 없다. 전자의 경우, 부등식은 등식으로 강화될 수 있다. 즉, 중앙값은 다음을 만족한다.

\operatorname{P}(X \leq m) = \int_{-\infty}^m{f(x)\, dx} = \frac{1}{2}

그리고

\operatorname{P}(X \geq m) = \int_m^{\infty}{f(x)\, dx} = \frac{1}{2}\,.

실수 집합 \R에 대한 임의의 확률분포는 적어도 하나의 중앙값을 갖지만, 병리적인 경우에는 하나 이상의 중앙값을 가질 수 있다. 만약 ''F''가 어떤 구간에서 1/2로 일정하다면 (따라서 ''f'' = 0), 그 구간의 모든 값이 중앙값이 된다.

실수값 확률변수 의 누적분포함수를 라 할 때, 는 실수값 비감소함수, 우연속함수가 된다. 이때, 다음 부등식을 만족하는 실수 를 중앙값이라고 한다.

:\int_{-\infty}^m \mathrm{d}F(x) \geq \frac{1}{2}\text{ and }\int_m^{\infty} \mathrm{d}F(x) \geq \frac{1}{2}\,\!

단, 적분 기호는 리만-스틸체스 적분의 의미이다.

1차원 확률 분포 에 대해,

: \int_{-\infty}^m f(x)\, \mathrm{d}x \ge \frac{1}{2} \; \mathrm{and} \; \int_m^\infty f(x)\, \mathrm{d}x \ge \frac{1}{2}

을 만족하는 을 중앙값이라고 한다.

3. 성질

모집단의 중앙값은 모집단의 절반 이상이 중앙값 이하이고, 절반 이상이 중앙값 이상인 값이다. 중앙값은 유일하지 않을 수 있으며, 각 집합에 모집단의 절반 이상이 포함된다면 모집단의 일부는 유일한 중앙값과 정확히 같다.

중앙값은 순서가 있는(1차원) 데이터에 대해 잘 정의되며, 거리 측정값과는 독립적이다. 따라서 숫자로 나타내지 않고 순위만 매겨진 학급(예: A~F 학점)에도 적용할 수 있다. 다만, 학급 수가 짝수인 경우 결과는 학급 사이의 중간값이 될 수 있다.

기하 중앙값은 임의의 차원에서 정의된다. 메도이드는 결과가 표본의 구성원에 일치하도록 강제하는 관련 개념이다.

중앙값에 대한 표준 표기법은 없지만, 일부 저자는 변수 ''x''의 중앙값을 ''x͂''[3], ''μ''1/2[1], ''M''[3][4] 등으로 나타낸다.

중앙값은 제2 사분위수, 제5 십분위수 및 제50 백분위수와 동일하다.

3. 1. 평균값과의 관계

산술평균은 모든 관측치의 값을 반영하기 때문에 극단값(다른 값들과 현저하게 차이가 나는 값)의 영향을 많이 받지만, 중앙값은 극단값의 영향을 덜 받는다.[77] 데이터의 분포가 대칭이면 중앙값은 평균값과 같다. 하지만 분포가 대칭이 아니더라도 중앙값과 평균값이 같을 수 있다.

예를 들어, 소득 데이터에서 일부 부유층이 평균 소득을 크게 올릴 수 있다. 100명의 마을에서 90명의 연소득이 200만 엔이고, 10명의 연소득이 5000만 엔이라면 평균 소득은 680만 엔이 된다. 반면 중앙값은 소득 순서대로 나열했을 때 중간에 있는 사람의 소득으로, 이 경우 200만 엔이 된다. 즉, 일부 부유층의 소득은 중앙값에 영향을 주지 않는다. 억만장자가 작은 마을로 이사 오면 평균 소득은 크게 증가하지만, 중앙값은 거의 변하지 않거나 한 순위 정도만 오를 수 있다.

이러한 특성 때문에 중앙값은 평균값보다 전체 경향을 더 잘 나타내는 대표값으로 사용될 수 있다. 특히, 다음과 같은 경우에 유용하다.

  • 평균값은 측정 오류 등으로 발생하는 극단값의 영향을 크게 받아 오차가 커지거나 무의미해질 수 있지만, 중앙값은 극단값의 영향을 거의 받지 않는다.
  • 데이터가 양수 값만 가지는 경우처럼 제한적인 경우, 분포가 비대칭이 되기 쉽고 소수의 큰 값에 의해 평균값이 대부분의 분포보다 크게 벗어날 수 있지만, 중앙값은 이러한 영향을 거의 받지 않는다.
  • \pm \infty를 포함하는 데이터에서도 중앙값은 유한한 값을 가질 수 있다. (평균값은 무한하거나 불확정하게 된다.)
  • 중앙값은 평균값에 비해 분포의 계곡에 위치하는 경우가 적다. (평균값은 이봉분포에서 종종 계곡에 위치한다.)


중앙값은 선형 범용 선택 알고리즘을 사용하면 \mathrm{O}(n)의 계산량으로 구할 수 있다. (평균값도 \mathrm{O}(n)). 순차적으로 데이터가 얻어지는 경우, 모든 데이터를 보관해야 하므로 \mathrm{O}(n)의 메모리가 필요하다. (평균값은 \mathrm{O}(1)).

대표값으로 평균값을 사용할 때는 분포의 퍼짐 정도를 분산 또는 표준편차로 나타내는 경우가 많다. 반면, 중앙값을 사용할 때는 사분위수 범위(IQR)로 나타내는 경우가 많다.

3. 2. 최적화 성질

실수 변수 ''c''에 대한 절대 평균 오차는 확률 변수 ''X''에 대해 다음과 같이 표현된다.

:E(\left|X-c\right|)\,

''X''의 확률 분포가 위의 기댓값이 존재하도록 하는 경우, ''m''이 ''X''에 대한 절대 평균 오차의 최소화점이라면 ''m''은 ''X''의 중앙값이다.[11] 특히, ''m''이 표본 중앙값이라면 절대 편차의 산술 평균을 최소화한다.[12] 그러나 표본에 짝수 개의 요소가 있는 경우에는 이 최소화점이 유일하지 않다는 점에 유의해야 한다.

보다 일반적으로, 중앙값은 다음 식의 최솟값으로 정의된다.

:E(|X-c| - |X| ),

이는 다변량 중앙값(특히 공간 중앙값)에서 더 자세히 설명된다.

이러한 중앙값의 최적화 기반 정의는 ''k''-평균 군집화와 같은 통계적 데이터 분석에 유용하다.

평균, 중앙값, 최빈값의 비교 (두 개의 서로 다른 왜도를 가진 로그 정규 분포)


분포의 분산이 유한하다면, 중앙값 \tilde{X}과 평균 \bar{X} 사이의 거리는 표준 편차 하나 이내로 제한된다.

3. 3. 기타 성질

중앙값은 제2사분위수, 50퍼센타일, 0.5분위수와 동일하다.[20] 중앙값의 오차는 데이터 오차와 거의 같다. (평균값의 오차는 데이터 오차의 \frac{1}{\sqrt n} 배이다)[20]

분포의 분산이 유한하면, 중앙값 \tilde{X}과 평균 \bar{X} 사이의 거리는 표준 편차 하나 이내로 제한된다.

실수값 확률변수의 누적분포함수를 F(x)라 할 때, F(x)는 실수값 비감소함수, 우연속함수가 된다. 이때, 다음 부등식을 만족하는 실수 m을 중앙값(메디안)이라고 한다.

:\int_{-\infty}^m \mathrm{d}F(x) \geq \frac{1}{2}\text{ and }\int_m^{\infty} \mathrm{d}F(x) \geq \frac{1}{2}\,\!

(단, 적분 기호는 리만-스틸체스 적분의 의미이다.)

데이터의 크기가 유한값(n이라고 하자)일 경우, 다음과 같이 간단하게 기술할 수 있다. (단, 동일한 순위가 없다고 가정한다.)

데이터의 값을 x_1, x_2, …, x_n이라고 하자. 이들을 작은 순서대로 정렬한 것을 x'_1, x'_2, …, x'_n이라고 할 때, \boldsymbol{x} =(x_1, x_2, \cdots , x_n)의 중앙값 \mathrm{Q}_{\frac{1}{2}}(x)

:\mathrm{Q}_{\frac{1}{2}}(x) = \begin{cases}

x'_{\frac{n+1}{2}} &n \text{은 홀수} \\

\dfrac{1}{2}( x'_{\frac{n}{2}} + x'_{\frac{n}{2}+1}) &n \text{은 짝수}

\end{cases}

로 정의된다. \mathrm{Q}_{\frac{1}{2}}(x) = x_{\frac{n}{2}}가 되지 않는 것은 x의 첨자(index)가 0, …, n이 아니라 1, …, n이기 때문이다.

중앙값은 평균 절대 오차(mean absolute error, MAE)

:\operatorname{MAE}(t) = \frac{1}{n} \sum_{i=1}^{n} |x_i-t|

를 최소화하는 성질을 가지고 있다(단, 그러한 값은 유일하지 않다). 데이터의 크기가 짝수일 때는 그 값 t가 유일하게 정해지지 않지만, 편의상 위에서 언급한 정의를 채택한다.

  • 데이터의 분포가 대칭이면 중앙값은 평균값과 같다. 하지만 분포가 대칭이 아니더라도 중앙값과 평균값이 같을 수 있다.
  • 아래의 성질들로 인해, 평균값보다 전체 경향을 나타내는 대표값으로 더 적절한 경우가 많다.
  • 평균값은 측정 오류 등으로 발생하는 극값(다른 값들보다 현저하게 다른 값)의 영향을 크게 받아 오차가 커지거나 무의미한 값이 될 수 있다. 따라서 트리밍, 강건 통계량 등의 대책이 필요하다. 하지만 중앙값은 극값의 영향을 거의 받지 않으므로 대책이 필요 없다.
  • 예를 들어 데이터가 양수 값만 가지는 등 제한적인 경우, 그렇지 않은 경우와 비교하여 분포는 더 비대칭적이 되기 쉽고, 소수의 큰 값에 끌려 평균값이 대부분의 분포보다 크게 벗어날 수 있다. 하지만 중앙값에서는 그러한 영향이 거의 없다.
  • \pm \infty를 포함하는 데이터에 대해서도 중앙값은 유한할 수 있다.(평균값은 반드시 무한 또는 불확정이 된다.)
  • 분포의 계곡에 위치하는 경우가 평균값에 비해 적다.(평균값은 이봉분포에 대해 종종 계곡에 위치한다.)
  • 중앙값을 구하려면 선형 범용 선택 알고리즘을 사용하면 \mathrm{O}(n)의 계산량으로 구할 수 있다(평균값도 \mathrm{O}(n)). 순차적으로 데이터가 얻어지는 경우 모든 데이터를 보관해야 하므로 \mathrm{O}(n)의 메모리가 필요하다(평균값은 \mathrm{O}(1)).
  • 대표값으로 평균값을 사용할 때는 분포의 퍼짐 정도는 분산 또는 표준편차로 나타내는 경우가 많다. 반대로, 대표값으로 중앙값을 사용할 때는 분포의 퍼짐 정도는 제3사분위수와 제1사분위수의 차이인 사분위수 범위()로 나타내는 경우가 많다.

4. 계산

단봉형 분포에서 중앙값과 평균 사이의 거리는 다음과 같은 관계를 가진다.[21]

:\left|\tilde{X} - \bar{X}\right| \le \left(\frac{3}{5}\right)^\frac{1}{2}\sigma \approx 0.7746\sigma

중앙값과 최빈값 사이에도 유사한 관계가 성립한다.

:\left|\tilde{X} - \mathrm{mode}\right| \le 3^\frac{1}{2}\sigma \approx 1.732\sigma.

단조 분포에서 평균이 중앙값보다 큰 것을 보여주는 그림

4. 1. 표본 중앙값

표본 중앙값은 표본 데이터를 정렬한 후, 가운데 위치한 값을 취하여 계산한다. 만약 데이터 개수가 짝수라면, 가운데 두 값의 평균을 낸다. 선택 알고리즘을 사용하면, *n*개의 데이터에서 중앙값을 *O(n)* 시간에 계산할 수 있다.

데이터 집합에 관측값이 홀수 개 있으면, 가운데 값을 선택한다(오름차순으로 정렬한 후). 예를 들어, 다음과 같은 일곱 개의 숫자 목록:

: 1, 3, 3, '''6''', 7, 8, 9

의 중앙값은 네 번째 값인 '''6'''이다.

데이터 집합에 관측값이 짝수 개 있으면, 별개의 가운데 값이 없으므로 중앙값은 일반적으로 두 가운데 값의 산술 평균으로 정의된다.[1][2] 예를 들어, 다음과 같은 8개의 숫자 데이터 집합:

: 1, 2, 3, '''4, 5''', 6, 8, 9

의 중앙값은 '''4.5'''이다. 즉, (4 + 5)/2이다.

일반적으로 이러한 관례에 따라 중앙값은 다음과 같이 정의할 수 있다. n개의 요소로 구성된 데이터 집합 x에서 가장 작은 것부터 가장 큰 것까지 순서대로 정렬했을 때,

: n이 홀수이면, \operatorname{med}(x) = x_{(n + 1)/ 2}

: n이 짝수이면, \operatorname{med}(x) = \frac{x_{(n/2)} + x_{((n/2)+1)}}{2}

값 [ 1, 2, 2, 3, 4, 7, 9 ]의 일반적인 평균 비교
유형설명예시결과
중앙값데이터 집합의 최솟값과 최댓값 사이의 중간 지점1, 2, 2, 3, 4, 7, 95
산술 평균데이터 집합의 값의 합을 값의 개수로 나눈 값: \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i(1 + 2 + 2 + 3 + 4 + 7 + 9) / 74
중앙값데이터 집합의 더 큰 절반과 더 작은 절반을 구분하는 가운데 값1, 2, 2, 3, 4, 7, 93
최빈값데이터 집합에서 가장 빈번한 값1, 2, 2, 3, 4, 7, 92


4. 2. 효율적인 계산

연산을 통해 크기가 ''n''인 항목을 비교 정렬할 수 있지만, 선택 알고리즘을 사용하면 연산만으로 n개의 항목 중 k번째로 작은 값(k번째 순서 통계량)을 계산할 수 있다. 중앙값은 번째 순서 통계량(샘플 수가 짝수일 경우 두 중간 순서 통계량의 산술 평균)에 해당한다.[25]

선택 알고리즘은 Ω(''n'') 메모리가 필요하며, 이는 전체 샘플(또는 선형 크기의 일부)을 메모리에 저장해야 함을 의미한다. 이러한 메모리 및 시간 요구사항은 부담이 될 수 있으므로, 중앙값 추정을 위한 여러 절차가 개발되었다. 그 중 하나는 세 가지 규칙의 중앙값으로, 세 요소로 구성된 하위 샘플의 중앙값을 추정한다. 이 방법은 퀵 정렬 알고리즘에서 하위 루틴으로 자주 사용된다. 더 강력한 강건 추정량은 튜키의 ''나인서(ninther)''인데, 이는 제한된 재귀를 통해 적용된 세 가지 규칙의 중앙값이다.[26] A가 배열로 배치된 샘플일 때, 나인서는 다음과 같이 정의된다.

:

''리메디안(remedian)''은 선형 시간이지만 준선형 메모리가 필요한 중앙값 추정량으로, 샘플을 한 번만 통과하여 작동한다.[27]

5. 응용

중앙값은 평균처럼 집단의 대표값을 나타내는 데 사용된다. 특히 소득 데이터와 같이 일부 극단값에 의해 평균이 왜곡될 수 있는 경우에 유용하다.

예를 들어 100명의 마을 주민 중 90명이 연 200만 엔을 벌고, 10명이 연 5000만 엔을 번다면, 평균 연소득은 680만 엔이 된다. 하지만 중앙값은 소득 순서대로 사람들을 나열했을 때 정확히 중간에 있는 사람의 소득, 즉 200만 엔이 된다. 이는 일부 부유층의 소득이 중앙값에 큰 영향을 주지 않음을 보여준다. 억만장자가 이 마을로 이사 오더라도 평균 소득은 크게 증가하지만, 중앙값은 거의 변하지 않거나 한 단계 정도만 오를 수 있다.

중앙값의 주요 특징은 다음과 같다.


  • 데이터 분포가 대칭이면 중앙값은 평균과 같다. 하지만 분포가 대칭이 아니더라도 중앙값과 평균이 같을 수 있다.
  • 중앙값은 극단값의 영향을 거의 받지 않아, 평균보다 전체 경향을 더 잘 나타내는 대표값으로 사용될 수 있다.
  • 데이터가 양수 값만 가지는 경우처럼 분포가 비대칭적일 때, 소수의 큰 값 때문에 평균이 대부분의 값에서 크게 벗어날 수 있지만, 중앙값은 이러한 영향이 적다.
  • \pm \infty를 포함하는 데이터에 대해서도 중앙값은 유한한 값을 가질 수 있다. (평균은 무한하거나 정의되지 않을 수 있다.)
  • 중앙값은 분포의 계곡에 위치하는 경우가 평균보다 적다.
  • 중앙값은 선형 범용 선택 알고리즘을 사용하면 \mathrm{O}(n)의 계산량으로 구할 수 있다. (평균도 \mathrm{O}(n)). 순차적으로 데이터가 주어지는 경우, 모든 데이터를 보관해야 하므로 \mathrm{O}(n)의 메모리가 필요하다. (평균은 \mathrm{O}(1)).
  • 평균을 대표값으로 사용할 때는 분산이나 표준편차로 분포의 퍼짐 정도를 나타내는 경우가 많다. 반면, 중앙값을 대표값으로 사용할 때는 사분위수 범위(IQR)로 분포의 퍼짐 정도를 나타내는 경우가 많다.


5. 1. 통계적 추론

중앙값은 극단값에 민감하지 않은 위치 추정치로 사용될 수 있다. 이는 중앙값이 왜곡된 분포나 이상치가 존재하는 데이터에서 평균보다 더 안정적인 대표값을 제공하기 때문이다.[6]

예를 들어, 다음과 같은 숫자들을 생각해 보자.

: 1, 2, 2, 2, 3, 14

이 경우 중앙값은 2이며, 이는 최빈값과 같다. 이는 값 중 하나를 제외한 모든 값보다 큰 산술평균인 4보다 중심을 더 잘 나타내는 것으로 볼 수 있다.[5]

중앙값은 집합의 중간 데이터를 기반으로 하므로, 극단적인 결과값을 알 필요 없이 계산할 수 있다. 예를 들어, 문제 해결에 필요한 시간을 조사하는 심리학적 테스트에서 일부 참가자가 주어진 시간 안에 문제를 전혀 풀지 못했더라도 중앙값을 계산할 수 있다.[6]

중앙값은 이해하기 쉽고 계산하기 쉬우며, 평균에 대한 강건한 근사치이기 때문에 기술 통계에서 널리 사용되는 요약 통계량이다.[6] 변동성을 측정하는 방법으로는 범위, 사분위범위, 평균 절대 편차, 중앙값 절대 편차 등이 있다.[6]

표본 중앙값을 사용하여 추정된 중앙값은 주어진 모집단 분포를 가정할 때 항상 최적은 아니지만, 그 특성은 일반적으로 양호하다. 데이터가 긴 꼬리 분포나 분포의 혼합물로 오염되지 않은 경우에만 표본 평균이 통계적으로 더 효율적이다. 중앙값은 최소 분산 평균(큰 정규 표본의 경우)에 비해 64%의 효율성을 가지는데, 이는 중앙값의 분산이 평균의 분산보다 약 50% 더 크다는 것을 의미한다.[7][8]

중앙값은 평균값과 마찬가지로 집단의 대표값을 얻는 데 사용된다. 예를 들어, 연소득 데이터의 경우를 생각해 보면 이해하기 쉽다.

100명의 마을에서 90명의 연소득이 200만 엔이고, 10명의 연소득이 5000만 엔이라면, 평균 연소득은 680만 엔이 된다. 반면 중앙값은 연소득이 낮은 순서대로 사람들을 나열했을 때 정확히 중간에 있는 사람의 연소득을 나타내므로, 이 경우 중앙값은 200만 엔이 된다. 즉, 일부 부유층의 연소득이 중앙값에 미치는 영향은 없다.

억만장자 1명이 인구가 적은 마을로 이사 온다면 평균 연소득은 크게 올라가지만, 연소득 중앙값은 기껏해야 1순위 오르는 데 그친다.

다음은 중앙값의 주요 특징이다.

  • 데이터의 분포가 대칭이면 중앙값은 평균값과 같다. 그러나 분포가 대칭이 아니더라도 중앙값과 평균값이 같을 수 있다.
  • 중앙값은 극값의 영향을 거의 받지 않아 평균값보다 전체 경향을 나타내는 대표값으로 더 적절한 경우가 많다.
  • 데이터가 양수 값만 가지는 등 제한적인 경우, 분포는 더 비대칭적이 되기 쉽고, 소수의 큰 값에 의해 평균값이 대부분의 분포보다 크게 벗어날 수 있다. 하지만 중앙값은 그러한 영향이 거의 없다.
  • \pm \infty를 포함하는 데이터에 대해서도 중앙값은 유한할 수 있다.(평균값은 반드시 무한 또는 불확정이 된다.)
  • 중앙값은 분포의 계곡에 위치하는 경우가 평균값에 비해 적다.(평균값은 이봉분포에 대해 종종 계곡에 위치한다.)
  • 중앙값을 구하려면 선형 범용 선택 알고리즘을 사용하면 \mathrm{O}(n)의 계산량으로 구할 수 있다(평균값도 \mathrm{O}(n)). 순차적으로 데이터가 얻어지는 경우 모든 데이터를 보관해야 하므로 \mathrm{O}(n)의 메모리가 필요하다(평균값은 \mathrm{O}(1)).
  • 대표값으로 평균값을 사용할 때는 분포의 퍼짐 정도를 분산 또는 표준편차로 나타내는 경우가 많다. 반대로, 대표값으로 중앙값을 사용할 때는 분포의 퍼짐 정도를 제3사분위수와 제1사분위수의 차이인 사분위수 범위(IQR)로 나타내는 경우가 많다.

5. 2. 특정 분포의 중앙값

특정 분포의 중앙값은 그 매개변수로부터 쉽게 계산할 수 있다. 또한, 코시 분포와 같이 잘 정의된 평균이 없는 일부 분포에서도 중앙값은 존재한다.

  • 대칭 단봉 분포의 중앙값은 최빈값과 일치한다.
  • 평균 μ를 갖는 대칭 분포의 중앙값도 μ 값을 가진다.
  • 평균 μ 및 분산 σ²을 갖는 정규 분포의 중앙값은 μ이다. 사실, 정규 분포의 경우 평균, 중앙값, 최빈값은 모두 같다.
  • 구간 [a, b]의 균등 분포의 중앙값은 (a + b) / 2이며, 이는 평균과도 같다.
  • 위치 매개변수 x₀ 및 척도 매개변수 y를 갖는 코시 분포의 중앙값은 위치 매개변수 x₀이다.
  • 지수 a > 1을 갖는 멱 법칙 분포 x⁻ᵃ의 중앙값은 21/(a − 1)xmin이다. 여기서 xmin은 멱 법칙이 적용되는 최소값이다.[10]
  • 율 매개변수 λ를 갖는 지수 분포의 중앙값은 율 매개변수로 2의 자연로그를 나눈 값이다: λ⁻¹ln 2.
  • 형상 매개변수 k 및 척도 매개변수 λ를 갖는 와이블 분포의 중앙값은 λ(ln 2)1/k이다.

5. 3. 다변량 중앙값

주변 중앙값(Marginal median)은 고정된 좌표계에 대해 정의된 벡터에서 각 성분별로 단변량 중앙값을 계산하여 구성한 벡터이다. 주변 중앙값은 계산이 쉽고, 그 특성은 Puri와 Sen에 의해 연구되었다.[36][40]

기하 중앙값(Geometric median)은 유클리드 공간의 이산적인 표본점 집합 x_1,\ldots x_N에 대해, 모든 표본점들과의 거리 합을 최소화하는 점이다.

:\hat\mu = \underset{\mu\in \mathbb{R}^m}{\operatorname{arg\,min}} \sum_{n=1}^{N} \left \| \mu-x_n \right \|_2

주변 중앙값과 달리 기하 중앙값은 평행이동 및 회전과 같은 유클리드 닮음 변환에 대해 동변량이다.

모든 좌표계에 대한 주변 중앙값이 일치하는 경우, 그 공통 위치를 "모든 방향의 중앙값"이라고 한다.[42] 이 개념은 중위 유권자 정리와 관련이 있으며, 투표 이론에서 중요하게 다루어진다. 모든 방향의 중앙값은 존재하는 경우 기하 중앙값과 일치한다(적어도 이산 분포의 경우).

5. 4. 기타 중앙값 관련 개념

조건부 중앙값 (Conditional median영어)

: 특정 조건을 만족하는 데이터만을 대상으로 계산한 중앙값이다.

가짜 중앙값 (Pseudo-median영어)

: 단변량 분포에서 대칭일 경우, 모집단 중앙값의 강건하고 효율적인 추정량인 호지스-레만 추정량을 사용할 수 있다. 비대칭 분포의 경우에는 대칭화된 분포의 중앙값에 가까운 모집단 가짜 중앙값을 추정한다.[44] 호지스-레만 추정량은 다변량 분포로 일반화할 수 있다.[45]

테일-센 추정량 (Theil-Sen estimator영어)

: 기울기의 중앙값을 찾아 로버스트한 선형 회귀를 위한 방법이다.[46]

중앙값 필터 (Median filter영어)

: 영상 처리에서 중요한 도구로, 흑백 영상에서 솔트 앤 페퍼 노이즈를 효과적으로 제거할 수 있다.

k-중앙값 군집화 (k-medians clustering영어)

: 군집 분석에서 군집을 정의하는 방법으로, k-평균 군집화에서 사용되는 군집 평균 간의 거리를 최대화하는 기준 대신 군집 중앙값 간의 거리를 최대화하는 기준을 사용한다.

중앙값-중앙값 선 (Median-median line영어)

: 강건 회귀의 한 방법이다. 1940년 아브라함 발트는 독립 변수(x)의 값에 따라 이변량 데이터 집합을 중앙값 기준으로 두 부분으로 나누는 것을 제안했다.[47] 왼쪽 부분과 오른쪽 부분의 종속 변수(y)와 독립 변수 (x)의 평균을 구하고, 이 두 점을 잇는 직선의 기울기를 추정하여 데이터에 맞게 조정한다. 이후 여러 학자들에 의해 발전되었으며, 1951년 브라운과 무드는 평균 대신 두 하위 표본의 중앙값을 사용하는 방법을 제안했다.[49]

6. 역사

중앙값이라는 개념은 6세기 탈무드에서 평가를 공정하게 분석하기 위해 등장했다.[55][56] 그러나 이 개념은 더 넓은 과학계로 확산되지 않았다.

현대 중앙값과 가장 가까운 개념은 알 비루니가 고안한 중앙값(mid-range)이다.[57][58] 대항해시대 동안 해상 항해의 필요성이 증가하면서, 요약 통계량에 대한 관심이 높아졌고, 중앙값은 다시 주목받게 되었다.

에드워드 라이트는 1599년 자신의 저서에서 중앙값 개념을 언급했다.[60] 그는 측정값을 버리는 것을 꺼려 중앙값이 더 정확할 수 있다고 생각했다.

크리스티안 호이겐스의 서신에는 확률의 맥락에서 중앙값이 등장하지만, 보험 수리 실무에 부적절한 통계량으로 나타난다.[54]

1757년 로저 조셉 보스코비치는 ''L''1 놈 기반 회귀 방법을 개발하여 중앙값을 사용했다.[54][61] 1774년 라플라스는 오차의 예상 크기를 최소화하기 위해 중앙값을 사용할 것을 제안했다.[28][62]

1843년 앙투안 오귀스탱 쿠르누는 확률 분포를 둘로 나누는 값에 "중앙값"(valeur médiane)이라는 용어를 처음 사용했다.[64] 구스타프 테오도르 페히너는 사회 및 심리 현상에 중앙값(Centralwerth)을 사용했다.[65] 프랜시스 골턴은 1881년에 "중앙값"이라는 용어를 사용했다.[67][68]

7. 한국 사회와 중앙값

한국 사회에서 소득 불평등은 중요한 사회 문제이며, 중앙값은 이러한 불평등을 파악하는 데 유용한 지표이다. 가계 소득 중앙값은 평균 소득보다 중산층의 경제적 상황을 더 잘 반영하며, 소득 불평등 심화는 중앙값과 평균 소득의 격차를 확대시킨다.

예를 들어, 일부 부유층이 평균 연소득을 크게 끌어올리는 경우를 생각해 보자. 인구 100명의 마을에서 90명의 연소득이 200만이더라도, 10명의 연소득이 5000만이라면 평균 연소득은 680만이 된다. 반면 중앙값은 연소득이 낮은 순서(또는 높은 순서)로 나열했을 때 정확히 중간에 있는 사람의 연소득을 나타내므로, 이 경우 중앙값은 여전히 200만이며, 일부 부유층의 연소득이 중앙값에 미치는 영향은 없다. 억만장자 1명이 인구가 적은 마을로 이사 온다면 평균 연소득은 올라가지만, 연소득 중앙값은 거의 변화가 없을 것이다.

통계청 자료에 따르면, 2022년 한국 가구 소득 중앙값은 54.09억이고, 평균 소득은 64.14억으로 상당한 격차를 보인다. 이는 소득 불평등이 심각하며, 상위 소득 계층이 평균 소득을 끌어올리는 현상을 반영한다.

더불어민주당은 소득 불평등 완화를 주요 정책 목표 중 하나로 삼고 있으며, 최저임금 인상, 누진세 강화, 상속세 강화 등 다양한 정책을 통해 소득 격차를 줄이고 중산층을 복원하고자 한다. 반면, 보수 정당인 국민의힘은 성장 중심의 경제 정책을 통해 소득 증대를 추구하며, 규제 완화, 감세 정책 등을 주장한다. 이러한 정책은 소득 불평등을 심화시킬 수 있다는 비판을 받기도 한다.

참조

[1] MathWorld Statistical Median https://mathworld.wo[...]
[2] 웹사이트 Descriptive statistics https://web.archive.[...] Pennsylvania State Department of Statistics 2010-07-30
[3] 서적 Statistical Methods for Spc and Tqm https://books.google[...] CRC Press 2013-02-25
[4] 서적 Handbook of Parametric and Nonparametric Statistical Procedures https://books.google[...] CRC Press 2003-08-27
[5] 논문 Mean, Median, and Skew: Correcting a Textbook Rule https://web.archive.[...] 2015-06-18
[6] 서적 Experiment, Design and Statistics in Psychology Penguin 1994
[7] 서적 Weighing the Odds https://archive.org/[...] Cambridge University Press
[8] 서적 Data Analysis and Graphics Using R: An Example-Based Approach https://books.google[...] Cambridge University Press 2010-05-06
[9] 웹사이트 AP Statistics Review - Density Curves and the Normal Distributions http://apstatsreview[...] 2015-03-16
[10] 논문 Power laws, Pareto distributions and Zipf's law
[11] 서적 Probability Theory https://archive.org/[...] Cambridge University Press
[12] 서적 Optimal Statistical Decisions https://books.google[...] McGraw-Hill Book Co., New York-London-Sydney
[13] 논문 How close are the mean and the median? https://www.jstor.or[...] 2022-03-12
[14] 논문 Nearness Relations Among Measures of Central Tendency and Dispersion: Part 1 https://www.tandfonl[...] 2022-03-12
[15] 논문 The mean is within one standard deviation of any median https://www.tandfonl[...] 2022-03-12
[16] 논문 Another comment on O'Cinneide 1991-08
[17] 서적 Random Vectors and Random Sequences Lambert Academic Publishing
[18] 논문 The median of a finite measure on a Banach space: Statistical data analysis based on the L1-norm and related methods North-Holland Publishing Co.
[19] 논문 Uniqueness of the spatial median
[20] 웹사이트 Notes on probability and statistics http://www.montefior[...]
[21] 논문 The Mean, Median, and Mode of Unimodal Distributions:A Characterization
[22] 논문 Mean, Median, and Skew: Correcting a Textbook Rule 2005-01
[23] 논문 The Mode, Median, and Mean Inequality http://www.tandfonli[...] 1977-08
[24] 논문 Jensen's inequality for medians
[25] 서적 The Design and Analysis of Computer Algorithms https://archive.org/[...] Addison-Wesley
[26] 논문 Engineering a sort function http://citeseer.ist.[...]
[27] 논문 The remedian: a robust averaging method for large data sets http://wis.kuleuven.[...]
[28] 논문 Studies in the History of Probability and Statistics. XXXII: Laplace, Fisher and the Discovery of the Concept of Sufficiency 1973-12
[29] 논문 Variance of the median of small samples from several special populations
[30] 서적 The Jackknife, the Bootstrap and other Resampling Plans SIAM
[31] 논문 A General Theory for Jackknife Variance Estimation
[32] 논문 Bootstrap Methods: Another Look at the Jackknife
[33] 논문 Exact Convergence Rate of Bootstrap Quantile Variance Estimator
[34] 논문 Reduced bootstrap for the median http://www3.stat.sin[...]
[35] 서적 Data Analysis and Graphics Using R: An Example-Based Approach https://books.google[...] Cambridge University Press 2010-05-06
[36] 서적 Robust nonparametric statistical methods Edward Arnold
[37] 간행물 A survey of multidimensional medians
[38] 백과사전 Multivariate median
[39] 서적 Multivariate Dispersion, Central Regions, and Depth: The Lift Zonoid Approach Springer Science & Business Media
[40] 서적 Nonparametric Methods in Multivariate Analysis John Wiley & Sons
[41] 논문 The multivariate L1-median and associated data depth
[42] 논문 Social Preference Orderings and Majority Rule https://www.cmu.edu/[...] 1972-01-01
[43] 논문 L1 Estimation: On the Optimality of Linear Estimators 2024-08-22
[44] 논문 Pseudomedian Filter 1985-07-11
[45] 서적 Multivariate nonparametric methods with R: An approach based on spatial signs and ranks Springer
[46] 서적 Fundamentals of Modern Statistical Methods: Substantially Improving Power and Accuracy https://books.google[...] Springer-Verlag
[47] 논문 The Fitting of Straight Lines if Both Variables are Subject to Error http://dml.cz/bitstr[...]
[48] 논문 On a Simple Method of Curve Fitting
[49] 서적 Proc Second Berkeley Symposium on Mathematical Statistics and Probability University of California Press
[50] 서적 Exploratory Data Analysis https://archive.org/[...] Addison-Wesley
[51] 논문 On optimal median unbiased estimators in the presence of nuisance parameters
[52] 논문 A Complete Class Theorem for Strict Monotone Likelihood Ratio With Applications http://projecteuclid[...]
[53] 논문 A Complete Class Theorem for Strict Monotone Likelihood Ratio With Applications http://projecteuclid[...]
[54] 논문 An Historical Phenomenology of Mean and Median 2006-06-01
[55] 웹사이트 Talmud and Modern Economics https://web.archive.[...] 2014-12-31
[56] 웹사이트 Modern Economic Theory in the Talmud http://www.wisdom.we[...]
[57] 강연 The Development of the Concept of the Best Mean of a Set of Measurements from Antiquity to the Present Day https://www.stat.uch[...] 1971-08-24
[58] 웹사이트 How the Average Triumphed Over the Median http://priceonomics.[...] 2016-04-05
[59] 논문 The Life and Works of Luca Pacioli (1446/7–1517), Humanist Educator https://onlinelibrar[...] 2021-03-01
[60] 논문 Edward Wright and His Work https://www.jstor.or[...]
[61] 서적 The History of Statistics: The Measurement of Uncertainty Before 1900 https://archive.org/[...] Harvard University Press
[62] 서적 Deuxième supplément à la Théorie Analytique des Probabilités Courcier
[63] 서적 Probability theory : the logic of science Cambridge Univ. Press
[64] 서적 Dictionary of Mathematical Geosciences: With Historical Notes Springer
[65] 서적 A Treatise on Probability
[66] 서적 Statistics on the Table: The History of Statistical Concepts and Methods https://books.google[...] Harvard University Press
[67] 간행물 Report of the Anthropometric Committee https://www.biodiver[...]
[68] 논문 First (?) Occurrence of Common Terms in Mathematical Statistics
[69] 웹사이트 Galton, Francis https://www.encyclop[...]
[70] 웹사이트 http://www.personal.[...]
[71] 논문 On Small-Sample Estimation
[72] 논문 A General Concept of Unbiasedness
[73] 논문 A Unified Theory of Estimation, I
[74] 논문 Some Extensions of the Idea of Bias
[75] 서적 Parametric Statistical Theory Walter de Gruyter
[76] 서적 https://books.google[...]
[77] 서적



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com