사분위수

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

사분위수는 데이터를 크기 순서로 정렬했을 때 25%, 50%, 75% 지점에 해당하는 값으로, 각각 제1사분위수, 제2사분위수(중앙값), 제3사분위수로 불린다. 사분위수를 통해 데이터의 중심 위치와 데이터의 퍼짐 정도를 파악할 수 있다. 사분위수는 이산 분포, 연속 확률 분포 등 다양한 데이터 유형에 따라 계산 방법이 다르며, 이상치 탐지에도 활용된다. 다양한 통계 소프트웨어와 프로그래밍 언어에서 사분위수를 계산하는 함수를 제공하며, 상자 그림을 통해 시각적으로 표현할 수 있다.

사분위수

통계 정보

정의	자료를 4개의 동일한 크기로 나누는 통계값
종류	제1사분위수 (Q1) 제2사분위수 (Q2, 중앙값) 제3사분위수 (Q3)

계산 방법

위치 기반 계산	Q1: (n + 1) / 4 번째 값 Q2: (n + 1) / 2 번째 값 Q3: 3 * (n + 1) / 4 번째 값
보간 계산	Q1: (n + 1) / 4 번째 값에 해당하는 데이터 값 Q2: (n + 1) / 2 번째 값에 해당하는 데이터 값 Q3: 3 * (n + 1) / 4 번째 값에 해당하는 데이터 값

활용

분포 파악	자료의 분포와 퍼짐 정도를 파악하는 데 사용
이상치 감지	사분위수 범위를 이용하여 이상치를 감지
상자 그림	사분위수 값을 사용하여 상자 그림을 그림
데이터 분석	데이터 분석에 사용되는 기본적인 통계량 데이터의 중심 경향성과 변동성을 파악

사분위 범위 (IQR)	제3사분위수에서 제1사분위수를 뺀 값 (Q3 - Q1)
백분위수	자료를 100개의 동일한 크기로 나눈 통계값
중앙값	자료를 정확히 반으로 나누는 통계값 (제2사분위수와 동일)

주의사항	자료의 크기가 작을 때는 사분위수가 자료의 특징을 제대로 반영하지 못할 수 있음 이상치에 민감하지 않은 특징

정의	통계에서 자료를 4등분하는 값들
종류	제1사분위수 (Q1): 전체 자료의 25%에 해당 제2사분위수 (Q2): 전체 자료의 50%에 해당 (중앙값) 제3사분위수 (Q3): 전체 자료의 75%에 해당
사분위 범위	제3사분위수(Q3)와 제1사분위수(Q1) 사이의 범위

위치 계산	Q1: (n+1) / 4 번째 값 Q2: (n+1) / 2 번째 값 Q3: 3(n+1) / 4 번째 값
보간 계산	Q1: (n+1) / 4 번째 값에 해당하는 실제 데이터 값 Q2: (n+1) / 2 번째 값에 해당하는 실제 데이터 값 Q3: 3(n+1) / 4 번째 값에 해당하는 실제 데이터 값

자료 분포	자료의 분포와 퍼짐 정도를 파악하는 데 사용
이상값 탐지	사분위수 범위를 사용하여 이상값을 탐지
상자 그림	상자 그림을 그릴 때 사용
데이터 분석	데이터의 특징을 파악하는 데 사용

백분위수	자료를 100등분하는 값들
중앙값	자료를 정확히 반으로 나누는 값 (제2사분위수와 동일)
사분위 편차	사분위 범위의 절반 (Q3-Q1)/2

유의점	데이터 크기가 작을 때는 왜곡될 수 있음 이상치에 강건한 특징

2. 정의

상자 그림(사분위수와 사분위범위 포함)과 정규분포 N(0,1σ2) 모집단의 확률밀도함수(pdf) — 상자 그림(사분위수와 사분위범위 포함)과 정규분포 N(0,1σ²) 모집단의 확률밀도함수(pdf)

사분위수는 데이터를 크기 순서대로 정렬했을 때 25%, 50%, 75% 지점에 해당하는 값이다. 각각 제1사분위수(Q1), 제2사분위수(Q2, 중앙값), 제3사분위수(Q3)라고 부른다. 사분위수를 통해 데이터의 중심 위치뿐만 아니라, 데이터가 얼마나 넓게 퍼져 있는지(산포도)를 파악할 수 있다.

👆

좌우로 밀어서 보기

기호	명칭	정의
Q₁	제1사분위수, 하위 사분위수, 25번째 백분위수	데이터의 하위 25%를 상위 75%와 분리한다.
Q₂	제2사분위수, 중앙값, 50번째 백분위수	데이터 집합을 절반으로 나눈다.
Q₃	제3사분위수, 상위 사분위수, 75번째 백분위수	데이터의 상위 25%를 하위 75%와 분리한다.

3. 계산 방법

사분위수를 계산하는 방법은 여러 가지가 있으며, 통계 소프트웨어나 프로그래밍 언어마다 조금씩 다른 방식을 사용한다. 이산 확률 분포의 경우 사분위수 값을 구하는 데 보편적으로 합의된 방법은 없다. 연속 확률 분포의 경우 누적분포함수와 분위수 함수를 이용하여 사분위수를 계산할 수 있다.

3.1. 이산 분포

이산 확률 분포의 경우, 사분위수 값을 선택하는 데 있어 보편적으로 합의된 방법은 없다. 이산적인 데이터의 사분위수는 중앙값을 기준으로 데이터를 두 부분으로 나누고, 각 부분의 중앙값을 다시 계산하여 구한다. 이때 데이터 개수가 홀수인지 짝수인지에 따라 중앙값을 포함할지 여부를 결정하는 다양한 방법이 존재한다.

3.1.1. 방법 1

정렬된 데이터 집합을 중앙값을 사용하여 두 부분으로 나눈다. 중앙값은 제2사분위수가 된다.

* 원래 정렬된 데이터 집합에 데이터 포인트가 홀수 개인 경우, 중앙값(정렬된 목록의 중앙값)을 어느 쪽 절반에도 포함하지 않는다.
* 원래 정렬된 데이터 집합에 데이터 포인트가 짝수 개인 경우, 이 데이터 집합을 정확히 절반으로 나눈다.

하위 사분위수 값은 데이터의 하위 절반의 중앙값이고, 상위 사분위수 값은 데이터의 상위 절반의 중앙값이다. 이 규칙은 TI-83 계산기의 상자 그림 및 "1-Var Stats" 함수에서 사용된다.

3.1.2. 방법 2

정렬된 데이터 집합을 중앙값을 사용하여 두 개의 절반으로 나눈다. 중앙값은 2사분위수가 된다.

* 원래 정렬된 데이터 집합에 데이터 포인트의 개수가 홀수이면 중앙값(정렬된 목록의 중앙값)을 두 절반 모두에 포함한다.
* 원래 정렬된 데이터 집합에 데이터 포인트의 개수가 짝수이면 이 데이터 집합을 정확히 절반으로 나눈다.

하위 사분위수 값은 데이터 하위 절반의 중앙값이고, 상위 사분위수 값은 데이터 상위 절반의 중앙값이다.

이 방법으로 구한 값은 튜키의 힌지라고도 알려져 있다. 중앙값 힌지(midhinge)도 참조.

3.1.3. 방법 3

정렬된 데이터 집합을 중앙값을 사용하여 두 개의 절반으로 나눈다. 중앙값은 제2사분위수가 된다.

* 데이터 포인트의 개수가 짝수이면, 방법 3은 위의 방법 1 또는 방법 2와 동일하게 시작하며 중앙값을 새로운 데이터 포인트에 포함할지 여부를 선택할 수 있다. 중앙값을 새로운 데이터 포인트에 포함하기로 선택하면, 이제 데이터 포인트의 개수가 홀수이므로 아래 2단계 또는 3단계로 진행한다. 중앙값을 새로운 데이터 포인트로 선택하지 않으면, 시작했던 방법 1 또는 2를 계속 진행한다.
* 데이터 포인트가 (4n+1)개인 경우, 하위 사분위수는 n번째 데이터 값의 25%와 (n+1)번째 데이터 값의 75%를 더한 값이며, 상위 사분위수는 (3n+1)번째 데이터 포인트의 75%와 (3n+2)번째 데이터 포인트의 25%를 더한 값이다.
* 데이터 포인트가 (4n+3)개인 경우, 하위 사분위수는 (n+1)번째 데이터 값의 75%와 (n+2)번째 데이터 값의 25%를 더한 값이며, 상위 사분위수는 (3n+2)번째 데이터 포인트의 25%와 (3n+3)번째 데이터 포인트의 75%를 더한 값이다.

3.1.4. 방법 4

정렬된 데이터 집합 $x_1, x_2, ..., x_n$ 이 있을 때, 데이터 점 사이를 보간하여 $x_i$ 가 $i/(n+1)$ 분위수에 있으면 $p$ 번째 경험적 분위수를 찾을 수 있다. 어떤 수 $a$ 의 정수 부분을 $\lfloor a \rfloor$ 로 나타낼 때, 경험적 분위수 함수는 다음과 같이 주어진다.

: $q(p/4) = x_{k} + \alpha(x_{k+1} - x_{k})$

여기서 $x_{k}$ 는 p번째 사분위수의 마지막 데이터 점이고, $x_{k+1}$ 는 p+1번째 사분위수의 첫 번째 데이터 점이다.

$\alpha$ 는 사분위수가 $x_{k}$ 와 $x_{k+1}$ 사이에 어디에 위치하는지를 나타낸다. $\alpha = 0$ 이면 사분위수는 $x_{k}$ 에 정확히 위치한다. $\alpha = 0.5$ 이면 사분위수는 $x_{k}$ 와 $x_{k+1}$ 의 정확히 중간에 위치한다.

: $q(p/4) = x_{k} + \alpha(x_{k+1} - x_{k})$

여기서 $k = \lfloor p(n+1)/4 \rfloor$ 이고 $\alpha = p(n+1)/4 - \lfloor p(n+1)/4 \rfloor$ 이다.

데이터 집합의 1사분위수, 2사분위수, 3사분위수를 찾으려면 각각 $q(0.25)$ , $q(0.5)$ , $q(0.75)$ 를 계산한다.

3.2. 연속 확률 분포

연속 확률분포를

P(X)

(여기서

X

는 실수값을 가지는 확률변수)로 정의하면, 누적분포함수(CDF)는 다음과 같이 주어진다.

:

F_X(x) = P(X \leq x)

.

누적분포함수는 확률변수

X

가 값

x

보다 작거나 같을 확률을 나타낸다. 따라서 제1사분위수는

F_X(x) = 0.25

일 때의

x

값이며, 제2사분위수는

F_X(x) = 0.5

일 때의

x

값이고, 제3사분위수는

F_X(x) = 0.75

일 때의

x

값이다.

x

의 값은 분위수 함수

Q(p)

를 사용하여 찾을 수 있는데, 제1사분위수일 때

p = 0.25

, 제2사분위수일 때

p = 0.5

, 제3사분위수일 때

p = 0.75

이다. 누적분포함수가 단조증가 함수일 경우 분위수 함수는 누적분포함수의 역함수인데, 이는 누적분포함수의 입력값과 출력값 사이에 일대일 대응 관계가 성립하기 때문이다.

4. 이상치

사분위수 범위(IQR, Q3 - Q1)를 이용하여 이상치를 판별할 수 있다. IQR의 1.5배를 기준으로 하한 울타리와 상한 울타리를 설정하고, 이 범위를 벗어나는 데이터를 이상치로 간주한다.

하한 울타리와 상한 울타리는 다음 공식을 사용하여 계산한다.

* 하한 울타리 = Q1 - (1.5 × IQR)
* 상한 울타리 = Q3 + (1.5 × IQR)

여기서 Q1은 하한 사분위수, Q3는 상한 사분위수, IQR은 사분위수 범위(Q3 - Q1)이다.

하한 울타리는 데이터의 "하한"이고 상한 울타리는 데이터의 "상한"이며, 이러한 정의된 경계 밖에 있는 데이터는 이상치로 간주할 수 있다. 울타리는 이상치를 정의하는 지침을 제공하며, 다른 방식으로 정의될 수도 있다. 울타리는 이상치가 존재하는 "범위"를 정의한다. 이를 그림으로 나타내면 울타리의 경계가 된다.

하한 및 상한 울타리와 이상치를 상자 그림으로 나타내는 것이 일반적이다. 상자 그림에서 울타리 밖에 있는 이상치는 "x" 또는 "o"와 같은 기호로 표시할 수 있다. 울타리는 때때로 "수염"이라고도 하며 전체 그림 시각화는 "상자 수염 그림"이라고 한다.

사분위수 범위와 상자 그림 특징을 계산하여 데이터 집합에서 이상치를 발견하면 모집단이 비정규적이거나 표본이 오염되었다는 증거로 잘못 볼 수 있다. 그러나 이 방법은 모집단의 정규성을 결정하기 위한 가설 검정을 대체해서는 안 된다. 이상치의 중요성은 표본 크기에 따라 다르다. 표본이 작으면 대표성이 없는 작은 사분위수 범위를 얻을 가능성이 더 높아져 울타리가 더 좁아진다. 따라서 이상치로 표시되는 데이터를 찾을 가능성이 더 높다.

5. 컴퓨터 소프트웨어

여러 통계 소프트웨어 및 프로그래밍 언어에서 사분위수를 계산하는 함수를 제공한다.

👆

좌우로 밀어서 보기

사분위수 계산 소프트웨어
환경	함수	사분위수 계산 방법
마이크로소프트 엑셀	QUARTILE.EXC	방법 4
마이크로소프트 엑셀	QUARTILE.INC	방법 3
TI-8X 계열 계산기	1-Var Stats	방법 1
R	fivenum	방법 2
Python	numpy.percentile	방법 3
Python	pandas.DataFrame.describe	방법 3