맨위로가기

사분위수

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

사분위수는 데이터를 크기 순서로 정렬했을 때 25%, 50%, 75% 지점에 해당하는 값으로, 각각 제1사분위수, 제2사분위수(중앙값), 제3사분위수로 불린다. 사분위수를 통해 데이터의 중심 위치와 데이터의 퍼짐 정도를 파악할 수 있다. 사분위수는 이산 분포, 연속 확률 분포 등 다양한 데이터 유형에 따라 계산 방법이 다르며, 이상치 탐지에도 활용된다. 다양한 통계 소프트웨어와 프로그래밍 언어에서 사분위수를 계산하는 함수를 제공하며, 상자 그림을 통해 시각적으로 표현할 수 있다.

더 읽어볼만한 페이지

  • 4 - 사진법
    사진법은 0, 1, 2, 3 네 가지 숫자로 수를 표현하는 방법으로, 컴퓨터 과학 분야에서 중요성이 커지고 정보 이론, 컴퓨터 하드웨어, 데이터베이스, 양자 컴퓨팅, 유전 암호, 데이터 전송 방식, 힐베르트 곡선 표현 등에 활용되며 과거에는 추마시어족 언어에서 사용되었다.
  • 4 - 4차원
    4차원은 한 점을 지정하는 데 4개의 독립적인 매개변수가 필요한 공간으로, 수학에서는 유클리드 공간과 민코프스키 시공간 등으로 구분되며, 물리학에서는 시공간 기술 및 여분 차원 가정에 활용되는 중요한 개념이다.
  • 통계학 - 확률
    확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다.
  • 통계학 - 세계 통계의 날
    세계 통계의 날은 통계의 중요성을 알리고 통계 조사의 협력을 얻기 위해 국제 연합 통계 위원회가 지정한 기념일이다.
사분위수
통계 정보
정의자료를 4개의 동일한 크기로 나누는 통계값
종류제1사분위수 (Q1)
제2사분위수 (Q2, 중앙값)
제3사분위수 (Q3)
계산 방법
위치 기반 계산Q1: (n + 1) / 4 번째 값
Q2: (n + 1) / 2 번째 값
Q3: 3 * (n + 1) / 4 번째 값
보간 계산Q1: (n + 1) / 4 번째 값에 해당하는 데이터 값
Q2: (n + 1) / 2 번째 값에 해당하는 데이터 값
Q3: 3 * (n + 1) / 4 번째 값에 해당하는 데이터 값
활용
분포 파악자료의 분포와 퍼짐 정도를 파악하는 데 사용
이상치 감지사분위수 범위를 이용하여 이상치를 감지
상자 그림사분위수 값을 사용하여 상자 그림을 그림
데이터 분석데이터 분석에 사용되는 기본적인 통계량
데이터의 중심 경향성과 변동성을 파악
관련 통계량
사분위 범위 (IQR)제3사분위수에서 제1사분위수를 뺀 값 (Q3 - Q1)
백분위수자료를 100개의 동일한 크기로 나눈 통계값
중앙값자료를 정확히 반으로 나누는 통계값 (제2사분위수와 동일)
기타
주의사항자료의 크기가 작을 때는 사분위수가 자료의 특징을 제대로 반영하지 못할 수 있음
이상치에 민감하지 않은 특징
기본 정보
정의통계에서 자료를 4등분하는 값들
종류제1사분위수 (Q1): 전체 자료의 25%에 해당
제2사분위수 (Q2): 전체 자료의 50%에 해당 (중앙값)
제3사분위수 (Q3): 전체 자료의 75%에 해당
사분위 범위제3사분위수(Q3)와 제1사분위수(Q1) 사이의 범위
계산 방법
위치 계산Q1: (n+1) / 4 번째 값
Q2: (n+1) / 2 번째 값
Q3: 3(n+1) / 4 번째 값
보간 계산Q1: (n+1) / 4 번째 값에 해당하는 실제 데이터 값
Q2: (n+1) / 2 번째 값에 해당하는 실제 데이터 값
Q3: 3(n+1) / 4 번째 값에 해당하는 실제 데이터 값
활용
자료 분포자료의 분포와 퍼짐 정도를 파악하는 데 사용
이상값 탐지사분위수 범위를 사용하여 이상값을 탐지
상자 그림상자 그림을 그릴 때 사용
데이터 분석데이터의 특징을 파악하는 데 사용
관련 통계
백분위수자료를 100등분하는 값들
중앙값자료를 정확히 반으로 나누는 값 (제2사분위수와 동일)
사분위 편차사분위 범위의 절반 (Q3-Q1)/2
기타
유의점데이터 크기가 작을 때는 왜곡될 수 있음
이상치에 강건한 특징

2. 정의

상자 그림(사분위수와 사분위범위 포함)과 정규분포 N(0,1σ2) 모집단의 확률밀도함수(pdf)


사분위수는 데이터를 크기 순서대로 정렬했을 때 25%, 50%, 75% 지점에 해당하는 값이다. 각각 제1사분위수(Q1), 제2사분위수(Q2, 중앙값), 제3사분위수(Q3)라고 부른다. 사분위수를 통해 데이터의 중심 위치뿐만 아니라, 데이터가 얼마나 넓게 퍼져 있는지(산포도)를 파악할 수 있다.

기호명칭정의
Q1제1사분위수, 하위 사분위수, 25번째 백분위수데이터의 하위 25%를 상위 75%와 분리한다.
Q2제2사분위수, 중앙값, 50번째 백분위수데이터 집합을 절반으로 나눈다.
Q3제3사분위수, 상위 사분위수, 75번째 백분위수데이터의 상위 25%를 하위 75%와 분리한다.


3. 계산 방법

사분위수를 계산하는 방법은 여러 가지가 있으며, 통계 소프트웨어나 프로그래밍 언어마다 조금씩 다른 방식을 사용한다.[3] 이산 확률 분포의 경우 사분위수 값을 구하는 데 보편적으로 합의된 방법은 없다.[3] 연속 확률 분포의 경우 누적분포함수와 분위수 함수를 이용하여 사분위수를 계산할 수 있다.[1][5]

3. 1. 이산 분포

이산 확률 분포의 경우, 사분위수 값을 선택하는 데 있어 보편적으로 합의된 방법은 없다.[3] 이산적인 데이터의 사분위수는 중앙값을 기준으로 데이터를 두 부분으로 나누고, 각 부분의 중앙값을 다시 계산하여 구한다. 이때 데이터 개수가 홀수인지 짝수인지에 따라 중앙값을 포함할지 여부를 결정하는 다양한 방법이 존재한다.

3. 1. 1. 방법 1

정렬된 데이터 집합을 중앙값을 사용하여 두 부분으로 나눈다. 중앙값은 제2사분위수가 된다.[1]

  • 원래 정렬된 데이터 집합에 데이터 포인트가 홀수 개인 경우, 중앙값(정렬된 목록의 중앙값)을 어느 쪽 절반에도 포함하지 않는다.[1]
  • 원래 정렬된 데이터 집합에 데이터 포인트가 짝수 개인 경우, 이 데이터 집합을 정확히 절반으로 나눈다.[1]


하위 사분위수 값은 데이터의 하위 절반의 중앙값이고, 상위 사분위수 값은 데이터의 상위 절반의 중앙값이다.[1] 이 규칙은 TI-83 계산기의 상자 그림 및 "1-Var Stats" 함수에서 사용된다.[1]

3. 1. 2. 방법 2

정렬된 데이터 집합을 중앙값을 사용하여 두 개의 절반으로 나눈다. 중앙값은 2사분위수가 된다.

  • 원래 정렬된 데이터 집합에 데이터 포인트의 개수가 홀수이면 중앙값(정렬된 목록의 중앙값)을 두 절반 모두에 포함한다.[4]
  • 원래 정렬된 데이터 집합에 데이터 포인트의 개수가 짝수이면 이 데이터 집합을 정확히 절반으로 나눈다.[4]


하위 사분위수 값은 데이터 하위 절반의 중앙값이고, 상위 사분위수 값은 데이터 상위 절반의 중앙값이다.[4]

이 방법으로 구한 값은 튜키의 힌지라고도 알려져 있다.[4] 중앙값 힌지(midhinge)도 참조.

3. 1. 3. 방법 3

정렬된 데이터 집합을 중앙값을 사용하여 두 개의 절반으로 나눈다. 중앙값은 제2사분위수가 된다.

  • 데이터 포인트의 개수가 짝수이면, 방법 3은 위의 방법 1 또는 방법 2와 동일하게 시작하며 중앙값을 새로운 데이터 포인트에 포함할지 여부를 선택할 수 있다. 중앙값을 새로운 데이터 포인트에 포함하기로 선택하면, 이제 데이터 포인트의 개수가 홀수이므로 아래 2단계 또는 3단계로 진행한다. 중앙값을 새로운 데이터 포인트로 선택하지 않으면, 시작했던 방법 1 또는 2를 계속 진행한다.
  • 데이터 포인트가 (4n+1)개인 경우, 하위 사분위수는 n번째 데이터 값의 25%와 (n+1)번째 데이터 값의 75%를 더한 값이며, 상위 사분위수는 (3n+1)번째 데이터 포인트의 75%와 (3n+2)번째 데이터 포인트의 25%를 더한 값이다.
  • 데이터 포인트가 (4n+3)개인 경우, 하위 사분위수는 (n+1)번째 데이터 값의 75%와 (n+2)번째 데이터 값의 25%를 더한 값이며, 상위 사분위수는 (3n+2)번째 데이터 포인트의 25%와 (3n+3)번째 데이터 포인트의 75%를 더한 값이다.

3. 1. 4. 방법 4

정렬된 데이터 집합 x_1, x_2, ..., x_n이 있을 때, 데이터 점 사이를 보간하여 x_ii/(n+1) 분위수에 있으면 p번째 경험적 분위수를 찾을 수 있다. 어떤 수 a의 정수 부분을 \lfloor a \rfloor로 나타낼 때, 경험적 분위수 함수는 다음과 같이 주어진다.

:q(p/4) = x_{k} + \alpha(x_{k+1} - x_{k})

여기서 x_{k}는 p번째 사분위수의 마지막 데이터 점이고, x_{k+1}는 p+1번째 사분위수의 첫 번째 데이터 점이다.

\alpha는 사분위수가 x_{k}x_{k+1} 사이에 어디에 위치하는지를 나타낸다. \alpha = 0이면 사분위수는 x_{k}에 정확히 위치한다. \alpha = 0.5이면 사분위수는 x_{k}x_{k+1}의 정확히 중간에 위치한다.

:q(p/4) = x_{k} + \alpha(x_{k+1} - x_{k})

여기서 k = \lfloor p(n+1)/4 \rfloor이고 \alpha = p(n+1)/4 - \lfloor p(n+1)/4 \rfloor이다.[1]

데이터 집합의 1사분위수, 2사분위수, 3사분위수를 찾으려면 각각 q(0.25), q(0.5), q(0.75)를 계산한다.

3. 2. 연속 확률 분포

정규분포의 누적분포함수 상의 사분위수


연속 확률분포를 P(X)(여기서 X는 실수값을 가지는 확률변수)로 정의하면, 누적분포함수(CDF)는 다음과 같이 주어진다.

:F_X(x) = P(X \leq x).[1]

누적분포함수는 확률변수 X가 값 x보다 작거나 같을 확률을 나타낸다. 따라서 제1사분위수는 F_X(x) = 0.25일 때의 x값이며, 제2사분위수는 F_X(x) = 0.5일 때의 x값이고, 제3사분위수는 F_X(x) = 0.75일 때의 x값이다.[5] x의 값은 분위수 함수 Q(p)를 사용하여 찾을 수 있는데, 제1사분위수일 때 p = 0.25, 제2사분위수일 때 p = 0.5, 제3사분위수일 때 p = 0.75이다. 누적분포함수가 단조증가 함수일 경우 분위수 함수는 누적분포함수의 역함수인데, 이는 누적분포함수의 입력값과 출력값 사이에 일대일 대응 관계가 성립하기 때문이다.

4. 이상치

사분위수 범위(IQR, Q3 - Q1)를 이용하여 이상치를 판별할 수 있다. IQR의 1.5배를 기준으로 하한 울타리와 상한 울타리를 설정하고, 이 범위를 벗어나는 데이터를 이상치로 간주한다.

하한 울타리와 상한 울타리는 다음 공식을 사용하여 계산한다.


  • 하한 울타리 = Q1 - (1.5 × IQR)
  • 상한 울타리 = Q3 + (1.5 × IQR)


여기서 Q1은 하한 사분위수, Q3는 상한 사분위수, IQR은 사분위수 범위(Q3 - Q1)이다.

하한 울타리는 데이터의 "하한"이고 상한 울타리는 데이터의 "상한"이며, 이러한 정의된 경계 밖에 있는 데이터는 이상치로 간주할 수 있다. 울타리는 이상치를 정의하는 지침을 제공하며, 다른 방식으로 정의될 수도 있다. 울타리는 이상치가 존재하는 "범위"를 정의한다. 이를 그림으로 나타내면 울타리의 경계가 된다.

이상치를 포함한 상자 그림


하한 및 상한 울타리와 이상치를 상자 그림으로 나타내는 것이 일반적이다. 상자 그림에서 울타리 밖에 있는 이상치는 "x" 또는 "o"와 같은 기호로 표시할 수 있다. 울타리는 때때로 "수염"이라고도 하며 전체 그림 시각화는 "상자 수염 그림"이라고 한다.

사분위수 범위와 상자 그림 특징을 계산하여 데이터 집합에서 이상치를 발견하면 모집단이 비정규적이거나 표본이 오염되었다는 증거로 잘못 볼 수 있다. 그러나 이 방법은 모집단의 정규성을 결정하기 위한 가설 검정을 대체해서는 안 된다. 이상치의 중요성은 표본 크기에 따라 다르다. 표본이 작으면 대표성이 없는 작은 사분위수 범위를 얻을 가능성이 더 높아져 울타리가 더 좁아진다. 따라서 이상치로 표시되는 데이터를 찾을 가능성이 더 높다.[7]

5. 컴퓨터 소프트웨어

여러 통계 소프트웨어 및 프로그래밍 언어에서 사분위수를 계산하는 함수를 제공한다.

사분위수 계산 소프트웨어
환경함수사분위수 계산 방법
마이크로소프트 엑셀QUARTILE.EXC방법 4
마이크로소프트 엑셀QUARTILE.INC방법 3
TI-8X 계열 계산기1-Var Stats방법 1
Rfivenum방법 2
Pythonnumpy.percentile방법 3
Pythonpandas.DataFrame.describe방법 3


참조

[1] 서적 A modern introduction to probability and statistics: understanding why and how https://archive.org/[...] Springer 2005
[2] 웹사이트 How are Quartiles Used in Statistics? https://magoosh.com/[...] 2023-02-24
[3] 논문 Sample quantiles in statistical packages http://robjhyndman.c[...] 1996-11
[4] 서적 Exploratory Data Analysis https://archive.org/[...] Addison-Wesley Publishing Company 1977
[5] 웹사이트 6. Distribution and Quantile Functions https://math.bme.hu/[...]
[6] 논문 A Review of Statistical Outlier Method http://www.statistic[...] 2006-11
[7] 논문 How Significant is a Boxplot Outlier? 2011-07-01
[8] 웹사이트 How to use the Excel QUARTILE function {{!}} Exceljet https://exceljet.net[...] 2019-12-11
[9] 웹사이트 Quantiles of a data set – MATLAB quantile https://www.mathwork[...] 2019-12-11



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com