사분위수
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
사분위수는 데이터를 크기 순서로 정렬했을 때 25%, 50%, 75% 지점에 해당하는 값으로, 각각 제1사분위수, 제2사분위수(중앙값), 제3사분위수로 불린다. 사분위수를 통해 데이터의 중심 위치와 데이터의 퍼짐 정도를 파악할 수 있다. 사분위수는 이산 분포, 연속 확률 분포 등 다양한 데이터 유형에 따라 계산 방법이 다르며, 이상치 탐지에도 활용된다. 다양한 통계 소프트웨어와 프로그래밍 언어에서 사분위수를 계산하는 함수를 제공하며, 상자 그림을 통해 시각적으로 표현할 수 있다.
더 읽어볼만한 페이지
- 4 - 사진법
사진법은 0, 1, 2, 3 네 가지 숫자로 수를 표현하는 방법으로, 컴퓨터 과학 분야에서 중요성이 커지고 정보 이론, 컴퓨터 하드웨어, 데이터베이스, 양자 컴퓨팅, 유전 암호, 데이터 전송 방식, 힐베르트 곡선 표현 등에 활용되며 과거에는 추마시어족 언어에서 사용되었다. - 4 - 4차원
4차원은 한 점을 지정하는 데 4개의 독립적인 매개변수가 필요한 공간으로, 수학에서는 유클리드 공간과 민코프스키 시공간 등으로 구분되며, 물리학에서는 시공간 기술 및 여분 차원 가정에 활용되는 중요한 개념이다. - 통계학 - 확률
확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다. - 통계학 - 세계 통계의 날
세계 통계의 날은 통계의 중요성을 알리고 통계 조사의 협력을 얻기 위해 국제 연합 통계 위원회가 지정한 기념일이다.
사분위수 | |
---|---|
통계 정보 | |
정의 | 자료를 4개의 동일한 크기로 나누는 통계값 |
종류 | 제1사분위수 (Q1) 제2사분위수 (Q2, 중앙값) 제3사분위수 (Q3) |
계산 방법 | |
위치 기반 계산 | Q1: (n + 1) / 4 번째 값 Q2: (n + 1) / 2 번째 값 Q3: 3 * (n + 1) / 4 번째 값 |
보간 계산 | Q1: (n + 1) / 4 번째 값에 해당하는 데이터 값 Q2: (n + 1) / 2 번째 값에 해당하는 데이터 값 Q3: 3 * (n + 1) / 4 번째 값에 해당하는 데이터 값 |
활용 | |
분포 파악 | 자료의 분포와 퍼짐 정도를 파악하는 데 사용 |
이상치 감지 | 사분위수 범위를 이용하여 이상치를 감지 |
상자 그림 | 사분위수 값을 사용하여 상자 그림을 그림 |
데이터 분석 | 데이터 분석에 사용되는 기본적인 통계량 데이터의 중심 경향성과 변동성을 파악 |
관련 통계량 | |
사분위 범위 (IQR) | 제3사분위수에서 제1사분위수를 뺀 값 (Q3 - Q1) |
백분위수 | 자료를 100개의 동일한 크기로 나눈 통계값 |
중앙값 | 자료를 정확히 반으로 나누는 통계값 (제2사분위수와 동일) |
기타 | |
주의사항 | 자료의 크기가 작을 때는 사분위수가 자료의 특징을 제대로 반영하지 못할 수 있음 이상치에 민감하지 않은 특징 |
기본 정보 | |
정의 | 통계에서 자료를 4등분하는 값들 |
종류 | 제1사분위수 (Q1): 전체 자료의 25%에 해당 제2사분위수 (Q2): 전체 자료의 50%에 해당 (중앙값) 제3사분위수 (Q3): 전체 자료의 75%에 해당 |
사분위 범위 | 제3사분위수(Q3)와 제1사분위수(Q1) 사이의 범위 |
계산 방법 | |
위치 계산 | Q1: (n+1) / 4 번째 값 Q2: (n+1) / 2 번째 값 Q3: 3(n+1) / 4 번째 값 |
보간 계산 | Q1: (n+1) / 4 번째 값에 해당하는 실제 데이터 값 Q2: (n+1) / 2 번째 값에 해당하는 실제 데이터 값 Q3: 3(n+1) / 4 번째 값에 해당하는 실제 데이터 값 |
활용 | |
자료 분포 | 자료의 분포와 퍼짐 정도를 파악하는 데 사용 |
이상값 탐지 | 사분위수 범위를 사용하여 이상값을 탐지 |
상자 그림 | 상자 그림을 그릴 때 사용 |
데이터 분석 | 데이터의 특징을 파악하는 데 사용 |
관련 통계 | |
백분위수 | 자료를 100등분하는 값들 |
중앙값 | 자료를 정확히 반으로 나누는 값 (제2사분위수와 동일) |
사분위 편차 | 사분위 범위의 절반 (Q3-Q1)/2 |
기타 | |
유의점 | 데이터 크기가 작을 때는 왜곡될 수 있음 이상치에 강건한 특징 |
2. 정의
사분위수는 데이터를 크기 순서대로 정렬했을 때 25%, 50%, 75% 지점에 해당하는 값이다. 각각 제1사분위수(Q1), 제2사분위수(Q2, 중앙값), 제3사분위수(Q3)라고 부른다. 사분위수를 통해 데이터의 중심 위치뿐만 아니라, 데이터가 얼마나 넓게 퍼져 있는지(산포도)를 파악할 수 있다.
기호 | 명칭 | 정의 |
---|---|---|
Q1 | 제1사분위수, 하위 사분위수, 25번째 백분위수 | 데이터의 하위 25%를 상위 75%와 분리한다. |
Q2 | 제2사분위수, 중앙값, 50번째 백분위수 | 데이터 집합을 절반으로 나눈다. |
Q3 | 제3사분위수, 상위 사분위수, 75번째 백분위수 | 데이터의 상위 25%를 하위 75%와 분리한다. |
사분위수를 계산하는 방법은 여러 가지가 있으며, 통계 소프트웨어나 프로그래밍 언어마다 조금씩 다른 방식을 사용한다.[3] 이산 확률 분포의 경우 사분위수 값을 구하는 데 보편적으로 합의된 방법은 없다.[3] 연속 확률 분포의 경우 누적분포함수와 분위수 함수를 이용하여 사분위수를 계산할 수 있다.[1][5]
3. 계산 방법
3. 1. 이산 분포
이산 확률 분포의 경우, 사분위수 값을 선택하는 데 있어 보편적으로 합의된 방법은 없다.[3] 이산적인 데이터의 사분위수는 중앙값을 기준으로 데이터를 두 부분으로 나누고, 각 부분의 중앙값을 다시 계산하여 구한다. 이때 데이터 개수가 홀수인지 짝수인지에 따라 중앙값을 포함할지 여부를 결정하는 다양한 방법이 존재한다.
3. 1. 1. 방법 1
정렬된 데이터 집합을 중앙값을 사용하여 두 부분으로 나눈다. 중앙값은 제2사분위수가 된다.[1]
하위 사분위수 값은 데이터의 하위 절반의 중앙값이고, 상위 사분위수 값은 데이터의 상위 절반의 중앙값이다.[1] 이 규칙은 TI-83 계산기의 상자 그림 및 "1-Var Stats" 함수에서 사용된다.[1]
3. 1. 2. 방법 2
정렬된 데이터 집합을 중앙값을 사용하여 두 개의 절반으로 나눈다. 중앙값은 2사분위수가 된다.
하위 사분위수 값은 데이터 하위 절반의 중앙값이고, 상위 사분위수 값은 데이터 상위 절반의 중앙값이다.[4]
이 방법으로 구한 값은 튜키의 힌지라고도 알려져 있다.[4] 중앙값 힌지(midhinge)도 참조.
3. 1. 3. 방법 3
정렬된 데이터 집합을 중앙값을 사용하여 두 개의 절반으로 나눈다. 중앙값은 제2사분위수가 된다.3. 1. 4. 방법 4
정렬된 데이터 집합 이 있을 때, 데이터 점 사이를 보간하여 가 분위수에 있으면 번째 경험적 분위수를 찾을 수 있다. 어떤 수 의 정수 부분을 로 나타낼 때, 경험적 분위수 함수는 다음과 같이 주어진다.
:
여기서 는 p번째 사분위수의 마지막 데이터 점이고, 는 p+1번째 사분위수의 첫 번째 데이터 점이다.
는 사분위수가 와 사이에 어디에 위치하는지를 나타낸다. 이면 사분위수는 에 정확히 위치한다. 이면 사분위수는 와 의 정확히 중간에 위치한다.
:
여기서 이고 이다.[1]
데이터 집합의 1사분위수, 2사분위수, 3사분위수를 찾으려면 각각 , , 를 계산한다.
3. 2. 연속 확률 분포
연속 확률분포를 (여기서 는 실수값을 가지는 확률변수)로 정의하면, 누적분포함수(CDF)는 다음과 같이 주어진다.
:.[1]
누적분포함수는 확률변수 가 값 보다 작거나 같을 확률을 나타낸다. 따라서 제1사분위수는 일 때의 값이며, 제2사분위수는 일 때의 값이고, 제3사분위수는 일 때의 값이다.[5] 의 값은 분위수 함수 를 사용하여 찾을 수 있는데, 제1사분위수일 때 , 제2사분위수일 때 , 제3사분위수일 때 이다. 누적분포함수가 단조증가 함수일 경우 분위수 함수는 누적분포함수의 역함수인데, 이는 누적분포함수의 입력값과 출력값 사이에 일대일 대응 관계가 성립하기 때문이다.
4. 이상치
사분위수 범위(IQR, Q3 - Q1)를 이용하여 이상치를 판별할 수 있다. IQR의 1.5배를 기준으로 하한 울타리와 상한 울타리를 설정하고, 이 범위를 벗어나는 데이터를 이상치로 간주한다.
하한 울타리와 상한 울타리는 다음 공식을 사용하여 계산한다.
- 하한 울타리 = Q1 - (1.5 × IQR)
- 상한 울타리 = Q3 + (1.5 × IQR)
여기서 Q1은 하한 사분위수, Q3는 상한 사분위수, IQR은 사분위수 범위(Q3 - Q1)이다.
하한 울타리는 데이터의 "하한"이고 상한 울타리는 데이터의 "상한"이며, 이러한 정의된 경계 밖에 있는 데이터는 이상치로 간주할 수 있다. 울타리는 이상치를 정의하는 지침을 제공하며, 다른 방식으로 정의될 수도 있다. 울타리는 이상치가 존재하는 "범위"를 정의한다. 이를 그림으로 나타내면 울타리의 경계가 된다.

하한 및 상한 울타리와 이상치를 상자 그림으로 나타내는 것이 일반적이다. 상자 그림에서 울타리 밖에 있는 이상치는 "x" 또는 "o"와 같은 기호로 표시할 수 있다. 울타리는 때때로 "수염"이라고도 하며 전체 그림 시각화는 "상자 수염 그림"이라고 한다.
사분위수 범위와 상자 그림 특징을 계산하여 데이터 집합에서 이상치를 발견하면 모집단이 비정규적이거나 표본이 오염되었다는 증거로 잘못 볼 수 있다. 그러나 이 방법은 모집단의 정규성을 결정하기 위한 가설 검정을 대체해서는 안 된다. 이상치의 중요성은 표본 크기에 따라 다르다. 표본이 작으면 대표성이 없는 작은 사분위수 범위를 얻을 가능성이 더 높아져 울타리가 더 좁아진다. 따라서 이상치로 표시되는 데이터를 찾을 가능성이 더 높다.[7]
5. 컴퓨터 소프트웨어
여러 통계 소프트웨어 및 프로그래밍 언어에서 사분위수를 계산하는 함수를 제공한다.
환경 | 함수 | 사분위수 계산 방법 |
---|---|---|
마이크로소프트 엑셀 | QUARTILE.EXC | 방법 4 |
마이크로소프트 엑셀 | QUARTILE.INC | 방법 3 |
TI-8X 계열 계산기 | 1-Var Stats | 방법 1 |
R | fivenum | 방법 2 |
Python | numpy.percentile | 방법 3 |
Python | pandas.DataFrame.describe | 방법 3 |
참조
[1]
서적
A modern introduction to probability and statistics: understanding why and how
https://archive.org/[...]
Springer
2005
[2]
웹사이트
How are Quartiles Used in Statistics?
https://magoosh.com/[...]
2023-02-24
[3]
논문
Sample quantiles in statistical packages
http://robjhyndman.c[...]
1996-11
[4]
서적
Exploratory Data Analysis
https://archive.org/[...]
Addison-Wesley Publishing Company
1977
[5]
웹사이트
6. Distribution and Quantile Functions
https://math.bme.hu/[...]
[6]
논문
A Review of Statistical Outlier Method
http://www.statistic[...]
2006-11
[7]
논문
How Significant is a Boxplot Outlier?
2011-07-01
[8]
웹사이트
How to use the Excel QUARTILE function {{!}} Exceljet
https://exceljet.net[...]
2019-12-11
[9]
웹사이트
Quantiles of a data set – MATLAB quantile
https://www.mathwork[...]
2019-12-11
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com