사분위수
1. 개요
사분위수는 데이터를 크기 순서로 정렬했을 때 25%, 50%, 75% 지점에 해당하는 값으로, 각각 제1사분위수, 제2사분위수(중앙값), 제3사분위수로 불린다. 사분위수를 통해 데이터의 중심 위치와 데이터의 퍼짐 정도를 파악할 수 있다. 사분위수는 이산 분포, 연속 확률 분포 등 다양한 데이터 유형에 따라 계산 방법이 다르며, 이상치 탐지에도 활용된다. 다양한 통계 소프트웨어와 프로그래밍 언어에서 사분위수를 계산하는 함수를 제공하며, 상자 그림을 통해 시각적으로 표현할 수 있다.
| 정의 | 자료를 4개의 동일한 크기로 나누는 통계값 |
|---|---|
| 종류 | 제1사분위수 (Q1) 제2사분위수 (Q2, 중앙값) 제3사분위수 (Q3) |
| 위치 기반 계산 | Q1: (n + 1) / 4 번째 값 Q2: (n + 1) / 2 번째 값 Q3: 3 * (n + 1) / 4 번째 값 |
|---|---|
| 보간 계산 | Q1: (n + 1) / 4 번째 값에 해당하는 데이터 값 Q2: (n + 1) / 2 번째 값에 해당하는 데이터 값 Q3: 3 * (n + 1) / 4 번째 값에 해당하는 데이터 값 |
| 분포 파악 | 자료의 분포와 퍼짐 정도를 파악하는 데 사용 |
|---|---|
| 이상치 감지 | 사분위수 범위를 이용하여 이상치를 감지 |
| 상자 그림 | 사분위수 값을 사용하여 상자 그림을 그림 |
| 데이터 분석 | 데이터 분석에 사용되는 기본적인 통계량 데이터의 중심 경향성과 변동성을 파악 |
| 사분위 범위 (IQR) | 제3사분위수에서 제1사분위수를 뺀 값 (Q3 - Q1) |
|---|---|
| 백분위수 | 자료를 100개의 동일한 크기로 나눈 통계값 |
| 중앙값 | 자료를 정확히 반으로 나누는 통계값 (제2사분위수와 동일) |
| 주의사항 | 자료의 크기가 작을 때는 사분위수가 자료의 특징을 제대로 반영하지 못할 수 있음 이상치에 민감하지 않은 특징 |
|---|
| 정의 | 통계에서 자료를 4등분하는 값들 |
|---|---|
| 종류 | 제1사분위수 (Q1): 전체 자료의 25%에 해당 제2사분위수 (Q2): 전체 자료의 50%에 해당 (중앙값) 제3사분위수 (Q3): 전체 자료의 75%에 해당 |
| 사분위 범위 | 제3사분위수(Q3)와 제1사분위수(Q1) 사이의 범위 |
| 위치 계산 | Q1: (n+1) / 4 번째 값 Q2: (n+1) / 2 번째 값 Q3: 3(n+1) / 4 번째 값 |
|---|---|
| 보간 계산 | Q1: (n+1) / 4 번째 값에 해당하는 실제 데이터 값 Q2: (n+1) / 2 번째 값에 해당하는 실제 데이터 값 Q3: 3(n+1) / 4 번째 값에 해당하는 실제 데이터 값 |
| 자료 분포 | 자료의 분포와 퍼짐 정도를 파악하는 데 사용 |
|---|---|
| 이상값 탐지 | 사분위수 범위를 사용하여 이상값을 탐지 |
| 상자 그림 | 상자 그림을 그릴 때 사용 |
| 데이터 분석 | 데이터의 특징을 파악하는 데 사용 |
| 백분위수 | 자료를 100등분하는 값들 |
|---|---|
| 중앙값 | 자료를 정확히 반으로 나누는 값 (제2사분위수와 동일) |
| 사분위 편차 | 사분위 범위의 절반 (Q3-Q1)/2 |
| 유의점 | 데이터 크기가 작을 때는 왜곡될 수 있음 이상치에 강건한 특징 |
|---|
-
4 -
사진법
사진법은 0, 1, 2, 3 네 가지 숫자로 수를 표현하는 방법으로, 컴퓨터 과학 분야에서 중요성이 커지고 정보 이론, 컴퓨터 하드웨어, 데이터베이스, 양자 컴퓨팅, 유전 암호, 데이터 전송 방식, 힐베르트 곡선 표현 등에 활용되며 과거에는 추마시어족 언어에서 사용되었다. -
4 -
4차원
4차원은 한 점을 지정하는 데 4개의 독립적인 매개변수가 필요한 공간으로, 수학에서는 유클리드 공간과 민코프스키 시공간 등으로 구분되며, 물리학에서는 시공간 기술 및 여분 차원 가정에 활용되는 중요한 개념이다. -
통계학 -
확률
확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다. -
통계학 -
세계 통계의 날
세계 통계의 날은 통계의 중요성을 알리고 통계 조사의 협력을 얻기 위해 국제 연합 통계 위원회가 지정한 기념일이다.
2. 정의
사분위수는 데이터를 크기 순서대로 정렬했을 때 25%, 50%, 75% 지점에 해당하는 값이다. 각각 제1사분위수(Q1), 제2사분위수(Q2, 중앙값), 제3사분위수(Q3)라고 부른다. 사분위수를 통해 데이터의 중심 위치뿐만 아니라, 데이터가 얼마나 넓게 퍼져 있는지(산포도)를 파악할 수 있다.
| 기호 | 명칭 | 정의 |
|---|---|---|
| Q1 | 제1사분위수, 하위 사분위수, 25번째 백분위수 | 데이터의 하위 25%를 상위 75%와 분리한다. |
| Q2 | 제2사분위수, 중앙값, 50번째 백분위수 | 데이터 집합을 절반으로 나눈다. |
| Q3 | 제3사분위수, 상위 사분위수, 75번째 백분위수 | 데이터의 상위 25%를 하위 75%와 분리한다. |
3. 계산 방법
사분위수를 계산하는 방법은 여러 가지가 있으며, 통계 소프트웨어나 프로그래밍 언어마다 조금씩 다른 방식을 사용한다. 이산 확률 분포의 경우 사분위수 값을 구하는 데 보편적으로 합의된 방법은 없다. 연속 확률 분포의 경우 누적분포함수와 분위수 함수를 이용하여 사분위수를 계산할 수 있다.
3.1. 이산 분포
이산 확률 분포의 경우, 사분위수 값을 선택하는 데 있어 보편적으로 합의된 방법은 없다. 이산적인 데이터의 사분위수는 중앙값을 기준으로 데이터를 두 부분으로 나누고, 각 부분의 중앙값을 다시 계산하여 구한다. 이때 데이터 개수가 홀수인지 짝수인지에 따라 중앙값을 포함할지 여부를 결정하는 다양한 방법이 존재한다.
3.1.1. 방법 1
정렬된 데이터 집합을 중앙값을 사용하여 두 부분으로 나눈다. 중앙값은 제2사분위수가 된다.
* 원래 정렬된 데이터 집합에 데이터 포인트가 홀수 개인 경우, 중앙값(정렬된 목록의 중앙값)을 어느 쪽 절반에도 포함하지 않는다.
* 원래 정렬된 데이터 집합에 데이터 포인트가 짝수 개인 경우, 이 데이터 집합을 정확히 절반으로 나눈다.
하위 사분위수 값은 데이터의 하위 절반의 중앙값이고, 상위 사분위수 값은 데이터의 상위 절반의 중앙값이다. 이 규칙은 TI-83 계산기의 상자 그림 및 "1-Var Stats" 함수에서 사용된다.
3.1.2. 방법 2
정렬된 데이터 집합을 중앙값을 사용하여 두 개의 절반으로 나눈다. 중앙값은 2사분위수가 된다.
* 원래 정렬된 데이터 집합에 데이터 포인트의 개수가 홀수이면 중앙값(정렬된 목록의 중앙값)을 두 절반 모두에 포함한다.
* 원래 정렬된 데이터 집합에 데이터 포인트의 개수가 짝수이면 이 데이터 집합을 정확히 절반으로 나눈다.
하위 사분위수 값은 데이터 하위 절반의 중앙값이고, 상위 사분위수 값은 데이터 상위 절반의 중앙값이다.
이 방법으로 구한 값은 튜키의 힌지라고도 알려져 있다. 중앙값 힌지(midhinge)도 참조.
3.1.3. 방법 3
정렬된 데이터 집합을 중앙값을 사용하여 두 개의 절반으로 나눈다. 중앙값은 제2사분위수가 된다.
* 데이터 포인트의 개수가 짝수이면, 방법 3은 위의 방법 1 또는 방법 2와 동일하게 시작하며 중앙값을 새로운 데이터 포인트에 포함할지 여부를 선택할 수 있다. 중앙값을 새로운 데이터 포인트에 포함하기로 선택하면, 이제 데이터 포인트의 개수가 홀수이므로 아래 2단계 또는 3단계로 진행한다. 중앙값을 새로운 데이터 포인트로 선택하지 않으면, 시작했던 방법 1 또는 2를 계속 진행한다.
* 데이터 포인트가 (4n+1)개인 경우, 하위 사분위수는 n번째 데이터 값의 25%와 (n+1)번째 데이터 값의 75%를 더한 값이며, 상위 사분위수는 (3n+1)번째 데이터 포인트의 75%와 (3n+2)번째 데이터 포인트의 25%를 더한 값이다.
* 데이터 포인트가 (4n+3)개인 경우, 하위 사분위수는 (n+1)번째 데이터 값의 75%와 (n+2)번째 데이터 값의 25%를 더한 값이며, 상위 사분위수는 (3n+2)번째 데이터 포인트의 25%와 (3n+3)번째 데이터 포인트의 75%를 더한 값이다.
3.1.4. 방법 4
정렬된 데이터 집합 이 있을 때, 데이터 점 사이를 보간하여 가 분위수에 있으면 번째 경험적 분위수를 찾을 수 있다. 어떤 수 의 정수 부분을 로 나타낼 때, 경험적 분위수 함수는 다음과 같이 주어진다.
:
여기서 는 p번째 사분위수의 마지막 데이터 점이고, 는 p+1번째 사분위수의 첫 번째 데이터 점이다.
는 사분위수가 와 사이에 어디에 위치하는지를 나타낸다. 이면 사분위수는 에 정확히 위치한다. 이면 사분위수는 와 의 정확히 중간에 위치한다.
:
여기서 이고 이다.
데이터 집합의 1사분위수, 2사분위수, 3사분위수를 찾으려면 각각 , , 를 계산한다.
3.2. 연속 확률 분포
연속 확률분포를 (여기서 는 실수값을 가지는 확률변수)로 정의하면, 누적분포함수(CDF)는 다음과 같이 주어진다.
:.
누적분포함수는 확률변수 가 값 보다 작거나 같을 확률을 나타낸다. 따라서 제1사분위수는 일 때의 값이며, 제2사분위수는 일 때의 값이고, 제3사분위수는 일 때의 값이다. 의 값은 분위수 함수 를 사용하여 찾을 수 있는데, 제1사분위수일 때 , 제2사분위수일 때 , 제3사분위수일 때 이다. 누적분포함수가 단조증가 함수일 경우 분위수 함수는 누적분포함수의 역함수인데, 이는 누적분포함수의 입력값과 출력값 사이에 일대일 대응 관계가 성립하기 때문이다.
4. 이상치
사분위수 범위(IQR, Q3 - Q1)를 이용하여 이상치를 판별할 수 있다. IQR의 1.5배를 기준으로 하한 울타리와 상한 울타리를 설정하고, 이 범위를 벗어나는 데이터를 이상치로 간주한다.
하한 울타리와 상한 울타리는 다음 공식을 사용하여 계산한다.
* 하한 울타리 = Q1 - (1.5 × IQR)
* 상한 울타리 = Q3 + (1.5 × IQR)
여기서 Q1은 하한 사분위수, Q3는 상한 사분위수, IQR은 사분위수 범위(Q3 - Q1)이다.
하한 울타리는 데이터의 "하한"이고 상한 울타리는 데이터의 "상한"이며, 이러한 정의된 경계 밖에 있는 데이터는 이상치로 간주할 수 있다. 울타리는 이상치를 정의하는 지침을 제공하며, 다른 방식으로 정의될 수도 있다. 울타리는 이상치가 존재하는 "범위"를 정의한다. 이를 그림으로 나타내면 울타리의 경계가 된다.
하한 및 상한 울타리와 이상치를 상자 그림으로 나타내는 것이 일반적이다. 상자 그림에서 울타리 밖에 있는 이상치는 "x" 또는 "o"와 같은 기호로 표시할 수 있다. 울타리는 때때로 "수염"이라고도 하며 전체 그림 시각화는 "상자 수염 그림"이라고 한다.
사분위수 범위와 상자 그림 특징을 계산하여 데이터 집합에서 이상치를 발견하면 모집단이 비정규적이거나 표본이 오염되었다는 증거로 잘못 볼 수 있다. 그러나 이 방법은 모집단의 정규성을 결정하기 위한 가설 검정을 대체해서는 안 된다. 이상치의 중요성은 표본 크기에 따라 다르다. 표본이 작으면 대표성이 없는 작은 사분위수 범위를 얻을 가능성이 더 높아져 울타리가 더 좁아진다. 따라서 이상치로 표시되는 데이터를 찾을 가능성이 더 높다.
5. 컴퓨터 소프트웨어
여러 통계 소프트웨어 및 프로그래밍 언어에서 사분위수를 계산하는 함수를 제공한다.
| 환경 | 함수 | 사분위수 계산 방법 |
|---|---|---|
| 마이크로소프트 엑셀 | QUARTILE.EXC | 방법 4 |
| 마이크로소프트 엑셀 | QUARTILE.INC | 방법 3 |
| TI-8X 계열 계산기 | 1-Var Stats | 방법 1 |
| R | fivenum | 방법 2 |
| Python | numpy.percentile | 방법 3 |
| Python | pandas.DataFrame.describe | 방법 3 |