상자 수염 그림

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

상자 수염 그림은 데이터 세트를 시각적으로 나타내는 표준화된 방법으로, 최소값, 최대값, 중앙값, 제1사분위수, 제3사분위수의 다섯 가지 숫자 요약을 기반으로 한다. 1970년 존 투키에 의해 처음 소개되었으며, 데이터의 분포, 분산, 왜도를 파악하는 데 사용된다. 상자, 수염, 이상치 등으로 구성되며, 가변 폭 상자 그림, 노치 상자 그림과 같은 변형이 존재한다. 여러 데이터 세트의 분포를 비교하는 데 유용하며, 이상치 식별 및 데이터 왜곡 정도를 파악하는 데 활용될 수 있다.

상자 수염 그림

개요

이미지 준비중입니다.

상자 그림(위)과 확률 밀도 함수(아래)의 비교. 상자 그림은 확률 밀도 함수의 특징(중앙값, 사분위수, 꼬리)을 요약하여 보여준다.

종류	그림
분야	기술통계학

구성 요소 및 해석

상자 (Box)	사분위 범위(Q1부터 Q3까지)를 나타냄. 데이터의 중간 50%가 이 상자 안에 위치함.
중앙값 (Median)	상자 안의 선으로 표시되며, 데이터 세트의 중앙값을 나타냄.
수염 (Whiskers)	상자에서 뻗어 나온 선으로, 데이터의 흩어진 정도와 범위를 나타냄. 일반적으로 최대/최소값 또는 특정 분위수까지 확장됨.
이상점 (Outliers)	수염 바깥쪽에 점 또는 원으로 표시되며, 다른 값들과 сильно 벗어난 값들을 나타냄.
IQR (사분위수 범위)	Q3 - Q1 (상자 길이). 이상점 판단 기준으로 사용.
수염 길이	표준적인 상자 그림: 최대/최소값까지 (단, 이상점 제외). 변형된 상자 그림: IQR의 1.5배 또는 다른 값으로 지정될 수 있음.
해석	데이터의 분포, 중심 경향성, 산포도, 비대칭도 및 이상점 존재 여부 파악에 유용함.

활용

용도	여러 그룹 간 데이터 분포 비교 이상값 식별 데이터 세트의 특성 요약
관련 그림	바이올린 그림 히스토그램 줄기-잎 그림 산점도

장점 및 단점

장점	데이터 분포의 주요 특징을 시각적으로 요약 여러 그룹 비교 용이 이상점 식별 가능
단점	정확한 분포 형태 파악 어려움 (특히 단봉 분포가 아닌 경우) 데이터 포인트 수에 대한 정보 제공 부족

기타

주의사항	수염의 길이 및 이상점 정의는 분석 목적 및 데이터 특성에 따라 달라질 수 있음.

📚 더 읽어볼만한 페이지

통계 차트와 다이어그램 - 레이더 차트
레이더 차트는 여러 변수의 상대적 크기를 시각적으로 비교하는 차트로, 중심점에서 방사형으로 뻗어나가는 축을 사용하여 데이터 패턴 파악, 유사성 비교, 이상치 탐색 등에 활용되지만, 면적 왜곡 등의 단점도 존재하여 데이터 해석 시 주의가 필요하다.
통계 차트와 다이어그램 - 연표
연표는 시간 순서에 따라 사건, 현상, 변화 등을 시각적으로 표현하는 방식으로, 역사 기록에서 시작하여 표 형태로 발전했으며 다양한 분야에서 활용되고 여러 형태로 정보를 제시한다.

1. 개요
2. 역사
3. 용어
4. 구성 요소
5. 변형
6. 시각화
7. 그리는 방법
8. 예시

2. 역사

범위 막대 방법은 1952년 메리 엘레노어 스피어가 저술한 "통계 차트 작성"에서 처음 소개되었으며, 1969년 "실용적인 차트 작성 기법"에서도 다시 소개되었다. 상자 수염 그림은 1970년 존 투키에 의해 처음 소개되었으며, 그는 1977년 그의 저서 "탐색적 데이터 분석"에서 이 주제에 대해 출판했다.

3. 용어

* 백분위수: 데이터를 백등분 한 것이다.
* 사분위수: 데이터를 4등분 한 것이다.
* 중앙값 (Q₂ 또는 50번째 백분위수): 데이터의 정 가운데 순위에 해당하는 값이다. 관측치의 절반은 크거나 같고 나머지 절반은 작거나 같다.
* 제1사분위수 (Q₁ 또는 25번째 백분위수): 하위 사분위수라고도 하며, 중앙값 기준으로 하위 50% 중의 중앙값, 전체 데이터 중 하위 25%에 해당하는 값이다.
* 제3사분위수 (Q₃ 또는 75번째 백분위수): 상위 사분위수라고도 하며, 중앙값 기준으로 상위 50% 중의 중앙값, 전체 데이터 중 상위 25%에 해당하는 값이다.
* 사분위 범위 (IQR): 상위 및 하위 사분위수 간의 거리로, 데이터의 중간 50%를 나타낸다.
: $\text{IQR} = Q_3 - Q_1$
* 최소값 (Q₀ 또는 0번째 백분위수): 이상치를 제외한 데이터 세트의 가장 낮은 데이터 포인트이다.
* 최대값 (Q₄ 또는 100번째 백분위수): 이상치를 제외한 데이터 세트의 가장 높은 데이터 포인트이다.

4. 구성 요소

상자 수염 그림은 데이터 세트를 다섯 숫자 요약(최소값, 최대값, 표본 중앙값, 제1사분위수, 제3사분위수)을 기반으로 표시하는 표준화된 방법이다.

* 최소값 (Q₀ 또는 0번째 백분위수): 이상치를 제외한 데이터 세트의 가장 낮은 데이터 포인트
* 최대값 (Q₄ 또는 100번째 백분위수): 이상치를 제외한 데이터 세트의 가장 높은 데이터 포인트
* 중앙값 (Q₂ 또는 50번째 백분위수): 데이터 세트의 중간 값
* 제1사분위수 (Q₁ 또는 25번째 백분위수): 하위 사분위수 q_n(0.25)라고도 하며, 데이터 세트의 하위 절반의 중앙값이다.
* 제3사분위수 (Q₃ 또는 75번째 백분위수): 상위 사분위수 q_n(0.75)라고도 하며, 데이터 세트의 상위 절반의 중앙값이다.

상자 수염 그림을 구성하는 데 사용되는 또 다른 중요한 요소는 사분위 범위(IQR)이다.

* 사분위 범위 (IQR) : 상위 및 하위 사분위수 간의 거리

:: $\text{IQR} = Q_3 - Q_1 = q_n(0.75) - q_n(0.25)$

상자 수염 그림은 일반적으로 상자와 수염으로 구성된다. 상자는 Q₁에서 Q₃까지 그려지며, 중앙값을 나타내기 위해 상자 안에 가로선을 그린다. 일부 상자 그림은 데이터의 평균을 나타내기 위해 추가 문자를 포함한다.

수염은 관찰된 데이터 지점에서 끝나야 하지만 다양한 방식으로 정의될 수 있다.

* 모든 데이터의 최소값과 최대값
* 1.5 IQR 내의 최저 데이터와 최고 데이터 (1.5 IQR 규칙)
* 데이터 평균 이상 표준편차 1개
* 9번째 백분위수 및 91번째 백분위수
* 2번째 백분위수 및 98번째 백분위수

수염 사이에 포함되지 않은 모든 데이터는 점, 작은 원 또는 별이 있는 이상치로 표시될 수 있지만 때로는 완성되지 않는다. 드물게 박스 플롯에는 수염이 표시되지 않는다.

일반적으로 2%, 9%, 91%, 98%의 비정상적인 백분위 수염은 7개 수의 요약을 표시하기 위해 수염 모양의 해치 및 수염면에 사용된다. 데이터가 정규 분포를 따르면 상자 플롯의 7개 표시 위치는 동일한 간격으로 배치된다. 일부 상자 그림에서는 각 수염 끝 앞에 교차 해치가 있다.

5. 변형

수학자 존 튜키가 1969년에 이러한 유형의 시각적 데이터 디스플레이를 도입한 이래로 전통적인 상자 그림의 여러 변형이 설명되었다. 가장 일반적인 두 가지는 가변 폭 상자 그림과 노치 상자 그림이다.

가변 너비 상자 그림은 상자의 너비를 그룹의 크기에 비례하게 하여 데이터가 그려지는 각 그룹의 크기를 보여준다. 상자 너비를 그룹 크기의 제곱근에 비례하게 만드는 것이 일반적이다.

노치 상자 그림은 중앙값 주변에 "노치" 또는 상자의 좁아짐을 적용한다. 노치는 중앙값의 차이에 대한 대략적인 지침을 제공하는 데 유용하다. 두 상자의 노치가 겹치지 않으면 중앙값 간에 통계적으로 유의미한 차이가 있다는 증거가 된다. 노치의 높이는 표본의 사분위 범위(IQR)에 비례하고 표본 크기의 제곱근에 반비례한다. 그러나 가장 적절한 승수에 대한 불확실성이 있다(이는 표본의 분산 유사성에 따라 달라질 수 있음).

이러한 노치의 경계를 얻는 한 가지 규칙은 중앙값을 중심으로 ±1.58×IQR/sqrt(n)^영어의 거리를 사용하는 것이다.

조정된 상자 그림은 왜곡 분포를 설명하기 위한 것이며, 메드커플 왜도 통계를 사용한다. 메드커플 값이 MC인 경우 상자 그림의 위쪽 및 아래쪽 수염의 길이는 각각 다음과 같이 정의된다.

대칭적인 데이터 분포의 경우, 메드커플은 0이 되며, 이는 조정된 상자 그림을 두 수염의 길이가 1.5 IQR^영어로 같은 튜키의 상자 그림으로 줄입니다.

기타 상자 그림 종류, 예를 들어 바이올린 플롯 및 빈 플롯은 원래의 고전적인 상자 그림에서는 관찰할 수 없는 단봉 및 다봉 분포 간의 차이를 보여줄 수 있다.

6. 시각화

상자 수염 그림은 히스토그램이나 커널 밀도 추정보다 더 간결하게 데이터의 분포를 나타낼 수 있다. 상자 수염 그림은 적은 공간을 차지하므로 여러 그룹 또는 데이터 세트 간의 분포를 비교하는 데 특히 유용하다. 저장소의 수와 폭을 선택하면 히스토그램의 모양에 크게 영향을 줄 수 있으며, 대역폭을 선택하면 커널 밀도 추정의 모양에 크게 영향을 미칠 수 있다.

상자 수염 그림을 보는 것보다 통계 분포를 보는 것이 더 평범하기 때문에, 상자 수염 그림을 일반 분포에 대한 확률 밀도 함수(PDF)와 비교하면 데이터 분포의 특징을 더 잘 이해할 수 있다.

상자 수염 그림과 확률 밀도 함수(pdf) (정규 분포 N(0,1σ2) 모집단) — 상자 수염 그림과 확률 밀도 함수(pdf) (정규 분포 N(0,1σ²) 모집단)

7. 그리는 방법

wikitext
# 주어진 데이터에서 각 사분위수를 계산한다.
# 그래프에서 제1 사분위와 제3 사분위를 밑변으로 하는 직사각형을 그리고, 제2 사분위에 해당하는 위치에 선분을 긋는다.
# 사분위수 범위(IQR, Interquartile range, $Q_3-Q_1$ )를 계산한다.
# $Q_3$ 과 차이가 1.5IQR 이내인 값 중에서 최댓값을 $Q_3$ 과 직선으로 연결하고, 마찬가지로 $Q_1$ 과 차이가 1.5IQR 이내인 값 중에서 최솟값을 $Q_1$ 과 연결한다.
# $Q_3$ 보다 1.5IQR 이상 초과하는 값과 $Q_1$ 보다 1.5IQR 이상 미달하는 값은 점이나, 원, 별표 등으로 따로 표시한다(이상점).

8. 예시

화씨 온도로 측정한 하루 동안의 시간별 온도 데이터를 이용하여 상자 수염 그림을 해석하는 방법을 설명한다.

이상치가 없는 경우

기록된 온도(°F): 57, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 81

* 최소값: 57°F
* 최대값: 81°F
* 중앙값(Q₂): 70°F
* 제1사분위수(Q₁): 66°F
* 제3사분위수(Q₃): 75°F

사분위 범위(IQR)는 약 5.0°C 이고, 1.5 IQR은 약 7.5°C이다.

* 상위 수염 경계: 81°F (최대값이 Q₃ + 1.5 IQR = 88.5°F 보다 작으므로)
* 하위 수염 경계: 57°F (최소값이 Q₁ - 1.5 IQR = 52.5°F 보다 크므로)

이상치가 있는 경우

기록된 온도(°F): 52, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 89

* 최소값: 52°F
* 최대값: 89°F
* 중앙값(Q₂): 70°F (이전 예시와 동일)
* 제1사분위수(Q₁): 66°F (이전 예시와 동일)
* 제3사분위수(Q₃): 75°F (이전 예시와 동일)

최대값(89°F)은 Q₃ + 1.5 IQR = 88.5°F 보다 크므로 이상치이다. 최소값(52°F)은 Q₁ - 1.5 IQR = 52.5°F 보다 작으므로 이상치이다.

* 상위 수염 경계: 79°F (이상치를 제외한 최대값)
* 하위 수염 경계: 57°F (이상치를 제외한 최소값)

데이터 세트가 큰 경우

데이터 포인트가 많은 경우, 일반적인 사분위수 계산 공식을 이용할 수 있다.

:

q_n(p) = x_{(k)} + \alpha(x_{(k+1)} - x_{(k)})

\text{with } k = [p(n+1)] \text{ and } \alpha = p(n+1) - k

여기서

x_{(k)}

는 정렬된 데이터의 순서를 나타낸다.

위 예시(n=24)에서 중앙값, 제1사분위수, 제3사분위수를 계산하면 다음과 같다.

* 중앙값 (p=0.5):
:

q_n(0.5)  = x_{(12)} + (0.5\cdot25-12)\cdot(x_{(13)}-x_{(12)})= 70+(0.5\cdot25-12)\cdot(70-70) = 70^\circ\text{F}

* 제1사분위수 (p=0.25):
:

q_n(0.25)  = x_{(6)} + (0.25\cdot25-6)\cdot(x_{(7)}-x_{(6)})= 66 +(0.25\cdot25 - 6)\cdot(66-66) = 66^\circ\text{F}

* 제3사분위수 (p=0.75):
:

q_n(0.75)  = x_{(18)} + (0.75\cdot25-18)\cdot(x_{(19)}-x_{(18)})=75 + (0.75\cdot25-18)\cdot(75-75) = 75^\circ\text{F}

위 그림에서 대략적인 데이터는 다음과 같다.

👆

좌우로 밀어서 보기

항목	값
최소값	0.5
제1사분위수	7
중앙값(제2사분위수)	8.5
제3사분위수	9
최대값	10
사분위 범위(IQR)	2
"경미한" 이상치	3.5
"극단적인" 이상치	0.5
이상치를 제외한 최소값	5
데이터 왜곡	왼쪽 (음의 왜도)