상자 수염 그림
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
상자 수염 그림은 데이터 세트를 시각적으로 나타내는 표준화된 방법으로, 최소값, 최대값, 중앙값, 제1사분위수, 제3사분위수의 다섯 가지 숫자 요약을 기반으로 한다. 1970년 존 투키에 의해 처음 소개되었으며, 데이터의 분포, 분산, 왜도를 파악하는 데 사용된다. 상자, 수염, 이상치 등으로 구성되며, 가변 폭 상자 그림, 노치 상자 그림과 같은 변형이 존재한다. 여러 데이터 세트의 분포를 비교하는 데 유용하며, 이상치 식별 및 데이터 왜곡 정도를 파악하는 데 활용될 수 있다.
더 읽어볼만한 페이지
상자 수염 그림 | |
---|---|
개요 | |
![]() | |
종류 | 그림 |
분야 | 기술통계학 |
구성 요소 및 해석 | |
상자 (Box) | 사분위 범위(Q1부터 Q3까지)를 나타냄. 데이터의 중간 50%가 이 상자 안에 위치함. |
중앙값 (Median) | 상자 안의 선으로 표시되며, 데이터 세트의 중앙값을 나타냄. |
수염 (Whiskers) | 상자에서 뻗어 나온 선으로, 데이터의 흩어진 정도와 범위를 나타냄. 일반적으로 최대/최소값 또는 특정 분위수까지 확장됨. |
이상점 (Outliers) | 수염 바깥쪽에 점 또는 원으로 표시되며, 다른 값들과 сильно 벗어난 값들을 나타냄. |
IQR (사분위수 범위) | Q3 - Q1 (상자 길이). 이상점 판단 기준으로 사용. |
수염 길이 | 표준적인 상자 그림: 최대/최소값까지 (단, 이상점 제외). 변형된 상자 그림: IQR의 1.5배 또는 다른 값으로 지정될 수 있음. |
해석 | 데이터의 분포, 중심 경향성, 산포도, 비대칭도 및 이상점 존재 여부 파악에 유용함. |
활용 | |
용도 | 여러 그룹 간 데이터 분포 비교 이상값 식별 데이터 세트의 특성 요약 |
관련 그림 | 바이올린 그림 히스토그램 줄기-잎 그림 산점도 |
장점 및 단점 | |
장점 | 데이터 분포의 주요 특징을 시각적으로 요약 여러 그룹 비교 용이 이상점 식별 가능 |
단점 | 정확한 분포 형태 파악 어려움 (특히 단봉 분포가 아닌 경우) 데이터 포인트 수에 대한 정보 제공 부족 |
기타 | |
주의사항 | 수염의 길이 및 이상점 정의는 분석 목적 및 데이터 특성에 따라 달라질 수 있음. |
2. 역사
범위 막대 방법은 1952년 메리 엘레노어 스피어가 저술한 "통계 차트 작성"에서 처음 소개되었으며,[4] 1969년 "실용적인 차트 작성 기법"에서도 다시 소개되었다.[5] 상자 수염 그림은 1970년 존 투키에 의해 처음 소개되었으며, 그는 1977년 그의 저서 "탐색적 데이터 분석"에서 이 주제에 대해 출판했다.[6]
3. 용어
:
4. 구성 요소
상자 수염 그림은 데이터 세트를 다섯 숫자 요약(최소값, 최대값, 표본 중앙값, 제1사분위수, 제3사분위수)을 기반으로 표시하는 표준화된 방법이다.
- '''최소값 (''Q''0 또는 0번째 백분위수)''': 이상치를 제외한 데이터 세트의 가장 낮은 데이터 포인트
- '''최대값 (''Q''4 또는 100번째 백분위수)''': 이상치를 제외한 데이터 세트의 가장 높은 데이터 포인트
- '''중앙값 (''Q''2 또는 50번째 백분위수)''': 데이터 세트의 중간 값
- '''제1사분위수 (''Q''1 또는 25번째 백분위수)''': ''하위 사분위수'' ''q''''n''(0.25)라고도 하며, 데이터 세트의 하위 절반의 중앙값이다.
- '''제3사분위수 (''Q''3 또는 75번째 백분위수)''': ''상위 사분위수'' ''q''''n''(0.75)라고도 하며, 데이터 세트의 상위 절반의 중앙값이다.[7]
상자 수염 그림을 구성하는 데 사용되는 또 다른 중요한 요소는 사분위 범위(IQR)이다.
- '''사분위 범위 (IQR)''' : 상위 및 하위 사분위수 간의 거리
::
상자 수염 그림은 일반적으로 상자와 수염으로 구성된다. 상자는 '''Q'''1에서 '''Q'''3까지 그려지며, 중앙값을 나타내기 위해 상자 안에 가로선을 그린다. 일부 상자 그림은 데이터의 평균을 나타내기 위해 추가 문자를 포함한다.[8][9]
수염은 관찰된 데이터 지점에서 끝나야 하지만 다양한 방식으로 정의될 수 있다.
- 모든 데이터의 최소값과 최대값
- 1.5 IQR 내의 최저 데이터와 최고 데이터 (1.5 IQR 규칙)
- 데이터 평균 이상 표준편차 1개
- 9번째 백분위수 및 91번째 백분위수
- 2번째 백분위수 및 98번째 백분위수
수염 사이에 포함되지 않은 모든 데이터는 점, 작은 원 또는 별이 있는 이상치로 표시될 수 있지만 때로는 완성되지 않는다. 드물게 박스 플롯에는 수염이 표시되지 않는다.
일반적으로 2%, 9%, 91%, 98%의 비정상적인 백분위 수염은 7개 수의 요약을 표시하기 위해 수염 모양의 해치 및 수염면에 사용된다. 데이터가 정규 분포를 따르면 상자 플롯의 7개 표시 위치는 동일한 간격으로 배치된다. 일부 상자 그림에서는 각 수염 끝 앞에 교차 해치가 있다.
5. 변형
수학자 존 튜키가 1969년에 이러한 유형의 시각적 데이터 디스플레이를 도입한 이래로 전통적인 상자 그림의 여러 변형이 설명되었다. 가장 일반적인 두 가지는 가변 폭 상자 그림과 노치 상자 그림이다.
'''가변 너비 상자 그림'''은 상자의 너비를 그룹의 크기에 비례하게 하여 데이터가 그려지는 각 그룹의 크기를 보여준다. 상자 너비를 그룹 크기의 제곱근에 비례하게 만드는 것이 일반적이다.[12]
'''노치 상자 그림'''은 중앙값 주변에 "노치" 또는 상자의 좁아짐을 적용한다. 노치는 중앙값의 차이에 대한 대략적인 지침을 제공하는 데 유용하다. 두 상자의 노치가 겹치지 않으면 중앙값 간에 통계적으로 유의미한 차이가 있다는 증거가 된다.[12] 노치의 높이는 표본의 사분위 범위(IQR)에 비례하고 표본 크기의 제곱근에 반비례한다. 그러나 가장 적절한 승수에 대한 불확실성이 있다(이는 표본의 분산 유사성에 따라 달라질 수 있음).[12]
이러한 노치의 경계를 얻는 한 가지 규칙은 중앙값을 중심으로 ±1.58×IQR/sqrt(n)영어의 거리를 사용하는 것이다.[13]
'''조정된 상자 그림'''은 왜곡 분포를 설명하기 위한 것이며, 메드커플 왜도 통계를 사용한다.[14] 메드커플 값이 MC인 경우 상자 그림의 위쪽 및 아래쪽 수염의 길이는 각각 다음과 같이 정의된다.
대칭적인 데이터 분포의 경우, 메드커플은 0이 되며, 이는 조정된 상자 그림을 두 수염의 길이가 1.5 IQR영어로 같은 튜키의 상자 그림으로 줄입니다.
'''기타 상자 그림''' 종류, 예를 들어 바이올린 플롯 및 빈 플롯은 원래의 고전적인 상자 그림에서는 관찰할 수 없는 단봉 및 다봉 분포 간의 차이를 보여줄 수 있다.[6]
6. 시각화
상자 수염 그림은 히스토그램이나 커널 밀도 추정보다 더 간결하게 데이터의 분포를 나타낼 수 있다. 상자 수염 그림은 적은 공간을 차지하므로 여러 그룹 또는 데이터 세트 간의 분포를 비교하는 데 특히 유용하다.[1] 저장소의 수와 폭을 선택하면 히스토그램의 모양에 크게 영향을 줄 수 있으며, 대역폭을 선택하면 커널 밀도 추정의 모양에 크게 영향을 미칠 수 있다.[1]
상자 수염 그림을 보는 것보다 통계 분포를 보는 것이 더 평범하기 때문에, 상자 수염 그림을 일반 분포에 대한 확률 밀도 함수(PDF)와 비교하면 데이터 분포의 특징을 더 잘 이해할 수 있다.[1]
7. 그리는 방법
wikitext
# 주어진 데이터에서 각 사분위수를 계산한다.
# 그래프에서 제1 사분위와 제3 사분위를 밑변으로 하는 직사각형을 그리고, 제2 사분위에 해당하는 위치에 선분을 긋는다.
# 사분위수 범위(IQR, Interquartile range, )를 계산한다.
# 과 차이가 1.5IQR 이내인 값 중에서 최댓값을 과 직선으로 연결하고, 마찬가지로 과 차이가 1.5IQR 이내인 값 중에서 최솟값을 과 연결한다.
# 보다 1.5IQR 이상 초과하는 값과 보다 1.5IQR 이상 미달하는 값은 점이나, 원, 별표 등으로 따로 표시한다(이상점).
8. 예시
화씨 온도로 측정한 하루 동안의 시간별 온도 데이터를 이용하여 상자 수염 그림을 해석하는 방법을 설명한다.
이상치가 없는 경우기록된 온도(°F): 57, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 81
- 최소값: 57°F
- 최대값: 81°F
- 중앙값(''Q''2): 70°F
- 제1사분위수(''Q''1): 66°F
- 제3사분위수(''Q''3): 75°F
사분위 범위(IQR)는 약 5.0°C 이고, 1.5 IQR은 약 7.5°C이다.
- 상위 수염 경계: 81°F (최대값이 ''Q''3 + 1.5 IQR = 88.5°F 보다 작으므로)
- 하위 수염 경계: 57°F (최소값이 ''Q''1 - 1.5 IQR = 52.5°F 보다 크므로)
이상치가 있는 경우기록된 온도(°F): 52, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 89
- 최소값: 52°F
- 최대값: 89°F
- 중앙값(''Q''2): 70°F (이전 예시와 동일)
- 제1사분위수(''Q''1): 66°F (이전 예시와 동일)
- 제3사분위수(''Q''3): 75°F (이전 예시와 동일)
최대값(89°F)은 ''Q''3 + 1.5 IQR = 88.5°F 보다 크므로 이상치이다. 최소값(52°F)은 ''Q''1 - 1.5 IQR = 52.5°F 보다 작으므로 이상치이다.
- 상위 수염 경계: 79°F (이상치를 제외한 최대값)
- 하위 수염 경계: 57°F (이상치를 제외한 최소값)
데이터 세트가 큰 경우데이터 포인트가 많은 경우, 일반적인 사분위수 계산 공식을 이용할 수 있다.
:
:
여기서 는 정렬된 데이터의 순서를 나타낸다.
위 예시(n=24)에서 중앙값, 제1사분위수, 제3사분위수를 계산하면 다음과 같다.
- '''중앙값''' (p=0.5):
:
- '''제1사분위수''' (p=0.25):
:
- '''제3사분위수''' (p=0.75):
:

위 그림에서 대략적인 데이터는 다음과 같다.
항목 | 값 |
---|---|
최소값 | 0.5 |
제1사분위수 | 7 |
중앙값(제2사분위수) | 8.5 |
제3사분위수 | 9 |
최대값 | 10 |
사분위 범위(IQR) | 2 |
"경미한" 이상치[1] | 3.5 |
"극단적인" 이상치[1] | 0.5 |
이상치를 제외한 최소값 | 5 |
데이터 왜곡 | 왼쪽 (음의 왜도) |
참조
[1]
서적
Graphical exploratory data analysis.
http://worldcat.org/[...]
Springer
2012
[2]
논문
Procedures for Detecting Outlying Observations in Samples
http://dx.doi.org/10[...]
1969-02
[3]
서적
Statistical Methods in Practice : for Scientists and Technologists.
http://worldcat.org/[...]
John Wiley & Sons
2009
[4]
서적
Charting Statistics
McGraw Hill
[5]
서적
Practical charting techniques
McGraw-Hill
1969
[6]
웹사이트
40 years of boxplots
https://vita.had.co.[...]
2020-12-24
[7]
논문
Introductory Business Statistics
https://opentextbc.c[...]
2015-03-31
[8]
논문
Some Implementations of the Boxplot
1989-02
[9]
논문
The shifting boxplot. A boxplot based on essential summary statistics around the mean
2010
[10]
서적
A Modern Introduction to Probability and Statistics
https://archive.org/[...]
Springer
[11]
서적
Privacy in Statistical Databases
2022-09
[12]
논문
Variations of Box Plots
1978-02
[13]
웹사이트
R: Box Plot Statistics
http://stat.ethz.ch/[...]
2011-06-26
[14]
논문
An adjusted boxplot for skewed distribution
2008
[15]
서적
数学チュートリアル やさしく語る 確率統計
オーム社
2013
[16]
문서
R言語のboxplot
もデフォルトではこのようにプロットする。
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com