히스토그램
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
히스토그램은 관측값의 빈도를 시각적으로 나타내는 그래프로, 1892년 칼 피어슨에 의해 명명되었다. 수학적으로는 관측값을 겹치지 않는 구간(빈)으로 매핑하는 함수로 정의되며, 누적 히스토그램과 같은 변형된 형태도 존재한다. 히스토그램의 형태는 데이터 분포를 보여주며, 대칭형, 편향형, 단봉형, 이봉형 등 여러 종류가 있다. 히스토그램을 구성하는 빈의 개수와 폭은 데이터의 특성과 분석 목적에 따라 다양한 방법을 통해 결정되며, 강우량 분석, 디지털 이미지 처리, 사회 현상 분석 등 다양한 분야에서 활용된다.
더 읽어볼만한 페이지
- 품질 관리 - OpenVMS
OpenVMS는 DEC에서 개발한 멀티유저, 멀티프로세싱 가상 메모리 기반 운영 체제로, 고도의 안정성, 보안성, 확장성을 특징으로 하며 다양한 아키텍처, 클러스터링, 네트워킹, 프로그래밍 언어 및 개발 도구를 지원한다. - 품질 관리 - 산점도
산점도는 두 변수 간의 관계를 좌표평면 위에 점으로 시각화하여 상관관계, 패턴, 이상점 등을 파악하는 데 사용되는 그래프이다. - 통계 차트와 다이어그램 - 레이더 차트
레이더 차트는 여러 변수의 상대적 크기를 시각적으로 비교하는 차트로, 중심점에서 방사형으로 뻗어나가는 축을 사용하여 데이터 패턴 파악, 유사성 비교, 이상치 탐색 등에 활용되지만, 면적 왜곡 등의 단점도 존재하여 데이터 해석 시 주의가 필요하다. - 통계 차트와 다이어그램 - 연표
연표는 시간 순서에 따라 사건, 현상, 변화 등을 시각적으로 표현하는 방식으로, 역사 기록에서 시작하여 표 형태로 발전했으며 다양한 분야에서 활용되고 여러 형태로 정보를 제시한다. - 통계학 - 확률
확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다. - 통계학 - 사분위수
사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.
히스토그램 | |
---|---|
개요 | |
정의 | 수치적 자료의 분포를 시각적으로 표현하는 그래프 |
특징 | 자료의 빈도 분포를 파악하는데 유용함 각 막대는 계급(bin)을 나타내고, 막대의 높이는 해당 계급에 속하는 자료의 빈도를 나타냄 |
주의사항 | 히스토그램은 막대 그래프와 유사하지만, 막대 그래프는 범주형 자료를 다루고 히스토그램은 수치형 자료를 다룬다는 차이점이 있음 |
역사 | |
기원 | 칼 피어슨에 의해 처음 소개됨 |
활용 | |
통계학 | 자료 분석 및 분포 파악 |
이미지 처리 | 이미지 히스토그램 참조 (색상 분포 분석 등) |
제작 방법 | |
계급 결정 | 적절한 계급의 개수 및 간격 설정 (자료의 범위 및 분포 고려) |
빈도 계산 | 각 계급에 속하는 자료의 빈도 계산 |
그래프 작성 | 계급을 가로축에, 빈도를 세로축에 표시하여 막대 그래프 형태로 작성 |
기타 | |
관련 용어 | 도수분포표 막대 그래프 줄기-잎 그림 상자 그림 |
2. 어원
칼 피어슨이 1892년 런던 대학교 강의에서 '히스토그램(histogram)'이라는 용어를 처음 사용했다.[4] 그는 히스토그램의 수직 막대를 가리키는 '똑바로 세워진 것'을 의미하는 그리스어 'ἱστός'(히스토스)에서 이 용어를 만들었다. '그림'을 뜻하는 'γραμμα'(그람마)와 '탐구' 또는 '역사'를 뜻하는 'ἱστορία'(히스토리아), 혹은 '조직'을 의미하는 'ἱστίον'(히스티온)과 결합한 것이라는 오해가 있지만, 이는 부정확하다.[4]
3. 수학적 정의
> 주기 1 계급의 폭이 균일하지 않은 경우에는 주의가 필요하다. 계급의 폭이 균일하지 않은 경우에는 계급의 면적을 계급의 도수에 비례시키는 것이 좋다.
> 주기 2 모든 계급의 폭을 같게 하고, 직사각형의 높이를 계급의 도수에 비례시키는 것이 일반적이다.
히스토그램은 커널 밀도 추정의 단순화된 형태로 볼 수 있으며, 커널을 사용하여 빈에 걸쳐 빈도를 부드럽게 만든다. 이는 더 부드러운 확률 밀도 함수를 생성하며, 기본 변수의 분포를 보다 정확하게 반영한다. 커널 밀도 추정의 대안은 평균 이동 히스토그램이며,[8] 계산이 빠르고 커널을 사용하지 않고도 밀도에 대한 부드러운 곡선 추정치를 제공한다.
히스토그램은 상호 배타적인 구간, 즉 계급(빈)으로 분류할 수 있는 관찰 결과의 수를 그림으로 나타낸 것이다. 총 관측 결과의 수 ''n''과 총 계급의 수 ''k'', 히스토그램 ''m''''i''는 다음 식의 관계를 갖는다.
:
3. 1. 누적 히스토그램
누적 히스토그램은 특정 상자까지 나온 관측값을 모두 누적해서 세는 사상이다. 첫 번째 상자는 그냥 그 상자에 있는 관측값의 수와 같고, 마지막 상자는 모든 관측값의 수와 같게 된다. 즉, 히스토그램 의 누적 히스토그램 는 다음과 같이 정의된다.
:
누적 히스토그램은 지정된 빈까지의 모든 빈에서 관측치의 누적 수를 세는 매핑이다. 즉, 히스토그램 ''m''''j''의 누적 히스토그램 ''M''''i''는 다음과 같이 정의된다.
:
누적도수 그림(cumulative histogram|누적 히스토그램영어)은 특정 계급까지의 모든 계급에 포함된 관측 결과의 누적수를 기록한다. 누적 도수 함수와 는 히스토그램 함수 를 사용하여 다음 식으로 정의할 수 있다.
:
누적 도수는 일본 산업 규격 (JIS Z 8101-1 : 1999)에서 "어떤 값 이하의 관측값의 도수 또는 상대도수"로 정의하고 있다.
4. 구간(bin)의 개수와 폭
"최적"의 구간(bin) 개수는 없으며, 구간 크기에 따라 데이터의 특징이 다르게 나타날 수 있다. 예를 들어 500개 항목을 사용한 히스토그램 데이터는 다음과 같다.
구간 | 개수/빈도 |
---|---|
−3.5 ~ −2.51 | 9 |
−2.5 ~ −1.51 | 32 |
−1.5 ~ −0.51 | 109 |
−0.5 ~ 0.49 | 180 |
0.5 ~ 1.49 | 132 |
1.5 ~ 2.49 | 34 |
2.5 ~ 3.49 | 4 |
히스토그램의 패턴은 "대칭", "왼쪽 또는 오른쪽으로 치우침", "단봉", "이봉", "다봉" 등의 단어로 설명할 수 있다.
데이터에 대한 더 많은 정보를 얻기 위해 여러 다른 구간 너비를 사용해 데이터를 나타내는 것이 좋다. 다음은 식당에서 제공되는 팁에 대한 예시이다.
이처럼 구간 너비에 따라 히스토그램의 모양이 달라지고 데이터의 특징이 다르게 나타나기 때문에, 적절한 너비를 결정하기 위해 실험이 필요하다.
일반적으로 히스토그램을 그릴 때는 7에서 10 계급을 사용한다. 그러나 때때로 자료를 정리하는 데에 아래의 경험 법칙을 쓰기도 한다. 여기서 은 표본에서 관측값의 개수이다.
각각 성공률에 차이가 있으며, 마지막 방법은 인 경우에는 좋지 않다.
미국 인구조사국의 자료에 따르면, 1억 2,400만 명이 집 밖에서 일하며,[6] 직장까지 이동하는 데 걸리는 시간에 대한 데이터는 아래 표와 같다.
:
구간 | 너비 | 양 | 양/너비 |
---|---|---|---|
0 | 5 | 4180 | 836 |
5 | 5 | 13687 | 2737 |
10 | 5 | 18618 | 3723 |
15 | 5 | 19634 | 3926 |
20 | 5 | 17981 | 3596 |
25 | 5 | 7190 | 1438 |
30 | 5 | 16369 | 3273 |
35 | 5 | 3212 | 642 |
40 | 5 | 4122 | 824 |
45 | 15 | 9200 | 613 |
60 | 30 | 6461 | 215 |
90 | 60 | 3435 | 57 |
"최소 30분 이상 35분 미만"으로 이동 시간을 응답한 사람의 수가 그 위와 아래 범주의 숫자보다 높은데, 이는 사람들이 보고된 이동 시간을 반올림했기 때문일 수 있다. 이처럼 값을 다소 임의로 반올림된 숫자로 보고하는 문제는 사람들의 데이터를 수집할 때 흔히 발생한다.
히스토그램에서 각 블록의 높이는 각 단위 간격당 사례 수를 나타내므로, 각 블록의 면적은 해당 범주에 속하는 사람의 수와 같다. 곡선 아래 면적은 총 사례 수(1억 2,400만)를 나타낸다.
구체적인 예시로, 위키백과 일본어판의 "히스토그램" 문서의 2013년 1월 열람 횟수를 살펴보자. 각 날짜별 열람 횟수는 다음과 같다.[29]
날짜 | 열람 횟수 | 날짜 | 열람 횟수 | |
---|---|---|---|---|
1 | 78 | 16 | 625 | |
2 | 126 | 17 | 606 | |
3 | 156 | 18 | 483 | |
4 | 231 | 19 | 377 | |
5 | 215 | 20 | 370 | |
6 | 304 | 21 | 587 | |
7 | 484 | 22 | 667 | |
8 | 544 | 23 | 643 | |
9 | 566 | 24 | 756 | |
10 | 545 | 25 | 505 | |
11 | 478 | 26 | 436 | |
12 | 258 | 27 | 399 | |
13 | 225 | 28 | 611 | |
14 | 373 | 29 | 679 | |
15 | 620 | 30 | 575 | |
31 | 565 |
이를 계급 수 8, 폭 100으로 히스토그램을 만들면 다음과 같다.
열람 횟수 | 해당 횟수를 기록한 날짜 수 |
---|---|
0 - 99 | 1 |
100 - 199 | 2 |
200 - 299 | 4 |
300 - 399 | 5 |
400 - 499 | 4 |
500 - 599 | 7 |
600 - 699 | 7 |
700 - 799 | 1 |
일반적으로, 구간의 너비 ''h''는 다음 식으로 구할 수 있다.
:
:위의 대괄호는 천장 함수를 나타낸다.
4. 1. 구간 결정 방법
; 제곱근 선택(Square-root choice영어):
: 표본 내 데이터 개수의 제곱근을 사용한다.[31]
; 스터지스 공식(Sturges' formula영어)[12]
:
: 이항 분포에서 파생되었으며, 암묵적으로 근사 정규 분포를 가정한다. 인 경우 빈 수가 적어(7개 미만) 데이터의 경향을 제대로 나타내지 못하므로 성능이 좋지 않을 수 있다. 또한 데이터가 정규 분포를 따르지 않는 경우에도 성능이 좋지 않을 수 있다.
; 라이스 규칙(Rice rule영어)[14]
:
: 스터지스 공식에 대한 간단한 대안으로 제시된다.
; 두앤 공식(Doane's formula영어)[15]
:
: 여기서 은 분포의 추정된 3차 모멘트 왜도이고,
:이다.
: 정규 분포가 아닌 데이터에 대한 성능을 개선하기 위해 시도된 스터지스 공식의 수정이다.
; 스코트의 정규 참조 규칙(Scott's normal reference rule영어)[16]
:
: 여기서 는 표본 표준 편차이다. 정규 분포 데이터의 임의 표본 추출에 최적이다.[17]
; 테렐-스콧 규칙(Terrell–Scott rule영어)[13][19]
:
: 점근적으로 최적의 히스토그램에 필요한 최소 개수의 구간을 제공한다.
; 프리드먼-다이코니스 규칙(Freedman–Diaconis' choice영어)[20][17]
:
: 사분위 범위(IQR)를 기반으로 한다.
; 교차 검증 제곱 오차 최소화[21][22]
:
: 교차 검증을 사용하여 통합 평균 제곱 오차를 최소화한다.
; 시마자키-시노모토 선택(Shimazaki and Shinomoto's choice영어)[23]
:
: 추정된 ''L''2 위험 함수의 최소화에 기반한다. 여기서 과 는 빈 너비가 인 히스토그램의 평균과 편향된 분산이다.
; 가변 구간 폭
: 일부 응용 분야에서는 구간 너비를 변경하는 것이 유용할 수 있다.[24]
5. 히스토그램의 종류
데이터의 분포 형태에 따라 히스토그램은 여러 종류로 나눌 수 있다.
일본 산업 규격 JIS Z 8101-1:2015 (국제 규격 ISO 3534-1:2006과 동일)에서는 히스토그램의 종류를 다음과 같이 분류한다.
{| class="wikitable"
|+ 히스토그램의 종류
|-
!종류!!설명!!예시
|-
| U자형 분포
| 처음 구간에서 점차 감소하여 중간(대부분의 경우)에서 최소가 되고 다시 증가하는 형태이다.
|
점수 | 이 점수를 얻은 학생의 수 |
---|---|
0.5-10.5 | 10 |
10.5-21.5 | 8 |
21.5-31.5 | 6 |
31.5-41.5 | 4 |
41.5-51.5 | 2 |
51.5-61.5 | 0 |
61.5-71.5 | 2 |
71.5-81.5 | 4 |
81.5-91.5 | 6 |
91.5-101.5 | 8 |
|-
| 균일 분포
| 모든 구간의 수가 같거나 비슷한(대략 2 이하의 차이) 형태이다. 일양 분포라고도 한다.
|
|-
| 산 모양 분포
| 중앙 구간이 최댓값을 갖는 형태이다.
|
|-
| 왜곡 분포
| 스케이트보드장과 같이 굽은 형태의 분포를 의미한다.
|
|-
| 왼쪽 왜곡 분포
| 오른쪽으로 올라가는 형태이다.
|
|-
| 오른쪽 왜곡 분포
| 왼쪽에서 내려가는 형태이다.
|
|}
5. 1. 일반적인 형태
히스토그램의 패턴은 다음과 같이 나타낼 수 있다.[6]종류 | 설명 | 예시 |
---|---|---|
대칭형 (Symmetric) | 좌우가 대칭인 형태 | |
편향형 (Skewed) | 왼쪽 또는 오른쪽으로 치우친 형태 | |
단봉형 (Unimodal) | 하나의 봉우리를 가지는 형태 | |
이봉형 (Bimodal) | 두 개의 봉우리를 가지는 형태 | |
다봉형 (Multimodal) | 여러 개의 봉우리를 가지는 형태 |
히스토그램의 패턴을 설명하는 데 사용되는 단어는 "대칭", "왼쪽 또는 오른쪽으로 치우침", "단봉", "이봉", "다봉"이다.[6]
오른쪽으로 치우친 히스토그램의 예시로, 구간 너비에 따라 달라지는 히스토그램의 형태를 확인할 수 있다.
다음은 U자형, 균일 분포, 산 모양 분포, 왜곡 분포에 대한 설명이다.
- U자형 분포 (U-shaped distribution): 처음 구간에서 점차 감소하여 중간(대부분의 경우)에서 최소가 되고 다시 증가하는 형태이다.
- 균일 분포 (uniform distribution): 모든 구간의 수가 같거나 비슷한(대략 2 이하의 차이) 형태이다. 일양 분포라고도 한다.
- 산 모양 분포 (mound-shaped distribution): 중앙 구간이 최댓값을 갖는 형태이다.
- 왜곡 분포 (skewed distribution): 스케이트보드장과 같이 굽은 형태의 분포를 의미한다. 왼쪽에서 내려가는 것을 오른쪽 왜곡 분포 (right-skewed distribution), 오른쪽으로 올라가는 것을 왼쪽 왜곡 분포 (left-skewed distribution)라고 한다.
5. 2. 일본 JIS 기준
일본 산업 규격 JIS Z 8101-1:2015 (국제 규격 ISO 3534-1:2006과 동일)에서는 히스토그램을 "밑변의 길이가 계급의 폭과 같고, 그 면적이 계급의 도수에 비례하는 인접한 직사각형으로 이루어진 도수 분포의 그래프 표현"으로 정의한다.일반적으로 모든 계급의 폭을 같게 하고, 직사각형의 높이를 계급의 도수에 비례시키는 것이 일반적이다.
JIS에서는 히스토그램의 종류를 다음과 같이 분류한다.
- U자형 분포
- 균일 분포
- 산 모양 분포
- 왜곡 분포
- 왼쪽 왜곡 분포
- 오른쪽 왜곡 분포
6. 응용
- 수문학: 수문학에서 강우량 및 하천 유량 데이터의 히스토그램과 추정된 밀도 추정 밀도 함수는 확률 분포를 사용하여 분석되며, 이들의 거동과 발생 빈도에 대한 통찰력을 얻는 데 사용된다.[27]
- 디지털 이미지 처리: 많은 디지털 이미지 처리 프로그램에는 히스토그램 도구가 있으며, 이는 픽셀의 대비 / 밝기 분포를 보여준다.
대비의 히스토그램 - 사회 현상 분석: 소득 불평등, 교육 격차 등 사회 현상을 시각화하고 분석하는 데 활용될 수 있다. (한국의 관점)
- 여론 조사: 여론 조사 결과를 시각화하여 정책 결정에 참고 자료로 활용할 수 있다. (한국의 관점)
다음은 위키백과 일본어판의 "히스토그램" 문서의 2013년 1월 열람 횟수를 히스토그램으로 나타낸 예시이다.[29]
날짜 | 열람 횟수 | 날짜 | 열람 횟수 | |
---|---|---|---|---|
1 | 78 | 16 | 625 | |
2 | 126 | 17 | 606 | |
3 | 156 | 18 | 483 | |
4 | 231 | 19 | 377 | |
5 | 215 | 20 | 370 | |
6 | 304 | 21 | 587 | |
7 | 484 | 22 | 667 | |
8 | 544 | 23 | 643 | |
9 | 566 | 24 | 756 | |
10 | 545 | 25 | 505 | |
11 | 478 | 26 | 436 | |
12 | 258 | 27 | 399 | |
13 | 225 | 28 | 611 | |
14 | 373 | 29 | 679 | |
15 | 620 | 30 | 575 | |
31 | 565 |
위 표를 바탕으로 계급의 수를 8, 폭을 100으로 하여 히스토그램을 작성하면 다음과 같다.
열람 횟수 | 해당 횟수를 기록한 날짜 수 |
---|---|
0 - 99 | 1 |
100 - 199 | 2 |
200 - 299 | 4 |
300 - 399 | 5 |
400 - 499 | 4 |
500 - 599 | 7 |
600 - 699 | 7 |
700 - 799 | 1 |
참조
[1]
서적
Introduction to Statistics in Psychology
Prentice Hall
[2]
웹사이트
A Histogram is NOT a Bar Chart
https://www.forbes.c[...]
2018-07-31
[3]
간행물
Karl Pearson and the Origins of Modern Statistics: An Elastician becomes a Statistician
http://www.rutherfor[...]
2006-12
[4]
간행물
"On the origin of Karl Pearson’s term 'histogram'"
https://www.research[...]
2017
[5]
간행물
Contributions to the Mathematical Theory of Evolution. II. Skew Variation in Homogeneous Material
https://zenodo.org/r[...]
[6]
문서
US 2000 census
https://www.census.g[...]
[7]
문서
Descriptive Statistics: Histogram
http://cnx.org/conte[...]
2009-02-19
[8]
간행물
Averaged shifted histogram
https://www.research[...]
2009-12
[9]
서적
Modern Applied Statistics with S
Springer
[10]
웹사이트
Making a grouped-data frequency table: development and examination of the iteration algorithm
https://etd.ohiolink[...]
Doctoral dissertation, Ohio University
[11]
웹사이트
MathWorks: Histogram
https://www.mathwork[...]
[12]
간행물
The choice of a class interval
[13]
간행물
Sturges' rule
[14]
웹사이트
Online Statistics Education: A Multimedia Course of Study
http://onlinestatboo[...]
[15]
간행물
Aesthetic frequency classification
[16]
간행물
On optimal and data-based histograms
[17]
서적
Multivariate Density Estimation: Theory, Practice, and Visualization
John Wiley
[18]
웹사이트
Excel:Create a histogram
https://support.micr[...]
[19]
간행물
Oversmoothed nonparametric density estimates
[20]
간행물
On the histogram as a density estimator: L2 theory
http://bayes.wustl.e[...]
[21]
서적
All of Statistics
Springer
[22]
학회자료
An asymptotically optimal histogram selection rule
http://digitalassets[...]
1984
[23]
간행물
A method for selecting the bin size of a time histogram
[24]
웹사이트
Chi-square goodness-of-fit test
https://itl.nist.gov[...]
NIST/SEMATECH
2019-03-29
[25]
서적
Goodness-of-Fit Techniques
Marcel Dekker Inc.
1986
[26]
웹사이트
A calculator for probability distributions and density functions
https://www.waterlog[...]
[27]
웹사이트
An illustration of histograms and probability density functions
https://www.waterlog[...]
[28]
웹사이트
ヒストグラム
https://jglobal.jst.[...]
J-GLOBAL
2020-11-27
[29]
문서
Wikipedia article traffic statistics
http://stats.grok.se[...]
[30]
문서
Venables, Ripley, Modern Applied Statistics with S
[31]
문서
Microsoft Excel
[32]
문서
Freedman Diaconis
[33]
웹인용
Web Resource on the Histogram Bin Size Selection
http://2000.jukuin.k[...]
2010-01-27
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com