도수 분포
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
도수 분포는 데이터를 상호 배타적인 클래스로 나누고 각 클래스 내 발생 건수를 그룹화하여 요약하는 방법이다. 선거, 소득, 판매량 등 정리되지 않은 데이터를 보여주는 데 사용되며, 히스토그램, 라인 차트, 막대 그래프, 원그래프 등으로 시각화할 수 있다. 도수 분포는 단변량 및 구간별 분포표 형태로 나타낼 수 있으며, 평균, 중앙값, 표준 편차 계산과 가설 검정 등에 활용된다. 또한, 암호 해독의 빈도 분석에도 사용된다.
더 읽어볼만한 페이지
도수 분포 | |
---|---|
통계 정보 | |
유형 | 통계량 |
분야 | 통계학 |
정의 | |
정의 | 주어진 표본에서 특정 값의 발생 횟수를 표로 나타낸 것 |
목적 | 자료의 분포 형태, 중심 경향, 산포 정도 등을 파악 |
구성 요소 | |
계급 (계급 구간) | 자료를 나누는 구간 |
도수 (빈도수) | 각 계급에 속하는 자료의 수 |
상대도수 | 각 계급의 도수가 전체 도수에서 차지하는 비율 |
누적도수 | 특정 계급까지의 도수를 모두 합한 값 |
시각화 | |
그래프 종류 | 히스토그램 도수분포다각형 상자 수염 그림 |
활용 | |
활용 분야 | 기술통계학 추론통계학 데이터 분석 |
관련 통계량 | |
중심 경향 측정 | 평균 중앙값 최빈값 |
산포도 측정 | 분산 표준 편차 사분위수 범위 |
기타 | |
참고 문헌 | 西岡 (1978) JIS Z 8101-1 : 1999 |
2. 도수 분포표
도수 분포표는 데이터와 발생 건수를 상호 배타적인 클래스들로 그룹화하여 요약해서 보여주는 방식이다. 선거, 특정 지역 거주자의 수입, 특정 기간 내 제품 판매량, 졸업생들의 학자금 대출 규모 등 정리되지 않은 데이터를 나타낼 때 유용하다. 히스토그램, 라인 차트, 막대 그래프, 원그래프 등 다양한 그래프를 활용하여 도수 분포를 시각적으로 표현할 수 있으며, 양적, 질적 데이터 모두에 적용 가능하다.
2. 1. 단변량 분포표
아래는 단변량(변수가 하나인) 분포표의 예시이다. 설문조사 질문의 각 응답별 분포를 보여준다.순위 | 동의 정도 | 숫자 |
---|---|---|
1 | 강력히 동의 | 20 |
2 | 어느 정도 동의 | 30 |
3 | 확실하지 않음 | 20 |
4 | 어느 정도 동의하지 않음 | 15 |
5 | 강력히 동의하지 않음 | 15 |
다른 도표 작성 방식으로는 값들을 여러 상자에 종합시키는 방법이 있으며, 각 상자는 일정한 범위의 값들을 포함한다. 예를 들어 한 학급 학생들의 키는 다음의 분포표로 정리할 수 있다.
키 범위 | 학생 수 | 종합 숫자 |
---|---|---|
약 1.52m 미만 | 25 | 25 |
약 1.52m - 약 1.68m | 35 | 60 |
약 1.68m - 약 1.83m | 20 | 80 |
약 1.83m - 약 1.98m | 20 | 100 |
도수 분포는 상호 배타적인 클래스들로 나뉘는 데이터와 클래스 내 발생 건수를 그룹화시켜서 요약해 보여준다. 특히 선거, 특정 지역 거주자의 수입, 특정 기간 내의 제품 판매량, 졸업생들의 학자금 대출의 양 등의 정리되지 않은 데이터를 보여주는 방법의 하나이다. 도수 분포에 사용할 수 있는 그래프 중에는 히스토그램, 라인 차트, 막대 그래프, 원그래프가 있다. 도수 분포는 양적, 질적 데이터에 모두 사용된다.
예를 들어, 100명이 어떤 문장에 동의하는지 5단계의 리커트 척도로 응답했다고 가정한다. 이때, 1은 강하게 동의함을 나타내고, 5는 전혀 동의하지 않음을 나타낸다. 그 응답군을 도수 분포로 나타내면 다음과 같다.
계급 | 동의 정도 | 응답 수 |
---|---|---|
1 | 강하게 동의한다 | 25 |
2 | 어느 정도 동의한다 | 35 |
3 | 어느 쪽도 아니다 | 20 |
4 | 어느 정도 동의하지 않는다 | 15 |
5 | 전혀 동의하지 않는다 | 5 |
이 표에는 두 가지 약점이 있다. 변량이 연속적인 값을 가질 수 있는 경우나, 변량이 가질 수 있는 값의 범위가 매우 넓은 경우, 도수 분포표의 작성은 어려워지고 분석에 적합하지 않게 된다. 그래서, 이것을 약간 수정한 표의 형태로, 변량의 값을 어떤 범위로 등간격으로 나누는 방법이 사용된다. 예를 들어, 학생의 신장 통계를 낼 경우, 도수 분포표는 다음과 같아진다.
신장 범위 | 학생 수 | 누적 |
---|---|---|
135cm - 150cm | 25 | 25 |
150cm - 165cm | 35 | 60 |
165cm - 180cm | 20 | 80 |
180cm - 195cm | 20 | 100 |
2. 2. 구간별 분포표
다음은 단변량(하나의 변수) 분포표의 예시이다. 설문조사 질문의 각 응답 분포를 보여준다.순위 | 동의 정도 | 숫자 |
---|---|---|
1 | 강력히 동의 | 20 |
2 | 어느 정도 동의 | 30 |
3 | 확실하지 않음 | 20 |
4 | 어느 정도 동의하지 않음 | 15 |
5 | 강력히 동의하지 않음 | 15 |
값들을 여러 상자에 종합하여 각 상자가 일정한 범위의 값들을 포함하도록 도표를 작성할 수 있다. 예를 들어 한 학급의 학생들의 키는 다음의 분포표로 정리할 수 있다.
키 범위 | 학생 수 | 종합 숫자 |
---|---|---|
5피트 미만 | 25 | 25 |
약 1.52m - 약 1.68m | 35 | 60 |
약 1.68m - 약 1.83m | 20 | 80 |
약 1.83m - 약 1.98m | 20 | 100 |
도수 분포는 상호 배타적 클래스들로 나뉘는 데이터와 클래스 내 발생 건수를 그룹화시켜서 요약해 보여준다. 특히 선거, 특정 지역 거주자의 수입, 특정 기간 내의 제품 판매량, 졸업생들의 학자금 대출의 양 등의 정리되지 않은 데이터를 보여주는 방법의 하나이다. 도수 분포에 사용할 수 있는 그래프 중에는 히스토그램, 라인 차트, 막대 그래프, 원그래프가 있다. 도수 분포는 양적, 질적 데이터에 모두 사용된다.
100명이 어떤 문장에 동의하는지 5단계의 리커트 척도로 응답했다고 가정했을때 (1은 강하게 동의함을 나타내고, 5는 전혀 동의하지 않음을 나타낸다.) 그 응답군을 도수 분포로 나타내면 다음과 같다.
계급 | 동의 정도 | 응답 수 |
---|---|---|
1 | 강하게 동의한다 | 25 |
2 | 어느 정도 동의한다 | 35 |
3 | 어느 쪽도 아니다 | 20 |
4 | 어느 정도 동의하지 않는다 | 15 |
5 | 전혀 동의하지 않는다 | 5 |
이 표에는 두 가지 약점이 있다. 변량이 연속적인 값을 가질 수 있는 경우나, 변량이 가질 수 있는 값의 범위가 매우 넓은 경우, 도수 분포표의 작성은 어려워지고 분석에 적합하지 않게 된다. 이를 보완하기위해 변량의 값을 어떤 범위로 등간격으로 나누는 방법을 사용한다. 예를 들어, 학생의 신장 통계를 낼 경우, 도수 분포표는 다음과 같아진다.
신장 범위 | 학생 수 | 누적 |
---|---|---|
135cm - 150cm | 25 | 25 |
150cm - 165cm | 35 | 60 |
165cm - 180cm | 20 | 80 |
180cm - 195cm | 20 | 100 |
도수 분포는 상호 배타적인 클래스들로 나뉘는 데이터와 클래스 내 발생 건수를 묶어서 요약해 보여주는 방식이다. 선거, 특정 지역 거주자의 수입, 특정 기간 내의 제품 판매량, 졸업생들의 학자금 대출의 양 등 정리되지 않은 데이터를 나타내는 데 유용하다. 도수 분포에 사용될 수 있는 그래프에는 히스토그램, 라인 차트, 막대 그래프, 원그래프가 있으며, 양적, 질적 데이터 모두에 사용 가능하다.
3. 도수 분포의 활용
다음은 단변량(변수 하나) 분포표의 예시로, 설문조사 질문에 대한 각 응답의 분포를 나타낸다.순위 동의 정도 숫자 1 강력히 동의 20 2 어느 정도 동의 30 3 확실하지 않음 20 4 어느 정도 동의하지 않음 15 5 강력히 동의하지 않음 15
값들을 여러 상자에 종합하여 각 상자가 일정 범위의 값을 포함하도록 도표를 작성할 수도 있다. 예를 들어 한 학급 학생들의 키는 다음의 분포표로 나타낼 수 있다.키 범위 학생 수 종합 숫자 5피트 미만 25 25 5.0-5.5 피트 35 60 5.5–6.0 피트 20 80 6.0–6.5 피트 20 100
3. 1. 통계적 분석
도수 분포로 정리된 데이터는 원본 데이터보다 다루기 쉽다. 도수 분포로부터 중앙값, 평균, 표준 편차를 구하는 간단한 알고리즘이 존재한다.
복수의 도수 분포 간의 차이와 유사성 평가로부터 가설 검정이 고안되었다. 이 평가에는 대표값이나 평균의 측정 및 통계적 변동 (표준 편차나 분산)의 측정이 관계한다.
평균과 중앙값이 다른 경우, 도수 분포에 왜곡이 있다고 한다. 도수 분포의 첨도는 평균값으로의 집중 정도이며, 히스토그램으로 나타냈을 경우 그래프의 뾰족한 정도이다. 정규 분포 이상으로 뾰족한 경우를 "급첨도"(leptokurtic)라고 칭하고, 반대의 경우를 "완첨도"(platykurtic)라고 칭한다.
도수 분포는 암호 해독에서의 빈도 분석에도 사용된다. 이는 문자 종류별 출현 빈도와 언어에서의 문자 종류별 출현 빈도로부터 암호를 해독하는 수법이다.
3. 2. 암호 해독
도수 분포는 암호 해독에서 빈도 분석에 사용된다. 이는 문자 종류별 출현 빈도와 특정 언어에서 문자 종류별 출현 빈도를 비교하여 암호를 해독하는 방법이다.
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com