최빈값
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
최빈값은 데이터 집합에서 가장 자주 나타나는 값으로, 확률 분포의 중심 경향을 나타내는 척도 중 하나이다. 이산 확률 분포에서는 확률 질량 함수가 최대가 되는 값이며, 연속 확률 분포에서는 확률 밀도 함수가 최대가 되는 값으로 정의된다. 최빈값은 표본의 최빈값, 평균, 중앙값과 비교되며, 데이터의 특성에 따라 다른 값을 가질 수 있다. 최빈값은 이상치에 둔감하며, 명목형 데이터나 다수결 투표 시스템에도 적용될 수 있다.
더 읽어볼만한 페이지
- 통계량 - 제곱평균제곱근
제곱평균제곱근(RMS)은 값들의 크기를 나타내는 통계량으로, 이산 데이터의 경우 각 값의 제곱의 평균의 제곱근, 연속 함수의 경우 함수 제곱의 적분 평균의 제곱근으로 정의되며, 전기공학, 물리학 등 다양한 분야에서 활용되고 표준편차와 밀접한 관련이 있다. - 통계량 - 피어슨 상관 계수
피어슨 상관 계수는 두 변수 간의 선형 관계를 측정하는 지표로, -1과 1 사이의 값을 가지며, 1 또는 -1에 가까울수록 강한 선형 관계를 나타낸다. - 통계학 용어 - 퍼센트 포인트
퍼센트포인트는 전체 비율을 나타내는 퍼센트와 달리 두 퍼센트 값의 차이를 나타내는 단위로, 경제 지표나 여론조사 등에서 명확한 정보 전달을 위해 중요하며 절대적 변화량을 나타낸다. - 통계학 용어 - 편차
편차는 관측값과 참값의 차이인 오차를 의미하며 통계적 분산 측정에 중요하고, 데이터 분석, 과학 실험, 무선 공학 등에서 활용된다.
| 최빈값 |
|---|
2. 확률 분포의 최빈값
이산 확률 분포의 최빈값은 확률 질량 함수가 최대가 되는 값으로, 표본으로 가장 빈번하게 나타나기 쉬운 값이다. 연속 확률 분포의 최빈값은 확률 밀도 함수가 최대가 되는 값으로, 대략적으로 그 피크에 해당한다. 최빈값은 유일하지 않을 수 있으며, 확률 질량 함수나 확률 밀도 함수가 여러 지점에서 최대가 될 수 있다.
확률 밀도 함수가 여러 개의 극값을 가질 때, 각각을 해당 분포의 최빈값으로 간주하기도 한다. 이러한 연속 확률 분포를 "다봉 분포", 그렇지 않은 것을 "단봉 분포"라고 부른다.
정규 분포와 같은 선대칭 단봉 분포에서는 평균, 중앙값, 최빈값이 모두 일치한다. 예를 들어, 선대칭 분포를 따른다고 판명된 경우, 표본 집단의 평균을 모집단의 최빈값의 추정치로 사용할 수 있다.
2. 1. 이산 확률 분포의 최빈값
이산 확률 분포의 최빈값은 확률 질량 함수가 최대가 되는 값이다. 다시 말해, 표본으로 가장 빈번하게 나타나기 쉬운 값이다.2. 2. 연속 확률 분포의 최빈값
연속 확률 분포에서 최빈값은 확률 밀도 함수가 최대가 되는 값이다. 확률 밀도 함수가 여러 개의 극값을 가질 때, 각각을 해당 분포의 최빈값으로 간주하기도 한다.[1]3. 표본의 최빈값
표본의 최빈값은 집합에서 가장 자주 나타나는 요소이다. 예를 들어, 표본 [1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17]의 최빈값은 6이다. 데이터 목록 [1, 1, 2, 4, 4]가 주어지면 최빈값은 고유하지 않은데, 이러한 경우 데이터 세트를 이봉이라고 하며, 두 개 이상의 최빈값을 가진 집합은 다봉이라고 설명할 수 있다.[1]
[0.935..., 1.211..., 2.430..., 3.668..., 3.874...]와 같은 연속 분포의 표본의 경우, 각 값은 정확히 한 번씩 발생하므로, 원시 형태로는 최빈값 개념을 적용할 수 없다. 기본 분포의 최빈값을 추정하기 위해, 일반적인 방법은 값을 등간격 구간으로 나누어 빈도를 나타내는 히스토그램을 작성하고, 각 구간의 중앙값으로 해당 구간을 대표하게 하는 것이다. 따라서 최빈값은 히스토그램에서 최고점에 도달하는 값이다.[1] 작거나 중간 크기의 표본의 경우, 구간 너비를 너무 좁거나 넓게 선택하면 결과가 민감하게 변한다. 일반적으로 데이터의 상당 부분이 비교적 적은 수의 간격(5~10개)에 집중되어 있어야 하며, 이러한 간격 외부에 속하는 데이터의 비율도 상당해야 한다. 대안적인 접근 방식은 커널 밀도 추정으로, 점 표본을 흐리게 하여 확률 밀도 함수의 연속 추정치를 생성하고, 이를 통해 최빈값을 추정한다.[1]
3. 1. 최빈값 계산 알고리즘 (MATLAB/Octave 예제)
matlabX = sort(x); % x는 열 벡터 데이터 세트이다.
indices = find(diff([X, realmax]) > 0); % 반복된 값이 변경되는 인덱스
[modeL,i] = max (diff([0, indices])); % 반복된 값의 가장 긴 지속 길이
mode = X(indices(i));
```
이 알고리즘은 첫 번째 단계로 표본을 오름차순으로 정렬한다.[1] 그런 다음 정렬된 목록의 이산 도함수를 계산하고 이 도함수가 양수인 인덱스를 찾는다.[1] 다음으로 이 인덱스 집합의 이산 도함수를 계산하고 이 인덱스 도함수의 최댓값을 찾아 해당 최댓값이 발생하는 지점에서 정렬된 표본을 평가한다.[1] 이는 반복된 값의 스트레치의 마지막 멤버에 해당한다.[1]
4. 평균, 중앙값, 최빈값의 비교
평균, 중앙값, 최빈값은 데이터의 중심 경향을 나타내는 통계량으로, 데이터의 특성과 분포에 따라 서로 다른 의미를 가진다.
값 { 1, 2, 2, 3, 4, 7, 9 }의 대표값 비교는 아래 표와 같다.
| 유형 | 설명 | 예시 | 결과 |
|---|---|---|---|
| 산술 평균 | 데이터 집합의 값의 합계를 값의 개수로 나눈 값 | (1+2+2+3+4+7+9) / 7 | 4 |
| 중앙값 | 데이터 집합의 크고 작은 절반을 분리하는 중간 값 | 1, 2, 2, 3, 4, 7, 9 | 3 |
| 최빈값 | 데이터 집합에서 가장 빈번하게 나타나는 값 | 1, 2, 2, 3, 4, 7, 9 | 2 |
이산 확률 분포의 최빈값은 확률 질량 함수가 최대가 되는 값으로, 표본으로 가장 자주 나타나는 값이다. 연속 확률 분포의 최빈값은 확률 밀도 함수가 최대가 되는 값으로, 그래프에서 피크(peak)에 해당한다. 최빈값은 유일하지 않을 수 있으며, 확률 질량 함수나 확률 밀도 함수가 여러 지점에서 최대가 될 수 있다.
정규 분포와 같은 선대칭 단봉 분포에서는 평균, 중앙값, 최빈값이 모두 일치한다.
4. 1. 평균, 중앙값, 최빈값의 활용
평균과 중앙값과 달리 최빈값 개념은 "명목형 데이터"(예: 한국의 성씨에서 "김"씨)에도 적용될 수 있다. 다수결로 승자를 결정하는 모든 투표 시스템에서 단일 최빈값이 승자를 결정하는 반면, 다중 최빈값 결과가 발생하면 무승부 해결 절차가 필요하다.[15][16]| 종류 | 의미 | 예 | 결과 |
|---|---|---|---|
| 산술 평균 | 총합을 표본 크기로 나눈 값 | (1+2+2+3+4+7+9) / 7 | 4 |
| 중앙값 | 표본군을 오름차순으로 정렬했을 때 중앙에 위치하는 값 | 1, 2, 2, 3, 4, 7, 9 | 3 |
| 최빈값 | 표본군에서 가장 빈번하게 나타나는 값 | 1, 2, 2, 3, 4, 7, 9 | 2 |
4. 2. 평균, 중앙값, 최빈값의 관계
연속적인 단봉 분포에서 중앙값은 종종 평균과 최빈값 사이에 위치하며, 평균에서 최빈값까지의 약 3분의 1 지점에 있다. 수식으로 나타내면, 중앙값 ≈ (2 × 평균 + 최빈값)/3 이다. 칼 피어슨에 의한 이 규칙은 정규 분포와 유사한 약간 비대칭적인 분포에 자주 적용되지만 항상 참은 아니며 일반적으로 세 가지 통계는 어떤 순서로든 나타날 수 있다.[5][6]단봉 분포의 경우, 최빈값은 평균에서 표준 편차 이내에 있으며, 최빈값에 대한 제곱근 평균 제곱 편차는 표준 편차와 두 배의 표준 편차 사이에 있다.[7]
반 스웨트(Van Zwet)는 다음 부등식이 성립하기 위한 충분 조건을 제공하는 부등식을 도출했다.[8]
: 최빈값 ≤ 중앙값 ≤ 평균
위 부등식은 다음 조건을 만족하면 성립한다.
: F(중앙값 - x) + F(중앙값 + x) ≥ 1
여기서 F()는 해당 분포의 누적 분포 함수이다.
5. 단봉 분포
단봉 분포는 하나의 최빈값을 갖는 분포이다. 중앙값과 평균은 단봉 분포에서 서로 (3/5)1/2 ≈ 0.7746 표준 편차 이내에 위치한다.[9]
:
여기서 는 절댓값이다.
중앙값과 최빈값은 단봉 분포에서 서로 31/2 ≈ 1.732 표준 편차 이내에 위치한다.
:
6. 왜곡된 분포의 예시
왜곡된 분포의 예로는 부의 분배가 있다. 소수의 사람은 매우 부유하지만, 그 중 일부는 극도로 부유하다. 그러나 많은 사람들은 가난하다.
임의로 왜곡될 수 있는 잘 알려진 분포 클래스는 로그 정규 분포에 의해 제공된다. 이는 정규 분포를 갖는 확률 변수 X|X영어를 확률 변수 로 변환하여 얻어진다. 그러면 확률 변수 Y|Y영어의 로그는 정규 분포를 따르므로 이와 같은 이름이 붙었다.
X|X영어의 평균 μ를 0으로 하면 Y|Y영어의 중앙값은 가 되며, 이는 X|X영어의 표준 편차 σ와 무관하다. 이는 X|X영어가 대칭 분포를 가지므로 중앙값도 0이기 때문이다. X|X영어에서 Y|Y영어로의 변환은 단조적이며, 따라서 Y|Y영어에 대한 중앙값 를 찾는다.
X|X영어의 표준 편차가 σ = 0.25일 때, Y|Y영어의 분포는 약하게 왜곡된다. 로그 정규 분포 공식을 사용하여 다음을 찾는다.
:
실제로, 중앙값은 평균에서 최빈값까지의 약 1/3 지점에 있다.
X|X영어가 더 큰 표준 편차 를 가질 때, Y|Y영어의 분포는 강하게 왜곡된다. 이제
:
여기서, 피어슨의 경험 규칙은 실패한다.
7. 역사
최빈값이라는 용어는 1895년 칼 피어슨에 의해 처음 사용되었다.[10] 피어슨은 "최빈값"이라는 용어를 "최대 종속 변수"와 동의어로 사용했다. 그는 "최대 빈도에 해당하는 가로좌표에 대해 '최빈값'이라는 용어를 사용하는 것이 편리하다고 생각했다"고 말했다.
참조
[1]
서적
Essentials of Econometrics
McGraw-Hill Irwin
[2]
논문
Bimodality in tropical water vapour
[3]
웹사이트
AP Statistics Review - Density Curves and the Normal Distributions
http://apstatsreview[...]
2015-03-16
[4]
웹사이트
Random Walks with Decreasing Steps
http://www.calpoly.e[...]
1998-07-23
[5]
웹사이트
Relationship between the mean, median, mode, and standard deviation in a unimodal distribution
http://www.se16.info[...]
[6]
논문
Mean, Median, and Skew: Correcting a Textbook Rule
http://www.amstat.or[...]
[7]
논문
Maximum distance between the mode and the mean of a unimodal distribution
http://www.se16.info[...]
[8]
논문
Mean, median, mode II
[9]
논문
The mean, median, and mode of unimodal distributions: a characterization
[10]
논문
Contributions to the Mathematical Theory of Evolution. II. Skew Variation in Homogeneous Material
https://zenodo.org/r[...]
[11]
서적
Encyclopedia of researchL design
Sage
[12]
간행물
'JIS Z 8101-1 : 1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語 1.11 最頻値'
http://kikakurui.com[...]
日本規格協会
[13]
서적
数学チュートリアル やさしく語る 確率統計
オーム社
[14]
서적
確率論及統計論
http://ebsa.ism.ac.j[...]
[15]
웹사이트
Relationship between the mean, median, mode, and standard deviation in a unimodal distribution
http://www.btinterne[...]
2012-07-20
[16]
논문
Mean, Median, and Skew: Correcting a Textbook Rule
http://www.amstat.or[...]
[17]
문서
Maximum distance between the mode and the mean of a unimodal distribution
https://web.archive.[...]
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com