다봉분포는 두 개 이상의 최빈값을 갖는 확률 분포를 의미한다. 요한 갈퉁의 AJUS 분류 시스템에 따르면 S 또는 U 유형으로 분류된다. 이봉 분포는 수학, 자연 과학, 생물학, 계량경제학 등 다양한 분야에서 관찰되며, 아크사인 분포, 베타 분포, 두 정규 분포의 비율 등 다양한 확률 분포가 이봉 분포를 따른다. 이봉 분포는 일반적으로 두 개의 단봉 분포 혼합으로 생성되며, 혼합 분포의 적률을 통해 특성을 분석할 수 있다. 이봉 분포를 검정하기 위해 다양한 통계적 검정 방법과 그래픽 방법이 사용되며, R, SAS, Python 등의 소프트웨어를 활용하여 매개변수를 추정하고 곡선을 적합시킬 수 있다.
더 읽어볼만한 페이지
연속분포 - 로그 정규 분포 로그 정규 분포는 확률 변수 X의 로그가 정규 분포를 따르며, 양의 실수 값을 갖고 평균 μ와 표준 편차 σ를 매개변수로 갖는 확률 분포이다.
연속분포 - 연속균등분포 특정 구간 내 모든 값이 동일한 확률을 갖는 연속 균등 분포는 통계학, 금융, 물리 등에서 활용되며 난수 생성과 표본 추출에 유용하다.
확률분포 - 베르누이 분포 베르누이 분포는 성공 확률 p를 가지며, 단 한 번의 시행에서 성공 또는 실패 두 가지 결과를 나타내는 이산 확률 분포로, 기댓값은 p, 분산은 p(1-p)이며 다른 여러 확률 분포와 관련되어 불확실성과 정보량을 측정할 수 있다.
확률분포 - 로그 정규 분포 로그 정규 분포는 확률 변수 X의 로그가 정규 분포를 따르며, 양의 실수 값을 갖고 평균 μ와 표준 편차 σ를 매개변수로 갖는 확률 분포이다.
다봉분포
개요
정의
확률 분포에서 하나 이상의 최빈값을 가지는 경우를 말함.
단봉 분포
최빈값이 하나인 분포.
이봉 분포
최빈값이 두 개인 분포.
다봉 분포
최빈값이 세 개 이상인 분포.
유형
이봉 분포
모수가 다른 두 개의 분포의 혼합으로 나타낼 수 있음. 두 개의 정규 분포의 혼합인 경우, 각 정규 분포의 평균, 분산, 혼합 비율 등에 따라 다양한 형태를 가질 수 있음.
다봉 분포
여러 개의 분포의 혼합으로 나타낼 수 있음. 유전자 발현, 경제 데이터 분석 등 다양한 분야에서 나타날 수 있음.
원인
이봉 분포
모집단 내에 서로 다른 특성을 가진 두 개의 하위 그룹이 존재할 경우. 측정 과정에서 오류가 발생하거나, 데이터가 오염되었을 경우.
다봉 분포
모집단 내에 서로 다른 특성을 가진 여러 개의 하위 그룹이 존재할 경우. 데이터 수집 과정에서 편향이 발생했을 경우.
활용
유전자 발현 분석
특정 유전자의 발현 수준이 세포 유형에 따라 다르게 나타나는 경우, 이봉 분포 또는 다봉 분포를 보일 수 있음.
경제 데이터 분석
소득 분포, 자산 분포 등에서 다봉 분포가 나타날 수 있으며, 이는 사회 경제적 불평등을 나타내는 지표로 활용될 수 있음.
이미지 처리
이미지 내 객체의 색상 분포가 다봉 분포를 보이는 경우, 객체 분할에 활용될 수 있음.
주의사항
데이터 해석
다봉 분포를 보이는 데이터는 단봉 분포를 가정하는 통계적 방법론을 적용하기 전에 신중한 고려가 필요함.
원인 분석
다봉 분포의 원인을 명확히 파악하는 것이 중요하며, 이를 위해 추가적인 데이터 수집 또는 실험이 필요할 수 있음.
2. 용어
두 개의 최빈값이 서로 같지 않을 때, 더 큰 최빈값은 주 최빈값, 다른 하나는 부 최빈값으로 알려져 있다. 최빈값들 사이에서 가장 빈도가 낮은 값은 반최빈값으로 알려져 있다. 주 최빈값과 부 최빈값의 차이는 진폭으로 알려져 있다. 시계열에서 주 최빈값은 정점 위상이라고 하고 반최빈값은 저점 위상이라고 한다.
3. 갈퉁의 분류 (AJUS 시스템)
요한 갈퉁(Johan Galtung)은 분포에 대한 AJUS 분류 시스템을 도입했다.[1]
유형
설명
A
단봉 분포 – 중간에 봉우리
J
단봉 분포 – 양쪽 끝에 봉우리
U
이봉 분포 – 양쪽 끝에 봉우리
S
이봉 또는 다봉 분포 – 여러 개의 봉우리
이 분류는 이후 약간 수정되었다.
유형
설명
J
(수정) – 오른쪽에 봉우리
L
단봉 분포 – 왼쪽에 봉우리
F
봉우리 없음 (평탄)
이 분류에 따르면 이봉 분포는 S 또는 U 유형으로 분류된다.
4. 예시
이봉 분포는 수학과 자연 과학 모두에서 나타난다.
4. 1. 확률 분포
아크사인 분포와 베타 분포(두 매개변수 ''a''와 ''b''가 모두 1보다 작은 경우)는 중요한 이봉분포에 해당한다. 다른 분포로는 U-2차 분포가 있다.
두 정규 분포의 비율 또한 이봉 분포를 따른다. 역수의 분포는 자유도가 1보다 클 때 이봉 분포를 나타낸다. 마찬가지로 정규 분포 변수의 역수도 이봉 분포를 나타낸다.
코시 분포에서 추출된 데이터 집합에서 생성된 ''t'' 통계량은 이봉 분포를 나타낸다.[3]
4. 2. 자연 현상
특정 간헐천의 분출 사이 시간, 은하의 색상, 일개미 베짜는개미의 크기, 호지킨 림프종 발병 연령, 미국 성인에서 아이소니아지드 약물의 비활성화 속도, 신성의 절대 등급, 아침과 저녁 황혼에 모두 활동하는 박명 동물들의 일주기 활동 패턴 등은 다봉분포를 보이는 변수의 예시이다. 어류 과학에서 다봉 길이 분포는 서로 다른 연령 계급을 반영하며, 따라서 어류 개체군의 연령 분포 및 성장 추정에 사용할 수 있다.[4] 퇴적물은 일반적으로 이봉 형태로 분포한다. 모암과 광맥을 교차하는 채굴 갱도를 샘플링할 때, 지구화학적 변수의 분포는 이봉 형태를 보일 것이다. 이봉 분포는 교통 분석에서도 나타나는데, 오전 출근 시간과 오후 퇴근 시간에 교통량이 정점을 이룬다. 이 현상은 샤워, 요리, 화장실 사용과 같은 물 수요가 일반적으로 아침과 저녁 시간에 최고조에 달하는 일일 물 분배에서도 나타난다.
이봉 분포는 일반적으로 두 개의 서로 다른 단봉분포(하나의 최빈값만 갖는 분포)가 합쳐져서 나타난다.[1]
5. 1. 수학적 기원
이봉 분포는 일반적으로 두 개의 서로 다른 단봉분포(하나의 최빈값만 갖는 분포)의 혼합으로 발생한다. 다시 말해, 이봉 분포를 따르는 확률 변수 X는 확률 α|알파영어로 Y를 따르거나 확률 (1-α|알파영어)로 Z를 따른다고 정의된다. 여기서 Y와 Z는 단봉 확률 변수이고, 0 < α|알파영어 < 1는 혼합 계수이다.[1]
두 개의 서로 다른 구성 요소를 갖는 혼합은 반드시 이봉 분포일 필요는 없으며, 단봉 구성 요소 밀도의 두 구성 요소 혼합은 두 개 이상의 최빈값을 가질 수 있다. 혼합의 구성 요소 수와 결과 밀도의 최빈값 수 사이에는 직접적인 연관성이 없다.[1]
5. 2. 특정 분포
아크사인 분포와 베타 분포(두 매개변수 ''a''와 ''b''가 모두 1보다 작은 경우)는 중요한 이봉분포에 해당한다. U-2차 분포도 이봉분포의 하나이다. 두 정규 분포의 비율, 역수(자유도가 1보다 클 때), 정규 분포 변수의 역수, 코시 분포에서 추출된 데이터 집합에서 생성된 ''t'' 통계량 역시 이봉 분포를 나타낸다.[2][3]
베짜는개미 일개미 크기의 이봉 분포는 주요 일개미와 소형 일개미, 즉 두 개의 뚜렷한 일개미 계급의 존재로 인해 발생한다.[10]
전체 게놈[11][12] 및 개별 유전자[13] 모두에 대한 돌연변이의 적합성 효과 분포 역시 대부분의 돌연변이가 중립적이거나 치명적이며 중간 효과를 갖는 돌연변이는 비교적 적은 이봉 분포를 갖는 것으로 자주 나타난다.
6. 일반적 특성
두 개의 서로 다른 평균을 가진 단봉 분포의 혼합이 반드시 이봉 분포가 되는 것은 아니다. 남성과 여성의 키를 합쳐놓은 분포는 때때로 이봉 분포의 예로 사용되지만, 실제로는 남성과 여성의 평균 키 차이가 표준 편차에 비해 너무 작아서 이봉성을 생성하지 않는다.[14]
이봉 분포는 단봉 분포와 달리 평균이 중앙값보다 더 강력한 표본 추정치가 될 수 있다는 특이한 속성을 갖는다.[15] 이는 아크사인 분포와 같이 U자형 분포인 경우 분명하다. 분포에 하나 이상의 긴 꼬리가 있는 경우에는 사실이 아닐 수 있다.
6. 1. 혼합 분포의 적률
두 확률 분포의 혼합에 대한 공식은 다음과 같다.
::
여기서 ''g''''i''는 확률 분포이고 ''p''는 혼합 모수이다.
''f''(''x'')의 모멘트는 다음과 같다.[16]
::
::
::
::
여기서
::
::
::
그리고 ''S''''i'' 및 ''K''''i''는 ''i''번째 분포의 왜도 및 첨도이다.
7. 두 정규 분포의 혼합
두 개의 정규 분포 혼합은 조사자가 데이터가 두 개의 정규 분포의 혼합에서 나온다고 생각하는 상황에서 드물지 않게 발생하기 때문에 어느 정도 상세하게 연구되었다.[17]
두 정규 분포의 혼합은 추정해야 할 5개의 매개변수(두 개의 평균, 두 개의 분산 및 혼합 매개변수)를 가진다. 동일한 표준 편차를 갖는 두 정규 분포의 혼합은 평균이 공통 표준 편차의 두 배 이상 차이가 나는 경우에만 이봉 형태를 갖는다.[14] 분산이 동일하다고 가정할 수 있다면(등분산성의 경우) 매개변수 추정이 단순화된다. 두 정규 분포의 평균이 같으면 결합된 분포는 단봉 형태이다.[18]
두 개의 대략적으로 동일한 질량의 정규 분포 혼합은 질량 중심의 양쪽에 있는 두 개의 최빈값이 분포의 꼬리를 효과적으로 감소시키기 때문에 음의 첨도를 갖는다. 매우 불균등한 질량을 가진 두 개의 정규 분포 혼합은 더 작은 분포가 더 지배적인 정규 분포의 꼬리를 늘리기 때문에 양의 첨도를 갖는다.
7. 1. 단봉성 검정
혼합 성분들의 분산이 동일한 경우, 혼합 분포가 단봉 분포가 되기 위한 필요충분조건은 다음과 같다.[20]
: 또는
여기서 ''p''는 혼합 모수이고,
:
여기서 ''μ''1와 ''μ''2는 두 정규 분포의 평균이며, ''σ''는 표준 편차이다.
p* = 1/2인 경우에 대한 테스트는 Schilling 외 연구진에 의해 설명되었다.[14]
:
분리 계수(''S'')는 다음과 같다.
:.
분산이 동일하면 ''S'' = 1이다. 혼합 밀도는 다음과 같은 경우에 단봉 분포이다.
:.
단봉성을 위한 충분 조건은 다음과 같다.[21]
:
두 정규 분포가 동일한 표준 편차 를 갖는 경우, 단봉성을 위한 충분 조건은 다음과 같다.[21]