맨위로가기

다봉분포

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

다봉분포는 두 개 이상의 최빈값을 갖는 확률 분포를 의미한다. 요한 갈퉁의 AJUS 분류 시스템에 따르면 S 또는 U 유형으로 분류된다. 이봉 분포는 수학, 자연 과학, 생물학, 계량경제학 등 다양한 분야에서 관찰되며, 아크사인 분포, 베타 분포, 두 정규 분포의 비율 등 다양한 확률 분포가 이봉 분포를 따른다. 이봉 분포는 일반적으로 두 개의 단봉 분포 혼합으로 생성되며, 혼합 분포의 적률을 통해 특성을 분석할 수 있다. 이봉 분포를 검정하기 위해 다양한 통계적 검정 방법과 그래픽 방법이 사용되며, R, SAS, Python 등의 소프트웨어를 활용하여 매개변수를 추정하고 곡선을 적합시킬 수 있다.

더 읽어볼만한 페이지

  • 연속분포 - 로그 정규 분포
    로그 정규 분포는 확률 변수 X의 로그가 정규 분포를 따르며, 양의 실수 값을 갖고 평균 μ와 표준 편차 σ를 매개변수로 갖는 확률 분포이다.
  • 연속분포 - 연속균등분포
    특정 구간 내 모든 값이 동일한 확률을 갖는 연속 균등 분포는 통계학, 금융, 물리 등에서 활용되며 난수 생성과 표본 추출에 유용하다.
  • 확률분포 - 베르누이 분포
    베르누이 분포는 성공 확률 p를 가지며, 단 한 번의 시행에서 성공 또는 실패 두 가지 결과를 나타내는 이산 확률 분포로, 기댓값은 p, 분산은 p(1-p)이며 다른 여러 확률 분포와 관련되어 불확실성과 정보량을 측정할 수 있다.
  • 확률분포 - 로그 정규 분포
    로그 정규 분포는 확률 변수 X의 로그가 정규 분포를 따르며, 양의 실수 값을 갖고 평균 μ와 표준 편차 σ를 매개변수로 갖는 확률 분포이다.
다봉분포
개요
정의확률 분포에서 하나 이상의 최빈값을 가지는 경우를 말함.
단봉 분포최빈값이 하나인 분포.
이봉 분포최빈값이 두 개인 분포.
다봉 분포최빈값이 세 개 이상인 분포.
유형
이봉 분포모수가 다른 두 개의 분포의 혼합으로 나타낼 수 있음.
두 개의 정규 분포의 혼합인 경우, 각 정규 분포의 평균, 분산, 혼합 비율 등에 따라 다양한 형태를 가질 수 있음.
다봉 분포여러 개의 분포의 혼합으로 나타낼 수 있음.
유전자 발현, 경제 데이터 분석 등 다양한 분야에서 나타날 수 있음.
원인
이봉 분포모집단 내에 서로 다른 특성을 가진 두 개의 하위 그룹이 존재할 경우.
측정 과정에서 오류가 발생하거나, 데이터가 오염되었을 경우.
다봉 분포모집단 내에 서로 다른 특성을 가진 여러 개의 하위 그룹이 존재할 경우.
데이터 수집 과정에서 편향이 발생했을 경우.
활용
유전자 발현 분석특정 유전자의 발현 수준이 세포 유형에 따라 다르게 나타나는 경우, 이봉 분포 또는 다봉 분포를 보일 수 있음.
경제 데이터 분석소득 분포, 자산 분포 등에서 다봉 분포가 나타날 수 있으며, 이는 사회 경제적 불평등을 나타내는 지표로 활용될 수 있음.
이미지 처리이미지 내 객체의 색상 분포가 다봉 분포를 보이는 경우, 객체 분할에 활용될 수 있음.
주의사항
데이터 해석다봉 분포를 보이는 데이터는 단봉 분포를 가정하는 통계적 방법론을 적용하기 전에 신중한 고려가 필요함.
원인 분석다봉 분포의 원인을 명확히 파악하는 것이 중요하며, 이를 위해 추가적인 데이터 수집 또는 실험이 필요할 수 있음.

2. 용어

두 개의 최빈값이 서로 같지 않을 때, 더 큰 최빈값은 주 최빈값, 다른 하나는 부 최빈값으로 알려져 있다. 최빈값들 사이에서 가장 빈도가 낮은 값은 반최빈값으로 알려져 있다. 주 최빈값과 부 최빈값의 차이는 진폭으로 알려져 있다. 시계열에서 주 최빈값은 정점 위상이라고 하고 반최빈값은 저점 위상이라고 한다.

3. 갈퉁의 분류 (AJUS 시스템)

요한 갈퉁(Johan Galtung)은 분포에 대한 AJUS 분류 시스템을 도입했다.[1]

유형설명
A단봉 분포 – 중간에 봉우리
J단봉 분포 – 양쪽 끝에 봉우리
U이봉 분포 – 양쪽 끝에 봉우리
S이봉 또는 다봉 분포 – 여러 개의 봉우리



이 분류는 이후 약간 수정되었다.

유형설명
J(수정) – 오른쪽에 봉우리
L단봉 분포 – 왼쪽에 봉우리
F봉우리 없음 (평탄)



이 분류에 따르면 이봉 분포는 S 또는 U 유형으로 분류된다.

4. 예시

이봉 분포는 수학과 자연 과학 모두에서 나타난다.

4. 1. 확률 분포

아크사인 분포와 베타 분포(두 매개변수 ''a''와 ''b''가 모두 1보다 작은 경우)는 중요한 이봉분포에 해당한다. 다른 분포로는 U-2차 분포가 있다.

정규 분포의 비율 또한 이봉 분포를 따른다. 역수의 분포는 자유도가 1보다 클 때 이봉 분포를 나타낸다. 마찬가지로 정규 분포 변수의 역수도 이봉 분포를 나타낸다.

코시 분포에서 추출된 데이터 집합에서 생성된 ''t'' 통계량은 이봉 분포를 나타낸다.[3]

4. 2. 자연 현상

특정 간헐천의 분출 사이 시간, 은하의 색상, 일개미 베짜는개미의 크기, 호지킨 림프종 발병 연령, 미국 성인에서 아이소니아지드 약물의 비활성화 속도, 신성의 절대 등급, 아침과 저녁 황혼에 모두 활동하는 박명 동물들의 일주기 활동 패턴 등은 다봉분포를 보이는 변수의 예시이다. 어류 과학에서 다봉 길이 분포는 서로 다른 연령 계급을 반영하며, 따라서 어류 개체군의 연령 분포 및 성장 추정에 사용할 수 있다.[4] 퇴적물은 일반적으로 이봉 형태로 분포한다. 모암과 광맥을 교차하는 채굴 갱도를 샘플링할 때, 지구화학적 변수의 분포는 이봉 형태를 보일 것이다. 이봉 분포는 교통 분석에서도 나타나는데, 오전 출근 시간과 오후 퇴근 시간에 교통량이 정점을 이룬다. 이 현상은 샤워, 요리, 화장실 사용과 같은 물 수요가 일반적으로 아침과 저녁 시간에 최고조에 달하는 일일 물 분배에서도 나타난다.

4. 3. 계량 경제학

계량경제학 모형에서, 모수는 이봉 분포를 가질 수 있다.[5]

5. 기원

이봉 분포는 일반적으로 두 개의 서로 다른 단봉분포(하나의 최빈값만 갖는 분포)가 합쳐져서 나타난다.[1]

5. 1. 수학적 기원

이봉 분포는 일반적으로 두 개의 서로 다른 단봉분포(하나의 최빈값만 갖는 분포)의 혼합으로 발생한다. 다시 말해, 이봉 분포를 따르는 확률 변수 X는 확률 α|알파영어로 Y를 따르거나 확률 (1-α|알파영어)로 Z를 따른다고 정의된다. 여기서 Y와 Z는 단봉 확률 변수이고, 0 < α|알파영어 < 1는 혼합 계수이다.[1]

두 개의 서로 다른 구성 요소를 갖는 혼합은 반드시 이봉 분포일 필요는 없으며, 단봉 구성 요소 밀도의 두 구성 요소 혼합은 두 개 이상의 최빈값을 가질 수 있다. 혼합의 구성 요소 수와 결과 밀도의 최빈값 수 사이에는 직접적인 연관성이 없다.[1]

5. 2. 특정 분포

아크사인 분포와 베타 분포(두 매개변수 ''a''와 ''b''가 모두 1보다 작은 경우)는 중요한 이봉분포에 해당한다. U-2차 분포도 이봉분포의 하나이다. 두 정규 분포의 비율, 역수(자유도가 1보다 클 때), 정규 분포 변수의 역수, 코시 분포에서 추출된 데이터 집합에서 생성된 ''t'' 통계량 역시 이봉 분포를 나타낸다.[2][3]

연구된 이봉 분포는 다음과 같다.

  • 이봉 지수 분포[6]
  • 알파 왜도 정규 분포[7]
  • 이봉 왜도 대칭 정규 분포[8]
  • 혼합된 콘웨이-맥스웰-푸아송 분포[9]
  • 첨점 재난 분포

5. 3. 생물학적 기원

생물학에서 개체군 크기의 이봉 분포에 기여하는 요인은 다음과 같이 알려져 있다.

  • 개체 크기의 초기 분포
  • 개체 간의 성장률 분포
  • 각 개체의 성장률의 크기 및 시간 의존성
  • 각 크기 클래스에 다르게 영향을 미칠 수 있는 사망률
  • 인간 및 마우스 게놈의 DNA 메틸화


베짜는개미 일개미 크기의 이봉 분포는 주요 일개미와 소형 일개미, 즉 두 개의 뚜렷한 일개미 계급의 존재로 인해 발생한다.[10]

전체 게놈[11][12] 및 개별 유전자[13] 모두에 대한 돌연변이의 적합성 효과 분포 역시 대부분의 돌연변이가 중립적이거나 치명적이며 중간 효과를 갖는 돌연변이는 비교적 적은 이봉 분포를 갖는 것으로 자주 나타난다.

6. 일반적 특성

두 개의 서로 다른 평균을 가진 단봉 분포의 혼합이 반드시 이봉 분포가 되는 것은 아니다. 남성과 여성의 키를 합쳐놓은 분포는 때때로 이봉 분포의 예로 사용되지만, 실제로는 남성과 여성의 평균 키 차이가 표준 편차에 비해 너무 작아서 이봉성을 생성하지 않는다.[14]

이봉 분포는 단봉 분포와 달리 평균중앙값보다 더 강력한 표본 추정치가 될 수 있다는 특이한 속성을 갖는다.[15] 이는 아크사인 분포와 같이 U자형 분포인 경우 분명하다. 분포에 하나 이상의 긴 꼬리가 있는 경우에는 사실이 아닐 수 있다.

6. 1. 혼합 분포의 적률

두 확률 분포의 혼합에 대한 공식은 다음과 같다.

:: f( x ) = p g_1( x ) + ( 1 - p ) g_2( x ) \,

여기서 ''g''''i''는 확률 분포이고 ''p''는 혼합 모수이다.

''f''(''x'')의 모멘트는 다음과 같다.[16]

:: \mu = p \mu_1 + ( 1 - p ) \mu_2

:: \nu_2 = p[ \sigma_1^2 + \delta_1^2 ] + ( 1 - p )[ \sigma_2^2 + \delta_2^2 ]

:: \nu_3 = p [ S_1 \sigma_1^3 + 3 \delta_1 \sigma_1^2 + \delta_1^3 ] + ( 1 - p )[ S_2 \sigma_2^3 + 3 \delta_2 \sigma_2^2 + \delta_2^3 ]

:: \nu_4 = p[ K_1 \sigma_1^4 + 4 S_1 \delta_1 \sigma_1^3 + 6 \delta_1^2 \sigma_1^2 + \delta_1^4 ] + ( 1 - p )[ K_2 \sigma_2^4 + 4 S_2 \delta_2 \sigma_2^3 + 6 \delta_2^2 \sigma_2^2 + \delta_2^4 ]

여기서

:: \mu = \int x f( x ) \, dx

:: \delta_i = \mu_i - \mu

:: \nu_r = \int ( x - \mu )^r f( x ) \, dx

그리고 ''S''''i'' 및 ''K''''i''는 ''i''번째 분포의 왜도첨도이다.

7. 두 정규 분포의 혼합

두 개의 정규 분포 혼합은 조사자가 데이터가 두 개의 정규 분포의 혼합에서 나온다고 생각하는 상황에서 드물지 않게 발생하기 때문에 어느 정도 상세하게 연구되었다.[17]

두 정규 분포의 혼합은 추정해야 할 5개의 매개변수(두 개의 평균, 두 개의 분산 및 혼합 매개변수)를 가진다. 동일한 표준 편차를 갖는 두 정규 분포의 혼합은 평균이 공통 표준 편차의 두 배 이상 차이가 나는 경우에만 이봉 형태를 갖는다.[14] 분산이 동일하다고 가정할 수 있다면(등분산성의 경우) 매개변수 추정이 단순화된다. 두 정규 분포의 평균이 같으면 결합된 분포는 단봉 형태이다.[18]

두 개의 대략적으로 동일한 질량의 정규 분포 혼합은 질량 중심의 양쪽에 있는 두 개의 최빈값이 분포의 꼬리를 효과적으로 감소시키기 때문에 음의 첨도를 갖는다. 매우 불균등한 질량을 가진 두 개의 정규 분포 혼합은 더 작은 분포가 더 지배적인 정규 분포의 꼬리를 늘리기 때문에 양의 첨도를 갖는다.

7. 1. 단봉성 검정

혼합 성분들의 분산이 동일한 경우, 혼합 분포가 단봉 분포가 되기 위한 필요충분조건은 다음과 같다.[20]

: d \le 1 또는 \left\vert \log( 1 - p ) - \log( p ) \right\vert \ge 2 \log( d - \sqrt{ d^2 - 1 } ) + 2d \sqrt{ d^2 - 1 } ,

여기서 ''p''는 혼합 모수이고,

: d = \frac{ \left\vert \mu_1 - \mu_2 \right\vert }{ 2 \sigma },

여기서 ''μ''1와 ''μ''2는 두 정규 분포의 평균이며, ''σ''는 표준 편차이다.

  • p* = 1/2인 경우에 대한 테스트는 Schilling 외 연구진에 의해 설명되었다.[14]


: r = \frac{ \sigma_1^2 }{ \sigma_2^2 }

분리 계수(''S'')는 다음과 같다.

: S = \frac{ \sqrt{ -2 + 3r + 3r^2 - 2r^3 + 2( 1 - r + r^2 )^{ 1.5 } } }{ \sqrt{ r }( 1 + \sqrt{ r } ) } .

분산이 동일하면 ''S'' = 1이다. 혼합 밀도는 다음과 같은 경우에 단봉 분포이다.

: | \mu_1 - \mu_2 | < S | \sigma_1 + \sigma_2 | .

단봉성을 위한 충분 조건은 다음과 같다.[21]

:|\mu_1-\mu_2| \le2\min (\sigma_1,\sigma_2).

두 정규 분포가 동일한 표준 편차 \sigma,를 갖는 경우, 단봉성을 위한 충분 조건은 다음과 같다.[21]

:|\mu _1-\mu_2|\le 2\sigma \sqrt{1+\frac

{2}}.

8. 요약 통계

이봉 분포는 평균, 중앙값, 표준 편차와 같은 요약 통계가 기만적일 수 있음을 보여주는 예시이다. 예를 들어, 이봉 분포에서 평균과 중앙값은 약 0이 될 수 있지만, 0은 일반적인 값이 아니다. 표준 편차 또한 각 정규 분포의 편차보다 크다.[14]

일반적인 이봉 분포의 매개변수를 정량화하기 위한 합의된 요약 통계는 현재 없다. 두 개의 정규 분포 혼합의 경우, 평균과 표준 편차, 혼합 매개변수(조합에 대한 가중치)를 사용하며, 총 5개의 매개변수가 필요하다.[15]

8. 1. 애쉬먼의 D (Ashman's D)

분포 분리 정도를 나타내는 통계량인 애쉬먼의 D는 다음과 같다.[22]

: D = \frac{ \left| \mu_1 - \mu_2 \right| }{ \sqrt{ 2 ( \sigma_1^2 + \sigma_2^2 ) } }

여기서 ''μ''1, ''μ''2는 평균이고, ''σ''1, ''σ''2는 표준 편차이다.

정규 분포를 섞었을 때, ''D'' > 2이면 깔끔하게 분리할 수 있다.

8. 2. 판 데르 에이크의 A (van der Eijk's A)

이 척도는 빈도 분포의 일치도에 대한 가중 평균이다.[23] ''A''는 -1 (완벽한 이봉 분포)에서 +1 (완벽한 단봉 분포)까지의 범위를 갖는다. 이는 다음과 같이 정의된다.

: A = U \left( 1 - \frac{ S - 1 }{ K - 1 } \right)

여기서 ''U''는 분포의 단봉성, ''S''는 0이 아닌 빈도를 갖는 범주의 수, ''K''는 전체 범주의 수이다.

U의 값은 분포가 다음 세 가지 특성 중 하나를 가질 경우 1이다.

  • 모든 응답이 단일 범주에 있다.
  • 응답이 모든 범주에 균등하게 분포되어 있다.
  • 응답이 둘 이상의 연속된 범주에 균등하게 분포되어 있으며, 다른 범주는 응답이 0이다.


이러한 분포가 아닌 다른 분포의 경우 데이터를 '계층'으로 나누어야 한다. 계층 내에서 응답은 같거나 0이다. 범주는 연속적일 필요는 없다. 각 계층에 대한 ''A'' 값(''A''i)이 계산되고 분포에 대한 가중 평균이 결정된다. 각 계층에 대한 가중치(''w''i)는 해당 계층의 응답 수이다. 기호로 표현하면,

: A_\text{전체} = \sum_i w_i A_i

균등 분포는 ''A'' = 0을 갖는다. 모든 응답이 하나의 범주에 속할 때 ''A'' = +1이다.

이 지수의 한 가지 이론적 문제는 간격이 동일하게 분산되어 있다고 가정한다는 것이다. 이것은 그 적용 가능성을 제한할 수 있다.

8. 3. 이봉 분리 (Bimodal separation)

이 지표는 분포가 평균(''μ''1 및 ''μ''2)과 표준 편차(''σ''1 및 ''σ''2)를 갖는 두 개의 정규 분포 혼합이라고 가정한다.[24]

: S = \frac{ \mu_1 - \mu_2 }{ 2( \sigma_1 +\sigma_2 ) }

8. 4. 이봉성 계수 (Bimodality coefficient)

사르의 이봉성 계수 ''b''는 다음과 같다.[25]

: \beta = \frac{ \gamma^2 + 1 }{ \kappa }

여기서 ''γ''는 왜도이고, ''κ''는 첨도이다. 첨도는 평균을 중심으로 한 표준화된 네 번째 모멘트로 정의된다. ''b''의 값은 0과 1 사이에 있다.[26] 이 계수는 꼬리가 가벼운 이봉 분포는 매우 낮은 첨도, 비대칭 특성 또는 둘 다를 가지며, 이 모든 것이 이 계수를 증가시킨다는 논리에 기반한다.

유한 표본에 대한 공식은 다음과 같다.[27]

: b = \frac{ g^2 + 1 }{ k + \frac{ 3( n - 1 )^2 }{ ( n - 2 )( n - 3 ) } }

여기서 ''n''은 표본의 항목 수이고, ''g''는 표본 왜도이며, ''k''는 표본 초과 첨도이다.

균등 분포의 ''b'' 값은 5/9이다. 이것은 지수 분포의 값이기도 하다. 5/9보다 큰 값은 이봉 또는 다봉 분포를 나타낼 수 있지만, 해당 값은 심하게 왜곡된 단봉 분포에서도 발생할 수 있다.[28] 최대 값(1.0)은 두 개의 뚜렷한 값을 갖는 베르누이 분포 또는 두 개의 다른 디랙 델타 함수의 합(이-델타 분포)에 의해서만 달성된다.

이 통계량의 분포는 알려져 있지 않다. 이는 피어슨이 제안한 통계량(첨도와 왜도의 제곱 간의 차이)과 관련이 있다.

8. 5. 이봉 진폭 (Bimodality amplitude)

이봉 진폭(Bimodality amplitude)은 다음과 같이 정의된다.[24]

: A_B = \frac{A_1 - A_{ an } }{ A_1 }

여기서 ''A''1은 작은 봉우리의 진폭이고, ''A''an은 반마디의 진폭이다.

''A''B는 항상 1보다 작다. 이 값이 클수록 봉우리가 더 뚜렷함을 나타낸다.

8. 6. 이봉 비율 (Bimodal ratio)

이는 왼쪽 및 오른쪽 봉우리의 비율이다.[24]

: ${\displaystyle R={\frac {A_{r}}{A_{l}}}}$

여기서 ${\displaystyle A_{l}}$과 ${\displaystyle A_{r}}$은 각각 왼쪽 및 오른쪽 봉우리의 진폭이다.

8. 7. 이봉성 매개변수 (Bimodality parameter)

윌콕(Wilcock)이 제안한 이봉성 지수(''B'')는 다음과 같다.[29]

: B = \sqrt{ \frac{ A_r }{ A_l } } \sum P_i

여기서 ''A''l과 ''A''r은 각각 왼쪽 및 오른쪽 봉우리의 진폭이며, ''P''''i''는 i번째 구간에서 분포의 비율에 밑이 2인 로그를 취한 값이다. ''ΣP''의 최대값은 1이지만, ''B''의 값은 이보다 클 수 있다.

이 지수를 사용하려면 값의 로그를 취한다. 그런 다음 데이터는 값이 log 2인 폭 Φ의 간격으로 나뉜다. 봉우리의 폭은 최대값을 중심으로 1/4Φ의 네 배로 간주한다.

8. 8. 기타 이봉성 지수

왕 등[1]은 분포가 분산은 같지만 평균이 다른 두 개의 정규 분포의 합이라고 가정하고 이봉성 지수를 제안했다. 이 지수는 다음과 같이 정의된다.

: \delta = \frac{ | \mu_1 - \mu_2 |}{ \sigma }

여기서 ''μ''1, ''μ''2는 평균이고 ''σ''는 공통 표준 편차이다.

: BI = \delta \sqrt{ p( 1 - p ) }

여기서 ''p''는 혼합 매개변수이다.

스터럭[2]은 다른 이봉성 지수를 제안했다. 이 지수(''B'')는 다음과 같이 정의된다.

: B = \frac{ 1 }{ N } \left[ \left( \sum_1^N \cos ( 2 \pi m \gamma ) \right)^2 + \left( \sum_1^N \sin ( 2 \pi m \gamma ) \right)^2 \right]

''m'' = 2이고 ''γ''가 균일하게 분포될 때 ''B''는 지수적으로 분포된다.[3]

이 통계량은 주기 도표의 한 형태이다. 이 통계량은 흔히 볼 수 있는 추정 및 스펙트럼 누출의 일반적인 문제점을 겪는다.

데 미셸과 아카티노[4]는 또 다른 이봉성 지수를 제안했다. 그들의 지수(''B'')는 다음과 같다.

: B = | \mu - \mu_M |

여기서 ''μ''는 표본의 산술 평균이고

: \mu_M = \frac{ \sum_{ i = 1 }^L m_i x_i }{ \sum_{ i = 1 }^L m_i }

여기서 ''m''''i''는 ''i''th 빈의 데이터 점 수이고, ''x''''i''는 ''i''th 빈의 중심이고, ''L''은 빈의 수이다.

저자는 이봉(''B'' > 0.1)과 단봉(''B'' < 0.1) 분포를 구별하기 위해 ''B''에 대해 0.1의 컷오프 값을 제안했지만, 이 값에 대한 통계적 근거는 제시되지 않았다.

삼브룩 스미스 등[5]이 제안한 또 다른 지수(''B'')는 다음과 같다.

B = | \phi_2 - \phi_1 | \frac{ p_2 }{ p_1 }

여기서 ''p''1과 ''p''2는 주요 모드(진폭이 더 큰 모드)와 보조 모드(진폭이 더 작은 모드)에 포함된 비율이고, ''φ''1과 ''φ''2는 주요 모드와 보조 모드의 ''φ''-크기이다. ''φ''-크기는 2를 밑으로 한 데이터 크기의 로그에 -1을 곱한 값으로 정의된다. 이 변환은 퇴적물 연구에 일반적으로 사용된다.

저자는 이봉성 분포의 경우 B가 1.5보다 크고 단봉성 분포의 경우 1.5보다 작은 1.5의 컷오프 값을 권장했지만, 이 값에 대한 통계적 근거는 제시되지 않았다.

두 모드 사이의 분리를 위한 임계값을 찾는 오츠의 방법은 다음 양을 최소화하는 데 의존한다.

\frac{ n_1 \sigma_1^2 + n_2 \sigma_2^2 }{ m \sigma^2 }

여기서 ''n''''i''는 ''i''th 하위 모집단의 데이터 점 수이고, ''σ''''i''2는 ''i''th 하위 모집단의 분산이고, ''m''은 표본의 총 크기이고, ''σ''2는 표본 분산이다. 일부 연구자들(특히 디지털 이미지 처리 분야에서)은 이 양을 이봉성을 감지하기 위한 지수로 더 광범위하게 적용했으며, 작은 값은 더 이봉성 분포를 나타낸다.[6]

9. 통계적 검정

데이터 집합이 이봉 분포(두 개의 봉우리를 가지는 분포)를 따르는지 확인하기 위한 여러 통계적 검정 방법이 있다.

9. 1. 그래픽 방법

퇴적물 연구에서 입자 크기는 이봉분포를 보이는 경우가 많다. 경험적으로 입자 크기의 로그를 빈도에 대해 나타내는 것이 유용하다는 것이 밝혀졌으며,[36][37] 이는 일반적으로 입자를 이봉분포로 명확하게 분리한다. 지질학적 응용 분야에서는 보통 밑이 2인 로그를 취한다. 로그 변환된 값은 파이(Φ) 단위라고 하며, 이 시스템은 크럼바인 (또는 파이) 척도로 알려져 있다.

입자 크기의 로그를 누적 빈도에 대해 나타내는 방법도 있다. 이 그래프는 일반적으로 극댓값에 해당하는 연결선을 가진 두 개의 비교적 직선으로 구성된다.

9. 2. 단봉 분포 대 이봉 분포 검정

1894년 피어슨은 분포가 두 개의 정규 분포로 분해될 수 있는지 검사하는 절차를 처음으로 고안했다.[38] 이 방법은 9차 다항식의 해를 요구했다. 이후 논문에서 피어슨은 임의의 분포에 대해 왜도2 + 1 < 첨도임을 보고했다.[26] 나중에 피어슨은 다음을 증명했다.[39]

: b_2 - b_1 \ge 1

여기서 ''b''2는 첨도이고 ''b''1은 왜도의 제곱이다. 등호는 두 점 베르누이 분포 또는 서로 다른 두 디랙 델타 함수의 합에 대해서만 성립한다. 이는 가능한 가장 극단적인 이봉성의 경우이다. 이 두 경우 모두 첨도는 1이다. 둘 다 대칭이므로 왜도는 0이고 차이는 1이다.

베이커는 이봉 분포를 단봉 분포로 변환하는 변환을 제안했다.[40]

단봉성과 이봉성을 검정하는 여러 방법이 제안되었다. 할데인은 두 번째 중심 차이를 기반으로 하는 검정법을 제안했다.[41] 라킨은 나중에 F 검정을 기반으로 한 검정법을 도입했으며,[42] 베넷은 피셔의 G 검정을 기반으로 하는 검정법을 만들었다.[43] 토케시는 네 번째 검정법을 제안했다.[44][45] 홀츠만과 폴머는 우도비를 기반으로 하는 검정법을 제안했다.[20]

스코어 검정과 왈드 검정을 기반으로 하는 방법이 제안되었다.[46] 이 방법은 기저 분포가 알려진 경우 단봉 분포와 이봉 분포를 구별할 수 있다.

9. 3. 반최빈값 검정

반최빈값에 대한 통계적 검정이 알려져 있다.[47]

오츠의 방법은 컴퓨터 그래픽스에서 두 분포 사이의 최적 분리를 결정하기 위해 일반적으로 사용된다.

9. 4. 일반 검정

대역폭 검정,[57] 딥 검정,[48] 과잉 질량 검정,[49] MAP 검정,[50] 모드 존재 검정,[51] 런트 검정,[52][53] 스팬 검정,[54] 및 새들 검정은 단봉 분포가 아닌지를 검사하기 위해 고안된 추가적인 검정들이다.

R 프로그래밍 언어에서 딥 검정 구현을 사용할 수 있다.[55] 딥 통계량 값에 대한 p-값은 0에서 1 사이이다. p-값이 0.05 미만이면 유의한 다봉성을 나타내고, 0.05보다 크지만 0.10 미만이면 한계 유의성을 가진 다봉성을 나타낸다.[56]

9. 5. 실버만의 검정 (Silverman's test)

실버만은 최빈값의 개수를 위한 부트스트랩 방법을 소개했다.[57] 이 검정은 고정된 대역폭을 사용하므로 검정의 검정력과 해석 가능성이 감소한다. 평활된 밀도는 부트스트래핑 동안 개수가 불안정한 과도한 수의 최빈값을 가질 수 있다.

9. 6. 바이지어-애거월 검정 (Bajgier-Aggarwal test)

바이지어-애거월 검정(Bajgier-Aggarwal test)은 분포의 첨도를 기반으로 한 검정이다.[58]

9. 7. 특수 사례

두 정규 분포의 혼합 밀도 데이터에 대한 연구에 따르면, 평균이 4~6 표준 편차만큼 떨어져 있지 않으면 두 정규 분포로 분리하기 어렵다.[59]

천문학에서는 커널 평균 매칭 알고리즘을 사용하여 데이터 세트가 단일 정규 분포에 속하는지, 아니면 두 정규 분포의 혼합에 속하는지를 결정한다.

베타-정규 분포는 특정 매개변수 값에 대해 이중 모드이다. 이러한 값에 대한 테스트가 설명되었다.[60]

10. 모수 추정 및 곡선 적합

분포가 이봉 분포로 알려져 있거나, 위에 언급된 하나 이상의 검사를 통해 이봉 분포임이 밝혀진 경우, 데이터에 곡선을 맞추는 것이 종종 바람직하다. 그러나 이는 어려울 수 있다.

베이즈 추론은 이러한 어려운 경우에 유용하게 사용될 수 있다.

10. 1. 소프트웨어

R을 이용해 이봉성 테스트를 할 수 있다.[61] 이 패키지는 데이터가 두 개의 정규 분포를 따른다고 가정한다. 이 가정이 틀리면 결과는 신뢰할 수 없다. 또한, 두 정규 분포의 합을 데이터에 맞추는 기능도 제공한다.

분포가 두 정규 분포의 혼합이라고 가정하면, EM(기대값-최대화) 알고리즘을 사용하여 매개변수를 결정할 수 있다. Cluster[62] 및 R 패키지 nor1mix 등 여러 프로그램이 이를 지원한다.[63]

R에서 mixtools 패키지를 활용하여 다양한 분포의 매개변수를 테스트하고 추정할 수 있다.[64] 두 개의 오른쪽 꼬리 감마 분포 혼합을 위한 패키지도 있다.[65]

R에서 혼합 모델을 맞추기 위해 flexmix,[66] mcclust,[67] agrmt,[68] mixdist[69] 등 여러 패키지를 활용할 수 있다.

SAS 통계 프로그래밍 언어에서는 PROC FREQ 프로시저를 사용하여 다양한 혼합 분포를 맞출 수 있다.

하루 중 시간에 따른 공원의 조깅 선수 수 (X는 시) 이봉 확률 분포


파이썬에서는 Scikit-learn 패키지에 혼합 모델링 도구가 포함되어 있다.[70]

10. 2. 소프트웨어 응용 예시

R을 이용해 이봉성을 테스트할 수 있는 패키지가 있다.[61] 이 패키지는 데이터가 두 정규 분포의 합으로 분포된다고 가정한다. 이 가정이 정확하지 않으면 결과는 신뢰할 수 없을 수 있다. 또한, 두 정규 분포의 합을 데이터에 맞추는 기능도 제공한다.

EM(기대값-최대화) 알고리즘을 사용하면, 분포가 두 정규 분포의 혼합이라고 가정할 때 매개변수를 결정할 수 있다. 이를 위한 프로그램으로는 Cluster,[62] 및 R 패키지 nor1mix 등이 있다.[63]

R에서 사용 가능한 mixtools 패키지는 다양한 분포의 매개변수를 테스트하고 추정할 수 있게 해준다.[64] 두 개의 오른쪽 꼬리 감마 분포 혼합을 위한 패키지도 있다.[65]

R에서 혼합 모델을 맞추기 위해 사용 가능한 다른 패키지로는 flexmix,[66] mcclust,[67] agrmt,[68] mixdist 등이 있다.[69]

SAS는 PROC FREQ 프로시저를 사용하여 다양한 혼합 분포를 맞출 수 있다.

Python의 Scikit-learn 패키지에는 혼합 모델링 도구가 포함되어 있다.[70]

참조

[1] 서적 Theory and methods of social research Universitetsforlaget
[2] 논문 The distribution of the index in a normal bivariate population 1932
[3] 논문 Bimodal t-ratios: the impact of thick tails on inference https://ink.library.[...]
[4] 간행물 FAO: Introduction to tropical fish stock assessment http://www.fao.org/d[...]
[5] 논문 A remark on bimodality and weak instrumentation in structural equation estimation http://cowles.yale.e[...]
[6] 논문 A bimodal exponential power distribution
[7] 논문 Alpha-skew-normal distribution
[8] 논문 Bimodal skew-symmetric normal distribution
[9] 서적 Proceedings of the 2013 International Conference on Information, Operations Management and Statistics (ICIOMS2013), Kuala Lumpur, Malaysia
[10] 논문 Dimorphism in the African ''Oecophylla'' worker and an anomaly (Hym.: Formicidae) http://antbase.org/a[...]
[11] 논문 Mutational fitness effects in RNA and single-stranded DNA viruses: common patterns revealed by site-directed mutagenesis studies. 2010-06-27
[12] 논문 The distribution of fitness effects of new mutations. 2007-08
[13] 논문 Experimental illumination of a fitness landscape. 2011-05-10
[14] 논문 Is Human Height Bimodal?
[15] 서적 Data Analysis and Regression: A Second Course in Statistics Addison-Wesley
[16] 웹사이트 On more robust estimation of skewness and kurtosis: Simulation and application to the S & P 500 index https://escholarship[...]
[17] 논문 Some descriptive properties of normal mixtures
[18] 논문 Genesis of bimodal distributions
[19] 논문 The topography of multivariate normal mixtures
[20] 논문 A likelihood ratio test for bimodality in two-component mixtures with application to regional income distribution in the EU http://resolver.sub.[...]
[21] 논문 On the modes of a mixture of two normal distributions
[22] 논문 Detecting bimodality in astronomical datasets 1994
[23] 논문 Measuring agreement in ordered rating scales
[24] 논문 Bimodality in tropical water vapour
[25] 논문 Effect of seed dimorphism on the density-dependent dynamics of experimental populations of ''Atriplex triangularis'' (Chenopodiaceae)
[26] 논문 Mathematical contributions to the theory of evolution, XIX: Second supplement to a memoir on skew variation
[27] 간행물 SAS/STAT 12.1 user’s guide SAS Institute Inc. 2012
[28] 논문 Good things peak in pairs: A note on the bimodality coefficient
[29] 논문 The critical shear stress of natural sediments
[30] 논문 The bimodality index: a criterion for discovering and ranking bimodal signatures from cancer gene expression profiling data
[31] 논문 Analysis of bimodality in histograms formed from GALLEX and GNO solar neutrino data
[32] 논문 Studies in astronomical time series analysis. II – Statistical aspects of spectral analysis of unevenly spaced data
[33] 논문 Tree cover bimodality in savannas and forests emerging from the switching between two fire dynamics
[34] 논문 Measuring and defining bimodal sediments: Problems and implications
[35] 논문 Split-and-merge procedure for image segmentation using bimodality detection approach
[36] 논문 Brazos River bar: a study in the significance of grain size parameters https://doi.pangaea.[...]
[37] 논문 Grain-size parameters for sandy gravels
[38] 논문 Contributions to the mathematical theory of evolution: On the dissection of asymmetrical frequency-curves
[39] 논문 Editorial note
[40] 논문 Transformations of bimodal distributions
[41] 논문 Simple tests for bimodality and bitangentiality
[42] 논문 An algorithm for assessing bimodality vs. unimodality in a univariate distribution
[43] 논문 Sexual dimorphism of ''Pteranodon'' and other pterosaurs, with comments on cranial crests
[44] 논문 Dynamics and distribution in animal communities; theory and analysis
[45] 논문 A typing error in Tokeshi's test of bimodality
[46] 논문 One sample tests for the location of modes of nonnormal data
[47] 서적 Data Analysis Springer 2000
[48] 논문 The dip test of unimodality
[49] 논문 Excess mass estimates and tests for multimodality
[50] 논문 The MAP test for multimodality
[51] 논문 Nonparametric testing of the existence of modes
[52] 논문 The RUNT test for multimodality
[53] 논문 A new test for unimodality 2008
[54] 서적 Classification and Related Methods of Data Analysis North-Holland
[55] 웹사이트 diptest: Hartigan's Dip Test Statistic for Unimodality - Corrected https://cran.r-proje[...] 2016-12-05
[56] 논문 Assessing bimodality to detect the presence of a dual cognitive process http://psych.nyu.edu[...]
[57] 논문 Using kernel density estimates to investigate multimodality
[58] 논문 Powers of goodness-of-fit tests in detecting balanced mixed normal distributions 1991
[59] 논문 Testing for bimodality in frequency distributions of data suggesting polymorphisms of drug metabolism--hypothesis testing
[60] 간행물 Joint Statistical Meetings - Section on Physical & Engineering Sciences (SPES) http://www.amstat.or[...] American Statistical Society
[61] 웹사이트 Archived copy http://www.uni-marbu[...] 2013-11-01
[62] 웹사이트 Cluster home page https://engineering.[...]
[63] 웹사이트 nor1mix: Normal (1-d) Mixture Models (S3 Classes and Methods) https://cran.r-proje[...] 2016-08-25
[64] 웹사이트 mixtools: Tools for Analyzing Finite Mixture Models https://cran.r-proje[...] 2017-03-10
[65] 웹사이트 discrimARTs https://cran.r-proje[...] 2018-03-22
[66] 웹사이트 flexmix: Flexible Mixture Modeling https://cran.r-proje[...] 2017-04-28
[67] 웹사이트 mclust: Gaussian Mixture Modelling for Model-Based Clustering, Classification, and Density Estimation https://cran.r-proje[...] 2017-05-21
[68] 웹사이트 agrmt https://cran.r-proje[...] cran.r-project.org 2016-04-02
[69] 웹사이트 mixdist: Finite Mixture Distribution Models https://cran.r-proje[...] 2012-10-29
[70] 웹사이트 Gaussian mixture models https://scikit-learn[...] 2023-11-30
[71] 프로그램 CumFreq, free program for fitting of probability distributions to a data set https://www.waterlog[...]



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com