맨위로가기

다양성 지수

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

다양성 지수는 임의로 선택된 두 대상의 특성이 다를 확률을 나타내는 지표로, 생태학, 인구 통계학, 정보 과학 등 다양한 분야에서 활용된다. 힐 수, 섀넌 지수, 심슨 지수, 레니 엔트로피 등이 있으며, 각 지수는 데이터 내 유형의 상대적 풍부도를 다르게 반영한다. 미국은 인종 및 민족 다양성 지수가 증가하는 추세이며, 이는 사회적 변화와 관련이 있다.

더 읽어볼만한 페이지

  • 사회과학 - 지리학
    지리학은 지구와 천체의 특징, 현상, 그리고 공간적 요소를 체계적으로 연구하는 학문으로, 고대부터 현재까지 이어진다.
  • 사회과학 - 정책학
    정책학은 정책 과정, 형성, 집행, 분석, 평가 등을 연구하는 사회과학 분야로서, 다양한 과학적 방법론과 이론을 활용하여 민주적 가치와 사회적 가치를 고려하며, 현대 사회 문제 해결 및 정책 전문가 양성을 목표로 한다.
  • 사회 - 정치
    정치는 자신을 닦고 남을 돕는다는 의미를 지니며 권력, 정책, 지배, 자치와 관련된 활동을 포괄하고, 인류 역사를 아우르는 다양한 분야를 연구하는 학문이다.
  • 사회 - 이념
    이념은 1796년에 앙투안 데스튀트 드 트라시가 고안한 용어로, 현실에 대한 기본적인 가정을 바탕으로 한 일관된 사상 체계이며 사회 통합 또는 불평등 정당화를 포함한 다양한 사회적 기능을 수행하며 다양한 학문 분야에서 연구가 이루어진다.
다양성 지수
다양성 지수 개요
종 풍부도와 균등도의 중요성을 강조하는 다양성 지수
종 풍부도와 균등도의 중요성을 강조하는 다양성 지수
유형
종 풍부도종의 수
종 균등도종의 상대적 풍부도
다양성 지수 종류
알파 다양성 지수심슨 지수 (https://en.wikipedia.org/wiki/Dominance_(ecology))
섀넌 지수 (엔트로피)
베타 다양성 지수브레이-커티스 유사성
유클리드 거리
맨해튼 거리
기타
용도생태학, 환경 과학
관련 개념생물 다양성
생태계

2. 다양성 지수의 종류

다양성 지수는 임의로 선택한 두 사람의 인종과 민족이 다를 확률을 백분율로 나타낸다. 예를 들어 미국 사회의 다양성 지수가 55라면, 미국 사회에서 임의로 선택한 두 명의 인종이 다를 확률이 55%라는 의미이다.[18]


  • '''힐 수 (유효 종 수)'''


다양성 지수가 생태학에서 사용될 때, 관심 대상 유형은 보통 종이지만, , , 식물 기능형 또는 haplotype과 같은 다른 범주가 될 수도 있다. 관심 대상 개체는 일반적으로 개별 유기체(예: 식물 또는 동물)이며, 풍부도 측정은 예를 들어 개체 수, 바이오매스 또는 피복률일 수 있다. 인구 통계학에서 관심 대상 개체는 사람일 수 있으며, 관심 대상 유형은 다양한 인구 통계학적 그룹일 수 있다. 정보 과학에서 개체는 문자일 수 있으며, 유형은 알파벳의 다른 문자일 수 있다.[2][3][4][5]

진정한 다양성 또는 유효 유형 수는 유형의 평균 비례 풍부도가 관심 있는 데이터 세트에서 관찰된 값과 같아지기 위해 필요한, 동일하게 풍부한 유형의 수를 나타낸다(여기서 모든 유형이 동일하게 풍부하지 않을 수 있음). 데이터 세트의 진정한 다양성은 먼저 데이터 세트의 유형의 비례 풍부도의 가중 일반화 평균 ''M''''q''−1을 구한 다음, 이 값의 역수를 취하여 계산한다.[4][5]

:{}^q\!D={1 \over M_{q-1}}={1 \over \sqrt[q-1]}}=\left ( {\sum_{i=1}^R p_i^q} \right )^{1/(1-q)}

분모 ''M''''q''−1는 지수 ''q'' − 1로 계산된 가중 일반화 평균을 사용하여 계산된 데이터 세트의 유형의 평균 비례 풍부도와 같다. 방정식에서, ''R''은 풍부도(데이터 세트의 총 유형 수)이고, ''i''번째 유형의 비례 풍부도는 ''p''''i''이다. 비례 풍부도 자체는 명목 가중치로 사용된다. ^q D의 숫자는 '''차수''' ''q''의 '''힐 수''' 또는 '''유효 종 수'''라고 한다.[6]

''q'' = 1일 때, 위 방정식은 정의되지 않는다. 그러나, ''q''가 1에 접근할 때의 수학적 극한은 잘 정의되어 있으며, 해당 다양성은 다음 방정식으로 계산된다.

:{}^1\!D={1 \over {\prod_{i=1}^R p_i^{p_i}}} = \exp\left(-\sum_{i=1}^R p_i \ln(p_i)\right)

이는 자연 로그로 계산된 섀넌 엔트로피의 지수이다. 다른 분야에서는 이 통계를 ''혼란도''라고도 한다.

다양성의 일반적인 방정식은 다음과 같은 형태로 작성되는 경우가 많다.[2][3]

:{}^q\!D=\left ( {\sum_{i=1}^R p_i^q} \right )^{1/(1-q)}

일부 인기 있는 다양성 지수는 ''q''의 서로 다른 값으로 계산된 기본 합계에 해당한다.[3]

''q'' 값은 종종 다양성의 차수로 언급된다. 이는 종의 상대적 풍부도의 가중 평균을 계산하는 방식을 수정하여 희귀종 대 풍부종에 대한 진정한 다양성의 민감도를 정의한다. 매개변수 ''q''의 일부 값에서 일반화 평균 ''M''''q''−1는 친숙한 종류의 가중 평균을 특수한 경우로 가정한다. 특히,

  • ''q'' = 0은 가중 조화 평균에 해당하고,
  • ''q'' = 1은 가중 기하 평균에 해당하며,
  • ''q'' = 2는 가중 산술 평균에 해당한다.
  • ''q''가 무한대에 가까워질수록 지수 ''q'' − 1을 가진 가중 일반화 평균은 최대 ''p''''i'' 값, 즉 데이터 세트에서 가장 풍부한 종의 상대적 풍부도에 접근한다.


일반적으로 ''q''의 값을 증가시키면 가장 풍부한 종에 부여되는 유효 가중치가 증가한다. 이는 ''q''가 증가함에 따라 더 큰 ''M''''q''−1 값과 더 작은 진정한 다양성 (''qD'') 값을 얻게 한다.

''q'' = 1일 때, ''p''''i'' 값의 가중 기하 평균이 사용되며 각 종은 정확히 상대적 풍부도로 가중된다 (가중 기하 평균에서 가중치는 지수이다). ''q'' > 1일 때, 풍부한 종에 부여된 가중치가 과장되고 ''q'' < 1일 때 희귀종에 부여된 가중치가 과장된다. ''q'' = 0에서, 종 가중치는 종의 상대적 풍부도를 정확히 상쇄하므로, 모든 종이 동일하게 풍부하지 않더라도 ''p''''i'' 값의 가중 평균은 1 / ''R''과 같다. ''q'' = 0에서 종의 유효 개수 0''D''는 따라서 실제 종의 개수 ''R''와 같다. 다양성의 맥락에서, ''q''는 일반적으로 음이 아닌 값으로 제한된다. 이는 ''q''의 음수 값이 풍부한 종보다 희귀종에 훨씬 더 많은 가중치를 부여하여 ''q''''D''가 ''R''을 초과하게 하기 때문이다.[4][5]

  • '''섀넌 지수 (Shannon index)'''


'''섀넌 지수'''는 생태학 문헌에서 자주 사용되는 다양성 지수로, '''섀넌의 다양성 지수''', '''섀넌–비너 지수''', '''섀넌–위버 지수'''(잘못된 명칭) 등으로 알려져 있다.[8] 1948년 클로드 섀넌이 텍스트 문자열의 엔트로피를 정량화하기 위해 제안한 척도로, 섀넌 정보량과 관련이 있다.[9]

섀넌 엔트로피는 문자열에서 다음 문자를 예측하는 것과 관련된 불확실성, 즉 엔트로피(놀라움의 정도)를 정량화한다. 문자가 많고, 각 문자의 비례적 빈도가 비슷할수록 다음 문자를 예측하기 어렵다. 섀넌 엔트로피는 일반적으로 다음과 같이 계산된다.[9]

: H' = -\sum_{i=1}^R p_i \ln p_i

여기서 p_i 는 문자열에서 i 번째 문자 유형에 속하는 문자의 비율이다. 생태학에서는 p_i 가 데이터 세트에서 i 번째 종에 속하는 개체의 비율을 나타내는 경우가 많다. 섀넌 엔트로피는 데이터 세트에서 임의로 추출된 개체의 종 정체성을 예측하는 데 있어서의 불확실성을 정량화한다.[9]

섀넌 지수( H' )는 유형의 비례적 빈도의 가중 기하 평균과 관련이 있으며, q=1 로 계산된 진정한 다양성의 로그와 같다.[4]

: H' = -\sum_{i=1}^R p_i \ln p_i = -\sum_{i=1}^R \ln p_i^{p_i}

위 식은 다음과 같이 표현할 수 있다.

: H' = -(\ln p_1^{p_1} +\ln p_2^{p_2} +\ln p_3^{p_3} + \cdots + \ln p_R^{p_R})

이는 다시 다음과 같이 정리된다.

: H' = -\ln p_1^{p_1}p_2^{p_2}p_3^{p_3} \cdots p_R^{p_R} = \ln \left ( {1 \over p_1^{p_1}p_2^{p_2}p_3^{p_3} \cdots p_R^{p_R}} \right ) = \ln \left ( {1 \over {\prod_{i=1}^R p_i^{p_i}}} \right )

p_i 값의 합은 1이므로, 분모는 p_i 값의 가중 기하 평균과 같고, p_i 값 자체가 가중치(방정식의 지수)로 사용된다. 따라서 괄호 안의 용어는 진정한 다양성 ^1D 와 같고, H' ln(^1D) 와 같다.[2][4][5]

데이터 세트의 모든 유형이 동일하게 일반적일 때, 모든 p_i 값은 1/R 과 같고, 섀넌 지수는 ln(R) 값을 갖는다. 유형의 빈도가 불균등할수록 p_i 값의 가중 기하 평균이 커지고, 해당 섀넌 엔트로피는 작아진다. 한 유형에 빈도가 집중되고 다른 유형이 매우 희귀하면 섀넌 엔트로피는 0에 가까워진다. 데이터 세트에 단 하나의 유형만 있으면 섀넌 엔트로피는 0이 된다.[9]

섀넌 지수는 머신 러닝에서 정보 획득이라고도 한다.

  • '''심슨 지수 (Simpson index)'''


심슨 지수는 1949년 에드워드 H. 심슨(Edward H. Simpson)이 개인이 유형으로 분류될 때 집중도의 정도를 측정하기 위해 도입되었다.[10] 1950년 오리스 C. 허핀달(Orris C. Herfindahl)에 의해 재발견되었으며,[11] 1945년 알버트 O. 허쉬만(Albert O. Hirschman)이 지수의 제곱근을 도입하였다.[12] 생태학에서는 심슨 지수, 경제학에서는 허핀달 지수 또는 허핀달-허쉬만 지수(HHI)로 알려져 있다.

이 척도는 관심 있는 데이터 집합에서 무작위로 선택된 두 개의 개체가 동일한 유형을 나타낼 확률과 같다.[10] 이는 다음과 같이 계산된다.

: \lambda = \sum_{i=1}^R p_i^2,

여기서 은 풍부도(데이터 집합의 총 유형 수)이다. 이 방정식은 또한 관심 있는 유형의 비례적 풍부도 의 가중 산술 평균과 같으며, 비례적 풍부도 자체가 가중치로 사용된다.[2] 이며, 모든 유형이 동일하게 풍부할 때 도달된다.

λ를 계산하는 데 사용되는 방정식과 진정한 다양성을 계산하는 데 사용되는 방정식을 비교하면 가 와 같다. 즉, 2}}로 계산된 진정한 다양성이다. 따라서 원래의 심슨 지수는 해당 기본 합과 같다.[3]

λ는 다양성이 높은 데이터 집합에서는 작은 값을, 다양성이 낮은 데이터 집합에서는 큰 값을 얻는다. 이는 다양성 지수에서는 직관에 반하는 동작이므로, 종종 다양성이 증가함에 따라 증가하는 λ의 변환이 대신 사용되었다. 이러한 지수 중에서 가장 인기 있는 것은 역 심슨 지수(1/λ)와 코라도 지니(Corrado Gini) - 심슨 지수(1 − λ)이다.[2][3]

역 심슨 지수는 다음과 같다.

: \frac 1 \lambda = {1 \over\sum_{i=1}^R p_i^2} = {}^2D

이는 단순히 2차 다양성의 참된 다양성, 즉 관심 있는 데이터 집합에서 유형의 평균 비례 풍부도를 정량화하기 위해 가중 산술 평균을 사용할 때 얻을 수 있는 유효한 유형의 수를 의미한다. 이 지수는 유효 정당 수를 측정하는 데 사용된다.

지니-심슨 지수는 지니 불순도 또는 기계 학습 분야에서 '''지니의 다양성 지수'''라고도 한다.[14] 원래의 심슨 지수 λ는 관심 데이터 집합에서 무작위로 선택된 두 개의 개체가 (복원 추출) 동일한 유형을 나타낼 확률과 같으므로, 1 − λ는 두 개체가 다른 유형을 나타낼 확률과 같다. 이 척도는 생태학에서 종간 만남 확률 (''PIE'')[15] 및 지니-심슨 지수로도 알려져 있으며,[3] 2차 다양성의 변환으로 표현될 수 있다.

: 1 - \lambda = 1 - \sum_{i=1}^R p_i^2 = 1 - \frac{1}{{}^2D}

사회학, 심리학 및 경영 연구의 깁스-마틴 지수[16]는 블라우 지수라고도 하며 지니-심슨 지수와 동일한 척도이다. 이 양은 집단 유전학에서 예상 이형접합성으로도 알려져 있다.

데이터 집합이 작고, 비복원 추출이 가정되면, 두 번의 무작위 추출로 동일한 유형을 얻을 확률은 다음과 같다.

: \ell = \frac{\sum_{i=1}^R n_i (n_i -1)}{N (N-1)}

여기서 는 번째 유형에 속하는 개체 수이고 은 데이터 집합의 총 개체 수이다.[10] 이 형태의 심슨 지수는 미생물학에서 헌터-개스턴 지수로도 알려져 있다.[13]

  • '''레니 엔트로피 (Rényi entropy)'''


레니 엔트로피는 섀넌 엔트로피를 일반화한 것이다. 1이 아닌 다른 ''q'' 값으로 일반화하여 다음과 같이 표현할 수 있다.

:{}^qH = \frac{1}{1-q} \; \ln\left ( \sum_{i=1}^R p_i^q \right )

이는 다음과 같다.

:{}^qH = \ln\left ( {1 \over \sqrt[q-1]}} \right ) = \ln({}^q\!D)

''q''의 모든 값을 기반으로 하는 진정한 다양성의 로그를 취하면 동일한 ''q'' 값에 해당하는 레니 엔트로피가 된다.

  • '''기타 지수'''


풍부도 는 관심 있는 데이터 집합에 얼마나 많은 종류가 포함되어 있는지를 단순하게 정량화한다.[7] 예를 들어, 종 풍부도(보통 로 표기)는 단순히 종의 수, 예를 들어 특정 장소에 있는 종의 수를 의미한다. 풍부도는 간단한 척도이므로, 개체수 데이터를 사용할 수 없는 경우가 많은 생태학에서 인기 있는 다양성 지수이다.[7] 만약 참된 다양성이 0}}으로 계산된다면, 유효한 종류의 수 ()는 실제 종류의 수와 같으며, 이는 풍부도 ()와 동일하다.[3][5]

볼프강 H. 베르거와 프란세스 로렌스 파커의 이름을 따서 명명된[17] Berger–Parker 지수는 데이터 세트에서 최대 값, 즉 가장 풍부한 유형의 비례 풍부도와 같다. 이는 가 무한대에 접근할 때 값의 가중된 일반화 평균에 해당하며, 따라서 무한대 차수의 진정한 다양성의 역수()와 같다.

2. 1. 힐 수 (유효 종 수)

다양성 지수가 생태학에서 사용될 때, 관심 대상 유형은 보통 종이지만, , , 식물 기능형 또는 haplotype과 같은 다른 범주가 될 수도 있다. 관심 대상 개체는 일반적으로 개별 유기체(예: 식물 또는 동물)이며, 풍부도 측정은 예를 들어 개체 수, 바이오매스 또는 피복률일 수 있다. 인구 통계학에서 관심 대상 개체는 사람일 수 있으며, 관심 대상 유형은 다양한 인구 통계학적 그룹일 수 있다. 정보 과학에서 개체는 문자일 수 있으며, 유형은 알파벳의 다른 문자일 수 있다.[2][3][4][5]

진정한 다양성 또는 유효 유형 수는 유형의 평균 비례 풍부도가 관심 있는 데이터 세트에서 관찰된 값과 같아지기 위해 필요한, 동일하게 풍부한 유형의 수를 나타낸다(여기서 모든 유형이 동일하게 풍부하지 않을 수 있음). 데이터 세트의 진정한 다양성은 먼저 데이터 세트의 유형의 비례 풍부도의 가중 일반화 평균 ''M''''q''−1을 구한 다음, 이 값의 역수를 취하여 계산한다. 방정식은 다음과 같다.[4][5]

:{}^q\!D={1 \over M_{q-1}}={1 \over \sqrt[q-1]}}=\left ( {\sum_{i=1}^R p_i^q} \right )^{1/(1-q)}

분모 ''M''''q''−1는 지수 ''q'' − 1로 계산된 가중 일반화 평균을 사용하여 계산된 데이터 세트의 유형의 평균 비례 풍부도와 같다. 방정식에서, ''R''은 풍부도(데이터 세트의 총 유형 수)이고, ''i''번째 유형의 비례 풍부도는 ''p''''i''이다. 비례 풍부도 자체는 명목 가중치로 사용된다. ^q D의 숫자는 '''차수''' ''q''의 '''힐 수''' 또는 '''유효 종 수'''라고 한다.[6]

''q'' = 1일 때, 위 방정식은 정의되지 않는다. 그러나, ''q''가 1에 접근할 때의 수학적 극한은 잘 정의되어 있으며, 해당 다양성은 다음 방정식으로 계산된다.

:{}^1\!D={1 \over {\prod_{i=1}^R p_i^{p_i}}} = \exp\left(-\sum_{i=1}^R p_i \ln(p_i)\right)

이는 자연 로그로 계산된 섀넌 엔트로피의 지수이다. 다른 분야에서는 이 통계를 ''혼란도''라고도 한다.

다양성의 일반적인 방정식은 다음과 같은 형태로 작성되는 경우가 많다.[2][3]

:{}^q\!D=\left ( {\sum_{i=1}^R p_i^q} \right )^{1/(1-q)}

일부 인기 있는 다양성 지수는 ''q''의 서로 다른 값으로 계산된 기본 합계에 해당한다.[3]

''q'' 값은 종종 다양성의 차수로 언급된다. 이는 종의 상대적 풍부도의 가중 평균을 계산하는 방식을 수정하여 희귀종 대 풍부종에 대한 진정한 다양성의 민감도를 정의한다. 매개변수 ''q''의 일부 값에서 일반화 평균 ''M''''q''−1는 친숙한 종류의 가중 평균을 특수한 경우로 가정한다. 특히,

  • ''q'' = 0은 가중 조화 평균에 해당하고,
  • ''q'' = 1은 가중 기하 평균에 해당하며,
  • ''q'' = 2는 가중 산술 평균에 해당한다.
  • ''q''가 무한대에 가까워질수록 지수 ''q'' − 1을 가진 가중 일반화 평균은 최대 ''p''''i'' 값, 즉 데이터 세트에서 가장 풍부한 종의 상대적 풍부도에 접근한다.


일반적으로 ''q''의 값을 증가시키면 가장 풍부한 종에 부여되는 유효 가중치가 증가한다. 이는 ''q''가 증가함에 따라 더 큰 ''M''''q''−1 값과 더 작은 진정한 다양성 (''qD'') 값을 얻게 한다.

''q'' = 1일 때, ''p''''i'' 값의 가중 기하 평균이 사용되며 각 종은 정확히 상대적 풍부도로 가중된다 (가중 기하 평균에서 가중치는 지수이다). ''q'' > 1일 때, 풍부한 종에 부여된 가중치가 과장되고 ''q'' < 1일 때 희귀종에 부여된 가중치가 과장된다. ''q'' = 0에서, 종 가중치는 종의 상대적 풍부도를 정확히 상쇄하므로, 모든 종이 동일하게 풍부하지 않더라도 ''p''''i'' 값의 가중 평균은 1 / ''R''과 같다. ''q'' = 0에서 종의 유효 개수 0''D''는 따라서 실제 종의 개수 ''R''와 같다. 다양성의 맥락에서, ''q''는 일반적으로 음이 아닌 값으로 제한된다. 이는 ''q''의 음수 값이 풍부한 종보다 희귀종에 훨씬 더 많은 가중치를 부여하여 ''q''''D''가 ''R''을 초과하게 하기 때문이다.[4][5]

2. 2. 섀넌 지수 (Shannon index)

'''섀넌 지수'''는 생태학 문헌에서 자주 사용되는 다양성 지수로, '''섀넌의 다양성 지수''', '''섀넌–비너 지수''', '''섀넌–위버 지수'''(잘못된 명칭) 등으로 알려져 있다.[8] 1948년 클로드 섀넌이 텍스트 문자열의 엔트로피를 정량화하기 위해 제안한 척도로, 섀넌 정보량과 관련이 있다.[9]

섀넌 엔트로피는 문자열에서 다음 문자를 예측하는 것과 관련된 불확실성, 즉 엔트로피(놀라움의 정도)를 정량화한다. 문자가 많고, 각 문자의 비례적 빈도가 비슷할수록 다음 문자를 예측하기 어렵다. 섀넌 엔트로피는 일반적으로 다음과 같이 계산된다.[9]

: H' = -\sum_{i=1}^R p_i \ln p_i

여기서 p_i 는 문자열에서 i 번째 문자 유형에 속하는 문자의 비율이다. 생태학에서는 p_i 가 데이터 세트에서 i 번째 종에 속하는 개체의 비율을 나타내는 경우가 많다. 섀넌 엔트로피는 데이터 세트에서 임의로 추출된 개체의 종 정체성을 예측하는 데 있어서의 불확실성을 정량화한다.[9]

섀넌 지수( H' )는 유형의 비례적 빈도의 가중 기하 평균과 관련이 있으며, q=1 로 계산된 진정한 다양성의 로그와 같다.[4]

: H' = -\sum_{i=1}^R p_i \ln p_i = -\sum_{i=1}^R \ln p_i^{p_i}

위 식은 다음과 같이 표현할 수 있다.

: H' = -(\ln p_1^{p_1} +\ln p_2^{p_2} +\ln p_3^{p_3} + \cdots + \ln p_R^{p_R})

이는 다시 다음과 같이 정리된다.

: H' = -\ln p_1^{p_1}p_2^{p_2}p_3^{p_3} \cdots p_R^{p_R} = \ln \left ( {1 \over p_1^{p_1}p_2^{p_2}p_3^{p_3} \cdots p_R^{p_R}} \right ) = \ln \left ( {1 \over {\prod_{i=1}^R p_i^{p_i}}} \right )

p_i 값의 합은 1이므로, 분모는 p_i 값의 가중 기하 평균과 같고, p_i 값 자체가 가중치(방정식의 지수)로 사용된다. 따라서 괄호 안의 용어는 진정한 다양성 ^1D 와 같고, H' ln(^1D) 와 같다.[2][4][5]

데이터 세트의 모든 유형이 동일하게 일반적일 때, 모든 p_i 값은 1/R 과 같고, 섀넌 지수는 ln(R) 값을 갖는다. 유형의 빈도가 불균등할수록 p_i 값의 가중 기하 평균이 커지고, 해당 섀넌 엔트로피는 작아진다. 한 유형에 빈도가 집중되고 다른 유형이 매우 희귀하면 섀넌 엔트로피는 0에 가까워진다. 데이터 세트에 단 하나의 유형만 있으면 섀넌 엔트로피는 0이 된다.[9]

섀넌 지수는 머신 러닝에서 정보 획득이라고도 한다.

2. 3. 심슨 지수 (Simpson index)

다양성 지수는 임의로 선택한 두 사람의 인종과 민족이 다를 확률을 백분율로 나타낸다. 예를 들어 미국 사회의 다양성 지수가 55라면, 미국 사회에서 임의로 선택한 두 명의 인종이 다를 확률이 55%라는 의미이다.[18]

심슨 지수는 1949년 에드워드 H. 심슨(Edward H. Simpson)이 개인이 유형으로 분류될 때 집중도의 정도를 측정하기 위해 도입되었다.[10] 1950년 오리스 C. 허핀달(Orris C. Herfindahl)에 의해 재발견되었으며,[11] 1945년 알버트 O. 허쉬만(Albert O. Hirschman)이 지수의 제곱근을 도입하였다.[12] 생태학에서는 심슨 지수, 경제학에서는 허핀달 지수 또는 허핀달-허쉬만 지수(HHI)로 알려져 있다.

이 척도는 관심 있는 데이터 집합에서 무작위로 선택된 두 개의 개체가 동일한 유형을 나타낼 확률과 같다.[10] 이는 다음과 같이 계산된다.

: \lambda = \sum_{i=1}^R p_i^2,

여기서 은 풍부도(데이터 집합의 총 유형 수)이다. 이 방정식은 또한 관심 있는 유형의 비례적 풍부도 의 가중 산술 평균과 같으며, 비례적 풍부도 자체가 가중치로 사용된다.[2] 이며, 모든 유형이 동일하게 풍부할 때 도달된다.

λ를 계산하는 데 사용되는 방정식과 진정한 다양성을 계산하는 데 사용되는 방정식을 비교하면 가 와 같다. 즉, 2}}로 계산된 진정한 다양성이다. 따라서 원래의 심슨 지수는 해당 기본 합과 같다.[3]

λ는 다양성이 높은 데이터 집합에서는 작은 값을, 다양성이 낮은 데이터 집합에서는 큰 값을 얻는다. 이는 다양성 지수에서는 직관에 반하는 동작이므로, 종종 다양성이 증가함에 따라 증가하는 λ의 변환이 대신 사용되었다. 이러한 지수 중에서 가장 인기 있는 것은 역 심슨 지수(1/λ)와 코라도 지니(Corrado Gini) - 심슨 지수(1 − λ)이다.[2][3]

역 심슨 지수는 다음과 같다.

: \frac 1 \lambda = {1 \over\sum_{i=1}^R p_i^2} = {}^2D

이는 단순히 2차 다양성의 참된 다양성, 즉 관심 있는 데이터 집합에서 유형의 평균 비례 풍부도를 정량화하기 위해 가중 산술 평균을 사용할 때 얻을 수 있는 유효한 유형의 수를 의미한다. 이 지수는 유효 정당 수를 측정하는 데 사용된다.

지니-심슨 지수는 지니 불순도 또는 기계 학습 분야에서 '''지니의 다양성 지수'''라고도 한다.[14] 원래의 심슨 지수 λ는 관심 데이터 집합에서 무작위로 선택된 두 개의 개체가 (복원 추출) 동일한 유형을 나타낼 확률과 같으므로, 1 − λ는 두 개체가 다른 유형을 나타낼 확률과 같다. 이 척도는 생태학에서 종간 만남 확률 (''PIE'')[15] 및 지니-심슨 지수로도 알려져 있으며,[3] 2차 다양성의 변환으로 표현될 수 있다.

: 1 - \lambda = 1 - \sum_{i=1}^R p_i^2 = 1 - \frac{1}{{}^2D}

사회학, 심리학 및 경영 연구의 깁스-마틴 지수[16]는 블라우 지수라고도 하며 지니-심슨 지수와 동일한 척도이다. 이 양은 집단 유전학에서 예상 이형접합성으로도 알려져 있다.

데이터 집합이 작고, 비복원 추출이 가정되면, 두 번의 무작위 추출로 동일한 유형을 얻을 확률은 다음과 같다.

: \ell = \frac{\sum_{i=1}^R n_i (n_i -1)}{N (N-1)}

여기서 는 번째 유형에 속하는 개체 수이고 은 데이터 집합의 총 개체 수이다.[10] 이 형태의 심슨 지수는 미생물학에서 헌터-개스턴 지수로도 알려져 있다.[13]

2. 4. 레니 엔트로피 (Rényi entropy)

레니 엔트로피는 섀넌 엔트로피를 일반화한 것이다. 1이 아닌 다른 ''q'' 값으로 일반화하여 다음과 같이 표현할 수 있다.

:{}^qH = \frac{1}{1-q} \; \ln\left ( \sum_{i=1}^R p_i^q \right )

이는 다음과 같다.

:{}^qH = \ln\left ( {1 \over \sqrt[q-1]}} \right ) = \ln({}^q\!D)

''q''의 모든 값을 기반으로 하는 진정한 다양성의 로그를 취하면 동일한 ''q'' 값에 해당하는 레니 엔트로피가 된다.

2. 5. 기타 지수

풍부도 는 관심 있는 데이터 집합에 얼마나 많은 종류가 포함되어 있는지를 단순하게 정량화한다.[7] 예를 들어, 종 풍부도(보통 로 표기)는 단순히 종의 수, 예를 들어 특정 장소에 있는 종의 수를 의미한다. 풍부도는 간단한 척도이므로, 개체수 데이터를 사용할 수 없는 경우가 많은 생태학에서 인기 있는 다양성 지수이다.[7] 만약 참된 다양성이 0}}으로 계산된다면, 유효한 종류의 수 ()는 실제 종류의 수와 같으며, 이는 풍부도 ()와 동일하다.[3][5]

볼프강 H. 베르거와 프란세스 로렌스 파커의 이름을 따서 명명된[17] Berger–Parker 지수는 데이터 세트에서 최대 값, 즉 가장 풍부한 유형의 비례 풍부도와 같다. 이는 가 무한대에 접근할 때 값의 가중된 일반화 평균에 해당하며, 따라서 무한대 차수의 진정한 다양성의 역수()와 같다.

3. 다양성 지수의 활용

미국은 2010년대 다양성 지수가 55를 기록했는데, 이는 임의로 선택한 두 사람의 민족과 인종이 다를 가능성이 절반을 넘는다는 의미이다.[19] 미국의 다양성 지수는 점점 증가하는 추세로, 1960년대에는 20에 불과했다.[19] 미국에서 다양성 지수가 가장 높은 지역은 뉴욕, 마이애미, 시카고, 샌프란시스코 등이다.[19] 2060년에는 미국 인구 3명 중 2명은 이민자가 될 것이라는 전망이 나오고 있다.[19]

3. 1. 생태학

3. 2. 인구 통계학

미국은 2010년대 다양성 지수가 55를 기록했는데, 이는 임의로 선택한 두 사람의 민족과 인종이 다를 가능성이 절반을 넘는다는 의미이다. 미국의 다양성 지수는 점점 증가하는 추세로, 1960년대에는 20에 불과했다.[19] 미국에서 다양성 지수가 가장 높은 지역은 뉴욕, 마이애미, 시카고, 샌프란시스코 등이다.[19] 2060년에는 미국 인구 3명 중 2명이 이민자가 될 것이라는 전망이 나오고 있다.

3. 3. 정보 과학

4. 한국 사회의 다양성

4. 1. 다양성 증가의 긍정적 측면

4. 2. 다양성 증가에 따른 과제

5. 결론

참조

[1] 논문 A guide to phylogenetic metrics for conservation, community ecology and macroecology: A guide to phylogenetic metrics for ecology 2017-05
[2] 논문 Diversity and evenness: a unifying notation and its consequences
[3] 논문 Entropy and diversity
[4] 논문 A diversity of beta diversities: straightening up a concept gone awry. Part 1. Defining beta diversity as a function of alpha and gamma diversity
[5] 논문 A consistent terminology for quantifying species diversity? Yes, it does exist
[6] 서적 Phylogenetic Diversity Measures and Their Decomposition: A Framework Based on Hill Numbers Springer International Publishing 2016
[7] 논문 Choosing and using diversity indices: insights for ecological applications from the German Biodiversity Exploratories 2014-09
[8] 간행물 A tribute to Claude Shannon (1916–2001) and a plea for more rigorous use of species richness, species diversity and the ‘Shannon–Wiener’Index 2003
[9] 간행물 A mathematical theory of communication 1948
[10] 논문 Measurement of diversity
[11] 문서 Concentration in the U.S. Steel Industry 1950
[12] 서적 National power and the structure of foreign trade Berkeley 1945
[13] 논문 Numerical index of the discriminatory ability of typing systems: an application of Simpson's index of diversity
[14] 웹사이트 Growing Decision Trees https://www.mathwork[...]
[15] 논문 The nonconcept of species diversity: A critique and alternative parameters
[16] 논문 Urbanization, technology and the division of labor
[17] 논문 Diversity of Planktonic Foraminifera in Deep-Sea Sediments 1970-06
[18] 뉴스 미국 다양성지수 역대 최고…'제2의 이민 물결' 아시아경제 2014-10-23
[19] 뉴스 美에 `제2의 이민 물결`, 2060년 3명중 2명 이민자…백인비율 61%로 떨어질듯 매일경제 2014-10-23



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com