다양성 지수

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

다양성 지수는 임의로 선택된 두 대상의 특성이 다를 확률을 나타내는 지표로, 생태학, 인구 통계학, 정보 과학 등 다양한 분야에서 활용된다. 힐 수, 섀넌 지수, 심슨 지수, 레니 엔트로피 등이 있으며, 각 지수는 데이터 내 유형의 상대적 풍부도를 다르게 반영한다. 미국은 인종 및 민족 다양성 지수가 증가하는 추세이며, 이는 사회적 변화와 관련이 있다.

다양성 지수

다양성 지수 개요

이미지 준비중입니다.

종 풍부도와 균등도의 중요성을 강조하는 다양성 지수

유형

종 풍부도	종의 수
종 균등도	종의 상대적 풍부도

다양성 지수 종류

알파 다양성 지수	심슨 지수 (https://en.wikipedia.org/wiki/Dominance_(ecology)) 섀넌 지수 (엔트로피)
베타 다양성 지수	브레이-커티스 유사성 유클리드 거리 맨해튼 거리

기타

용도	생태학, 환경 과학
관련 개념	생물 다양성 생태계

📚 더 읽어볼만한 페이지

사회 - 정치
정치는 자신을 닦고 남을 돕는다는 의미를 지니며 권력, 정책, 지배, 자치와 관련된 활동을 포괄하고, 인류 역사를 아우르는 다양한 분야를 연구하는 학문이다.
사회 - 이념
이념은 1796년에 앙투안 데스튀트 드 트라시가 고안한 용어로, 현실에 대한 기본적인 가정을 바탕으로 한 일관된 사상 체계이며 사회 통합 또는 불평등 정당화를 포함한 다양한 사회적 기능을 수행하며 다양한 학문 분야에서 연구가 이루어진다.
사회과학 - 지리학
지리학은 지구와 천체의 특징, 현상, 그리고 공간적 요소를 체계적으로 연구하는 학문으로, 고대부터 현재까지 이어진다.
사회과학 - 정책학
정책학은 정책 과정, 형성, 집행, 분석, 평가 등을 연구하는 사회과학 분야로서, 다양한 과학적 방법론과 이론을 활용하여 민주적 가치와 사회적 가치를 고려하며, 현대 사회 문제 해결 및 정책 전문가 양성을 목표로 한다.

1. 개요
2. 다양성 지수의 종류
3. 다양성 지수의 활용
4. 한국 사회의 다양성
- 4.1. 다양성 증가의 긍정적 측면
- 4.2. 다양성 증가에 따른 과제
5. 결론

2. 다양성 지수의 종류

다양성 지수는 임의로 선택한 두 사람의 인종과 민족이 다를 확률을 백분율로 나타낸다. 예를 들어 미국 사회의 다양성 지수가 55라면, 미국 사회에서 임의로 선택한 두 명의 인종이 다를 확률이 55%라는 의미이다.

* 힐 수 (유효 종 수)

다양성 지수가 생태학에서 사용될 때, 관심 대상 유형은 보통 종이지만, 속, 과, 식물 기능형 또는 haplotype과 같은 다른 범주가 될 수도 있다. 관심 대상 개체는 일반적으로 개별 유기체(예: 식물 또는 동물)이며, 풍부도 측정은 예를 들어 개체 수, 바이오매스 또는 피복률일 수 있다. 인구 통계학에서 관심 대상 개체는 사람일 수 있으며, 관심 대상 유형은 다양한 인구 통계학적 그룹일 수 있다. 정보 과학에서 개체는 문자일 수 있으며, 유형은 알파벳의 다른 문자일 수 있다.

진정한 다양성 또는 유효 유형 수는 유형의 평균 비례 풍부도가 관심 있는 데이터 세트에서 관찰된 값과 같아지기 위해 필요한, 동일하게 풍부한 유형의 수를 나타낸다(여기서 모든 유형이 동일하게 풍부하지 않을 수 있음). 데이터 세트의 진정한 다양성은 먼저 데이터 세트의 유형의 비례 풍부도의 가중 일반화 평균 M_q−1을 구한 다음, 이 값의 역수를 취하여 계산한다.

: ${}^q\!D={1 \over M_{q-1}}={1 \over \sqrt[q-1]}}=\left ( {\sum_{i=1}^R p_i^q} \right )^{1/(1-q)}$

분모 M_q−1는 지수 q − 1로 계산된 가중 일반화 평균을 사용하여 계산된 데이터 세트의 유형의 평균 비례 풍부도와 같다. 방정식에서, R은 풍부도(데이터 세트의 총 유형 수)이고, i번째 유형의 비례 풍부도는 p_i이다. 비례 풍부도 자체는 명목 가중치로 사용된다. $^q D$ 의 숫자는 차수 q의 힐 수 또는 유효 종 수라고 한다.

q = 1일 때, 위 방정식은 정의되지 않는다. 그러나, q가 1에 접근할 때의 수학적 극한은 잘 정의되어 있으며, 해당 다양성은 다음 방정식으로 계산된다.

: ${}^1\!D={1 \over {\prod_{i=1}^R p_i^{p_i}}} = \exp\left(-\sum_{i=1}^R p_i \ln(p_i)\right)$

이는 자연 로그로 계산된 섀넌 엔트로피의 지수이다. 다른 분야에서는 이 통계를 혼란도라고도 한다.

다양성의 일반적인 방정식은 다음과 같은 형태로 작성되는 경우가 많다.

: ${}^q\!D=\left ( {\sum_{i=1}^R p_i^q} \right )^{1/(1-q)}$

일부 인기 있는 다양성 지수는 q의 서로 다른 값으로 계산된 기본 합계에 해당한다.

q 값은 종종 다양성의 차수로 언급된다. 이는 종의 상대적 풍부도의 가중 평균을 계산하는 방식을 수정하여 희귀종 대 풍부종에 대한 진정한 다양성의 민감도를 정의한다. 매개변수 q의 일부 값에서 일반화 평균 M_q−1는 친숙한 종류의 가중 평균을 특수한 경우로 가정한다. 특히,

* q = 0은 가중 조화 평균에 해당하고,
* q = 1은 가중 기하 평균에 해당하며,
* q = 2는 가중 산술 평균에 해당한다.
* q가 무한대에 가까워질수록 지수 q − 1을 가진 가중 일반화 평균은 최대 p_i 값, 즉 데이터 세트에서 가장 풍부한 종의 상대적 풍부도에 접근한다.

일반적으로 q의 값을 증가시키면 가장 풍부한 종에 부여되는 유효 가중치가 증가한다. 이는 q가 증가함에 따라 더 큰 M_q−1 값과 더 작은 진정한 다양성 (^qD) 값을 얻게 한다.

q = 1일 때, p_i 값의 가중 기하 평균이 사용되며 각 종은 정확히 상대적 풍부도로 가중된다 (가중 기하 평균에서 가중치는 지수이다). q > 1일 때, 풍부한 종에 부여된 가중치가 과장되고 q < 1일 때 희귀종에 부여된 가중치가 과장된다. q = 0에서, 종 가중치는 종의 상대적 풍부도를 정확히 상쇄하므로, 모든 종이 동일하게 풍부하지 않더라도 p_i 값의 가중 평균은 1 / R과 같다. q = 0에서 종의 유효 개수 ⁰D는 따라서 실제 종의 개수 R와 같다. 다양성의 맥락에서, q는 일반적으로 음이 아닌 값으로 제한된다. 이는 q의 음수 값이 풍부한 종보다 희귀종에 훨씬 더 많은 가중치를 부여하여 ^qD가 R을 초과하게 하기 때문이다.

* 섀넌 지수 (Shannon index)

섀넌 지수는 생태학 문헌에서 자주 사용되는 다양성 지수로, 섀넌의 다양성 지수, 섀넌–비너 지수, 섀넌–위버 지수(잘못된 명칭) 등으로 알려져 있다. 1948년 클로드 섀넌이 텍스트 문자열의 엔트로피를 정량화하기 위해 제안한 척도로, 섀넌 정보량과 관련이 있다.

섀넌 엔트로피는 문자열에서 다음 문자를 예측하는 것과 관련된 불확실성, 즉 엔트로피(놀라움의 정도)를 정량화한다. 문자가 많고, 각 문자의 비례적 빈도가 비슷할수록 다음 문자를 예측하기 어렵다. 섀넌 엔트로피는 일반적으로 다음과 같이 계산된다.

: $H' = -\sum_{i=1}^R p_i \ln p_i$

여기서 $p_i$ 는 문자열에서 $i$ 번째 문자 유형에 속하는 문자의 비율이다. 생태학에서는 $p_i$ 가 데이터 세트에서 $i$ 번째 종에 속하는 개체의 비율을 나타내는 경우가 많다. 섀넌 엔트로피는 데이터 세트에서 임의로 추출된 개체의 종 정체성을 예측하는 데 있어서의 불확실성을 정량화한다.

섀넌 지수( $H'$ )는 유형의 비례적 빈도의 가중 기하 평균과 관련이 있으며, $q=1$ 로 계산된 진정한 다양성의 로그와 같다.

: $H' = -\sum_{i=1}^R p_i \ln p_i = -\sum_{i=1}^R \ln p_i^{p_i}$

위 식은 다음과 같이 표현할 수 있다.

: $H' = -(\ln p_1^{p_1} +\ln p_2^{p_2} +\ln p_3^{p_3} + \cdots + \ln p_R^{p_R})$

이는 다시 다음과 같이 정리된다.

: $H' = -\ln p_1^{p_1}p_2^{p_2}p_3^{p_3} \cdots p_R^{p_R} = \ln \left ( {1 \over p_1^{p_1}p_2^{p_2}p_3^{p_3} \cdots p_R^{p_R}} \right ) = \ln \left ( {1 \over {\prod_{i=1}^R p_i^{p_i}}} \right )$

$p_i$ 값의 합은 1이므로, 분모는 $p_i$ 값의 가중 기하 평균과 같고, $p_i$ 값 자체가 가중치(방정식의 지수)로 사용된다. 따라서 괄호 안의 용어는 진정한 다양성 $^1D$ 와 같고, $H'$ 는 $ln(^1D)$ 와 같다.

데이터 세트의 모든 유형이 동일하게 일반적일 때, 모든 $p_i$ 값은 $1/R$ 과 같고, 섀넌 지수는 $ln(R)$ 값을 갖는다. 유형의 빈도가 불균등할수록 $p_i$ 값의 가중 기하 평균이 커지고, 해당 섀넌 엔트로피는 작아진다. 한 유형에 빈도가 집중되고 다른 유형이 매우 희귀하면 섀넌 엔트로피는 0에 가까워진다. 데이터 세트에 단 하나의 유형만 있으면 섀넌 엔트로피는 0이 된다.

섀넌 지수는 머신 러닝에서 정보 획득이라고도 한다.

* 심슨 지수 (Simpson index)

심슨 지수는 1949년 에드워드 H. 심슨(Edward H. Simpson)이 개인이 유형으로 분류될 때 집중도의 정도를 측정하기 위해 도입되었다. 1950년 오리스 C. 허핀달(Orris C. Herfindahl)에 의해 재발견되었으며, 1945년 알버트 O. 허쉬만(Albert O. Hirschman)이 지수의 제곱근을 도입하였다. 생태학에서는 심슨 지수, 경제학에서는 허핀달 지수 또는 허핀달-허쉬만 지수(HHI)로 알려져 있다.

이 척도는 관심 있는 데이터 집합에서 무작위로 선택된 두 개의 개체가 동일한 유형을 나타낼 확률과 같다. 이는 다음과 같이 계산된다.

: $\lambda = \sum_{i=1}^R p_i^2,$

여기서 은 풍부도(데이터 집합의 총 유형 수)이다. 이 방정식은 또한 관심 있는 유형의 비례적 풍부도 의 가중 산술 평균과 같으며, 비례적 풍부도 자체가 가중치로 사용된다. 이며, 모든 유형이 동일하게 풍부할 때 도달된다.

λ를 계산하는 데 사용되는 방정식과 진정한 다양성을 계산하는 데 사용되는 방정식을 비교하면 가 와 같다. 즉, 로 계산된 진정한 다양성이다. 따라서 원래의 심슨 지수는 해당 기본 합과 같다.

λ는 다양성이 높은 데이터 집합에서는 작은 값을, 다양성이 낮은 데이터 집합에서는 큰 값을 얻는다. 이는 다양성 지수에서는 직관에 반하는 동작이므로, 종종 다양성이 증가함에 따라 증가하는 λ의 변환이 대신 사용되었다. 이러한 지수 중에서 가장 인기 있는 것은 역 심슨 지수(1/λ)와 코라도 지니(Corrado Gini) - 심슨 지수(1 − λ)이다.

역 심슨 지수는 다음과 같다.

: $\frac 1 \lambda = {1 \over\sum_{i=1}^R p_i^2} = {}^2D$

이는 단순히 2차 다양성의 참된 다양성, 즉 관심 있는 데이터 집합에서 유형의 평균 비례 풍부도를 정량화하기 위해 가중 산술 평균을 사용할 때 얻을 수 있는 유효한 유형의 수를 의미한다. 이 지수는 유효 정당 수를 측정하는 데 사용된다.

지니-심슨 지수는 지니 불순도 또는 기계 학습 분야에서 지니의 다양성 지수라고도 한다. 원래의 심슨 지수 λ는 관심 데이터 집합에서 무작위로 선택된 두 개의 개체가 (복원 추출) 동일한 유형을 나타낼 확률과 같으므로, 1 − λ는 두 개체가 다른 유형을 나타낼 확률과 같다. 이 척도는 생태학에서 종간 만남 확률 (PIE) 및 지니-심슨 지수로도 알려져 있으며, 2차 다양성의 변환으로 표현될 수 있다.

: $1 - \lambda = 1 - \sum_{i=1}^R p_i^2 = 1 - \frac{1} \right ) = \ln({}^q\!D)$

q의 모든 값을 기반으로 하는 진정한 다양성의 로그를 취하면 동일한 q 값에 해당하는 레니 엔트로피가 된다.

* 기타 지수

풍부도 는 관심 있는 데이터 집합에 얼마나 많은 종류가 포함되어 있는지를 단순하게 정량화한다. 예를 들어, 종 풍부도(보통 로 표기)는 단순히 종의 수, 예를 들어 특정 장소에 있는 종의 수를 의미한다. 풍부도는 간단한 척도이므로, 개체수 데이터를 사용할 수 없는 경우가 많은 생태학에서 인기 있는 다양성 지수이다. 만약 참된 다양성이 으로 계산된다면, 유효한 종류의 수 ()는 실제 종류의 수와 같으며, 이는 풍부도 ()와 동일하다.

볼프강 H. 베르거와 프란세스 로렌스 파커의 이름을 따서 명명된 Berger–Parker 지수는 데이터 세트에서 최대 값, 즉 가장 풍부한 유형의 비례 풍부도와 같다. 이는 가 무한대에 접근할 때 값의 가중된 일반화 평균에 해당하며, 따라서 무한대 차수의 진정한 다양성의 역수()와 같다.

2.1. 힐 수 (유효 종 수)

다양성 지수가 생태학에서 사용될 때, 관심 대상 유형은 보통 종이지만, 속, 과, 식물 기능형 또는 haplotype과 같은 다른 범주가 될 수도 있다. 관심 대상 개체는 일반적으로 개별 유기체(예: 식물 또는 동물)이며, 풍부도 측정은 예를 들어 개체 수, 바이오매스 또는 피복률일 수 있다. 인구 통계학에서 관심 대상 개체는 사람일 수 있으며, 관심 대상 유형은 다양한 인구 통계학적 그룹일 수 있다. 정보 과학에서 개체는 문자일 수 있으며, 유형은 알파벳의 다른 문자일 수 있다.

진정한 다양성 또는 유효 유형 수는 유형의 평균 비례 풍부도가 관심 있는 데이터 세트에서 관찰된 값과 같아지기 위해 필요한, 동일하게 풍부한 유형의 수를 나타낸다(여기서 모든 유형이 동일하게 풍부하지 않을 수 있음). 데이터 세트의 진정한 다양성은 먼저 데이터 세트의 유형의 비례 풍부도의 가중 일반화 평균 M_q−1을 구한 다음, 이 값의 역수를 취하여 계산한다. 방정식은 다음과 같다.

: ${}^q\!D={1 \over M_{q-1}}={1 \over \sqrt[q-1]}}=\left ( {\sum_{i=1}^R p_i^q} \right )^{1/(1-q)}$

분모 M_q−1는 지수 q − 1로 계산된 가중 일반화 평균을 사용하여 계산된 데이터 세트의 유형의 평균 비례 풍부도와 같다. 방정식에서, R은 풍부도(데이터 세트의 총 유형 수)이고, i번째 유형의 비례 풍부도는 p_i이다. 비례 풍부도 자체는 명목 가중치로 사용된다. $^q D$ 의 숫자는 차수 q의 힐 수 또는 유효 종 수라고 한다.

q = 1일 때, 위 방정식은 정의되지 않는다. 그러나, q가 1에 접근할 때의 수학적 극한은 잘 정의되어 있으며, 해당 다양성은 다음 방정식으로 계산된다.

: ${}^1\!D={1 \over {\prod_{i=1}^R p_i^{p_i}}} = \exp\left(-\sum_{i=1}^R p_i \ln(p_i)\right)$

이는 자연 로그로 계산된 섀넌 엔트로피의 지수이다. 다른 분야에서는 이 통계를 혼란도라고도 한다.

다양성의 일반적인 방정식은 다음과 같은 형태로 작성되는 경우가 많다.

: ${}^q\!D=\left ( {\sum_{i=1}^R p_i^q} \right )^{1/(1-q)}$

일부 인기 있는 다양성 지수는 q의 서로 다른 값으로 계산된 기본 합계에 해당한다.

q 값은 종종 다양성의 차수로 언급된다. 이는 종의 상대적 풍부도의 가중 평균을 계산하는 방식을 수정하여 희귀종 대 풍부종에 대한 진정한 다양성의 민감도를 정의한다. 매개변수 q의 일부 값에서 일반화 평균 M_q−1는 친숙한 종류의 가중 평균을 특수한 경우로 가정한다. 특히,

* q = 0은 가중 조화 평균에 해당하고,
* q = 1은 가중 기하 평균에 해당하며,
* q = 2는 가중 산술 평균에 해당한다.
* q가 무한대에 가까워질수록 지수 q − 1을 가진 가중 일반화 평균은 최대 p_i 값, 즉 데이터 세트에서 가장 풍부한 종의 상대적 풍부도에 접근한다.

일반적으로 q의 값을 증가시키면 가장 풍부한 종에 부여되는 유효 가중치가 증가한다. 이는 q가 증가함에 따라 더 큰 M_q−1 값과 더 작은 진정한 다양성 (^qD) 값을 얻게 한다.

q = 1일 때, p_i 값의 가중 기하 평균이 사용되며 각 종은 정확히 상대적 풍부도로 가중된다 (가중 기하 평균에서 가중치는 지수이다). q > 1일 때, 풍부한 종에 부여된 가중치가 과장되고 q < 1일 때 희귀종에 부여된 가중치가 과장된다. q = 0에서, 종 가중치는 종의 상대적 풍부도를 정확히 상쇄하므로, 모든 종이 동일하게 풍부하지 않더라도 p_i 값의 가중 평균은 1 / R과 같다. q = 0에서 종의 유효 개수 ⁰D는 따라서 실제 종의 개수 R와 같다. 다양성의 맥락에서, q는 일반적으로 음이 아닌 값으로 제한된다. 이는 q의 음수 값이 풍부한 종보다 희귀종에 훨씬 더 많은 가중치를 부여하여 ^qD가 R을 초과하게 하기 때문이다.

2.2. 섀넌 지수 (Shannon index)

섀넌 지수는 생태학 문헌에서 자주 사용되는 다양성 지수로, 섀넌의 다양성 지수, 섀넌–비너 지수, 섀넌–위버 지수(잘못된 명칭) 등으로 알려져 있다. 1948년 클로드 섀넌이 텍스트 문자열의 엔트로피를 정량화하기 위해 제안한 척도로, 섀넌 정보량과 관련이 있다.

섀넌 엔트로피는 문자열에서 다음 문자를 예측하는 것과 관련된 불확실성, 즉 엔트로피(놀라움의 정도)를 정량화한다. 문자가 많고, 각 문자의 비례적 빈도가 비슷할수록 다음 문자를 예측하기 어렵다. 섀넌 엔트로피는 일반적으로 다음과 같이 계산된다.

: $H' = -\sum_{i=1}^R p_i \ln p_i$

여기서 $p_i$ 는 문자열에서 $i$ 번째 문자 유형에 속하는 문자의 비율이다. 생태학에서는 $p_i$ 가 데이터 세트에서 $i$ 번째 종에 속하는 개체의 비율을 나타내는 경우가 많다. 섀넌 엔트로피는 데이터 세트에서 임의로 추출된 개체의 종 정체성을 예측하는 데 있어서의 불확실성을 정량화한다.

섀넌 지수( $H'$ )는 유형의 비례적 빈도의 가중 기하 평균과 관련이 있으며, $q=1$ 로 계산된 진정한 다양성의 로그와 같다.

: $H' = -\sum_{i=1}^R p_i \ln p_i = -\sum_{i=1}^R \ln p_i^{p_i}$

위 식은 다음과 같이 표현할 수 있다.

: $H' = -(\ln p_1^{p_1} +\ln p_2^{p_2} +\ln p_3^{p_3} + \cdots + \ln p_R^{p_R})$

이는 다시 다음과 같이 정리된다.

: $H' = -\ln p_1^{p_1}p_2^{p_2}p_3^{p_3} \cdots p_R^{p_R} = \ln \left ( {1 \over p_1^{p_1}p_2^{p_2}p_3^{p_3} \cdots p_R^{p_R}} \right ) = \ln \left ( {1 \over {\prod_{i=1}^R p_i^{p_i}}} \right )$

$p_i$ 값의 합은 1이므로, 분모는 $p_i$ 값의 가중 기하 평균과 같고, $p_i$ 값 자체가 가중치(방정식의 지수)로 사용된다. 따라서 괄호 안의 용어는 진정한 다양성 $^1D$ 와 같고, $H'$ 는 $ln(^1D)$ 와 같다.

데이터 세트의 모든 유형이 동일하게 일반적일 때, 모든 $p_i$ 값은 $1/R$ 과 같고, 섀넌 지수는 $ln(R)$ 값을 갖는다. 유형의 빈도가 불균등할수록 $p_i$ 값의 가중 기하 평균이 커지고, 해당 섀넌 엔트로피는 작아진다. 한 유형에 빈도가 집중되고 다른 유형이 매우 희귀하면 섀넌 엔트로피는 0에 가까워진다. 데이터 세트에 단 하나의 유형만 있으면 섀넌 엔트로피는 0이 된다.

섀넌 지수는 머신 러닝에서 정보 획득이라고도 한다.

2.3. 심슨 지수 (Simpson index)

다양성 지수는 임의로 선택한 두 사람의 인종과 민족이 다를 확률을 백분율로 나타낸다. 예를 들어 미국 사회의 다양성 지수가 55라면, 미국 사회에서 임의로 선택한 두 명의 인종이 다를 확률이 55%라는 의미이다.

심슨 지수는 1949년 에드워드 H. 심슨(Edward H. Simpson)이 개인이 유형으로 분류될 때 집중도의 정도를 측정하기 위해 도입되었다. 1950년 오리스 C. 허핀달(Orris C. Herfindahl)에 의해 재발견되었으며, 1945년 알버트 O. 허쉬만(Albert O. Hirschman)이 지수의 제곱근을 도입하였다. 생태학에서는 심슨 지수, 경제학에서는 허핀달 지수 또는 허핀달-허쉬만 지수(HHI)로 알려져 있다.

이 척도는 관심 있는 데이터 집합에서 무작위로 선택된 두 개의 개체가 동일한 유형을 나타낼 확률과 같다. 이는 다음과 같이 계산된다.

: $\lambda = \sum_{i=1}^R p_i^2,$

여기서 은 풍부도(데이터 집합의 총 유형 수)이다. 이 방정식은 또한 관심 있는 유형의 비례적 풍부도 의 가중 산술 평균과 같으며, 비례적 풍부도 자체가 가중치로 사용된다. 이며, 모든 유형이 동일하게 풍부할 때 도달된다.

λ를 계산하는 데 사용되는 방정식과 진정한 다양성을 계산하는 데 사용되는 방정식을 비교하면 가 와 같다. 즉, 로 계산된 진정한 다양성이다. 따라서 원래의 심슨 지수는 해당 기본 합과 같다.

λ는 다양성이 높은 데이터 집합에서는 작은 값을, 다양성이 낮은 데이터 집합에서는 큰 값을 얻는다. 이는 다양성 지수에서는 직관에 반하는 동작이므로, 종종 다양성이 증가함에 따라 증가하는 λ의 변환이 대신 사용되었다. 이러한 지수 중에서 가장 인기 있는 것은 역 심슨 지수(1/λ)와 코라도 지니(Corrado Gini) - 심슨 지수(1 − λ)이다.

역 심슨 지수는 다음과 같다.

: $\frac 1 \lambda = {1 \over\sum_{i=1}^R p_i^2} = {}^2D$

이는 단순히 2차 다양성의 참된 다양성, 즉 관심 있는 데이터 집합에서 유형의 평균 비례 풍부도를 정량화하기 위해 가중 산술 평균을 사용할 때 얻을 수 있는 유효한 유형의 수를 의미한다. 이 지수는 유효 정당 수를 측정하는 데 사용된다.

지니-심슨 지수는 지니 불순도 또는 기계 학습 분야에서 지니의 다양성 지수라고도 한다. 원래의 심슨 지수 λ는 관심 데이터 집합에서 무작위로 선택된 두 개의 개체가 (복원 추출) 동일한 유형을 나타낼 확률과 같으므로, 1 − λ는 두 개체가 다른 유형을 나타낼 확률과 같다. 이 척도는 생태학에서 종간 만남 확률 (PIE) 및 지니-심슨 지수로도 알려져 있으며, 2차 다양성의 변환으로 표현될 수 있다.

: $1 - \lambda = 1 - \sum_{i=1}^R p_i^2 = 1 - \frac{1}{{}^2D}$

사회학, 심리학 및 경영 연구의 깁스-마틴 지수는 블라우 지수라고도 하며 지니-심슨 지수와 동일한 척도이다. 이 양은 집단 유전학에서 예상 이형접합성으로도 알려져 있다.

데이터 집합이 작고, 비복원 추출이 가정되면, 두 번의 무작위 추출로 동일한 유형을 얻을 확률은 다음과 같다.

: $\ell = \frac{\sum_{i=1}^R n_i (n_i -1)}{N (N-1)}$

여기서 는 번째 유형에 속하는 개체 수이고 은 데이터 집합의 총 개체 수이다. 이 형태의 심슨 지수는 미생물학에서 헌터-개스턴 지수로도 알려져 있다.

2.4. 레니 엔트로피 (Rényi entropy)

레니 엔트로피는 섀넌 엔트로피를 일반화한 것이다. 1이 아닌 다른 q 값으로 일반화하여 다음과 같이 표현할 수 있다.

: ${}^qH = \frac{1}{1-q} \; \ln\left ( \sum_{i=1}^R p_i^q \right )$

이는 다음과 같다.

: ${}^qH = \ln\left ( {1 \over \sqrt[q-1]}} \right ) = \ln({}^q\!D)$

q의 모든 값을 기반으로 하는 진정한 다양성의 로그를 취하면 동일한 q 값에 해당하는 레니 엔트로피가 된다.

2.5. 기타 지수

풍부도 는 관심 있는 데이터 집합에 얼마나 많은 종류가 포함되어 있는지를 단순하게 정량화한다. 예를 들어, 종 풍부도(보통 로 표기)는 단순히 종의 수, 예를 들어 특정 장소에 있는 종의 수를 의미한다. 풍부도는 간단한 척도이므로, 개체수 데이터를 사용할 수 없는 경우가 많은 생태학에서 인기 있는 다양성 지수이다. 만약 참된 다양성이 으로 계산된다면, 유효한 종류의 수 ()는 실제 종류의 수와 같으며, 이는 풍부도 ()와 동일하다.

볼프강 H. 베르거와 프란세스 로렌스 파커의 이름을 따서 명명된 Berger–Parker 지수는 데이터 세트에서 최대 값, 즉 가장 풍부한 유형의 비례 풍부도와 같다. 이는 가 무한대에 접근할 때 값의 가중된 일반화 평균에 해당하며, 따라서 무한대 차수의 진정한 다양성의 역수()와 같다.

3. 다양성 지수의 활용

미국은 2010년대 다양성 지수가 55를 기록했는데, 이는 임의로 선택한 두 사람의 민족과 인종이 다를 가능성이 절반을 넘는다는 의미이다. 미국의 다양성 지수는 점점 증가하는 추세로, 1960년대에는 20에 불과했다. 미국에서 다양성 지수가 가장 높은 지역은 뉴욕, 마이애미, 시카고, 샌프란시스코 등이다. 2060년에는 미국 인구 3명 중 2명은 이민자가 될 것이라는 전망이 나오고 있다.

3.1. 생태학

3.2. 인구 통계학

미국은 2010년대 다양성 지수가 55를 기록했는데, 이는 임의로 선택한 두 사람의 민족과 인종이 다를 가능성이 절반을 넘는다는 의미이다. 미국의 다양성 지수는 점점 증가하는 추세로, 1960년대에는 20에 불과했다. 미국에서 다양성 지수가 가장 높은 지역은 뉴욕, 마이애미, 시카고, 샌프란시스코 등이다. 2060년에는 미국 인구 3명 중 2명이 이민자가 될 것이라는 전망이 나오고 있다.

다양성 지수

1. 개요

이미지 준비중입니다.

2. 다양성 지수의 종류

2.1. 힐 수 (유효 종 수)

2.2. 섀넌 지수 (Shannon index)

2.3. 심슨 지수 (Simpson index)

2.4. 레니 엔트로피 (Rényi entropy)

2.5. 기타 지수

3. 다양성 지수의 활용

3.1. 생태학

3.2. 인구 통계학

3.3. 정보 과학

4. 한국 사회의 다양성

4.1. 다양성 증가의 긍정적 측면

4.2. 다양성 증가에 따른 과제

5. 결론