다양성 지수
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
다양성 지수는 임의로 선택된 두 대상의 특성이 다를 확률을 나타내는 지표로, 생태학, 인구 통계학, 정보 과학 등 다양한 분야에서 활용된다. 힐 수, 섀넌 지수, 심슨 지수, 레니 엔트로피 등이 있으며, 각 지수는 데이터 내 유형의 상대적 풍부도를 다르게 반영한다. 미국은 인종 및 민족 다양성 지수가 증가하는 추세이며, 이는 사회적 변화와 관련이 있다.
더 읽어볼만한 페이지
- 사회과학 - 지리학
지리학은 지구와 천체의 특징, 현상, 그리고 공간적 요소를 체계적으로 연구하는 학문으로, 고대부터 현재까지 이어진다. - 사회과학 - 정책학
정책학은 정책 과정, 형성, 집행, 분석, 평가 등을 연구하는 사회과학 분야로서, 다양한 과학적 방법론과 이론을 활용하여 민주적 가치와 사회적 가치를 고려하며, 현대 사회 문제 해결 및 정책 전문가 양성을 목표로 한다. - 사회 - 정치
정치는 자신을 닦고 남을 돕는다는 의미를 지니며 권력, 정책, 지배, 자치와 관련된 활동을 포괄하고, 인류 역사를 아우르는 다양한 분야를 연구하는 학문이다. - 사회 - 이념
이념은 1796년에 앙투안 데스튀트 드 트라시가 고안한 용어로, 현실에 대한 기본적인 가정을 바탕으로 한 일관된 사상 체계이며 사회 통합 또는 불평등 정당화를 포함한 다양한 사회적 기능을 수행하며 다양한 학문 분야에서 연구가 이루어진다.
다양성 지수 | |
---|---|
다양성 지수 개요 | |
![]() | |
유형 | |
종 풍부도 | 종의 수 |
종 균등도 | 종의 상대적 풍부도 |
다양성 지수 종류 | |
알파 다양성 지수 | 심슨 지수 (https://en.wikipedia.org/wiki/Dominance_(ecology)) 섀넌 지수 (엔트로피) |
베타 다양성 지수 | 브레이-커티스 유사성 유클리드 거리 맨해튼 거리 |
기타 | |
용도 | 생태학, 환경 과학 |
관련 개념 | 생물 다양성 생태계 |
2. 다양성 지수의 종류
다양성 지수는 임의로 선택한 두 사람의 인종과 민족이 다를 확률을 백분율로 나타낸다. 예를 들어 미국 사회의 다양성 지수가 55라면, 미국 사회에서 임의로 선택한 두 명의 인종이 다를 확률이 55%라는 의미이다.[18]
- '''힐 수 (유효 종 수)'''
다양성 지수가 생태학에서 사용될 때, 관심 대상 유형은 보통 종이지만, 속, 과, 식물 기능형 또는 haplotype과 같은 다른 범주가 될 수도 있다. 관심 대상 개체는 일반적으로 개별 유기체(예: 식물 또는 동물)이며, 풍부도 측정은 예를 들어 개체 수, 바이오매스 또는 피복률일 수 있다. 인구 통계학에서 관심 대상 개체는 사람일 수 있으며, 관심 대상 유형은 다양한 인구 통계학적 그룹일 수 있다. 정보 과학에서 개체는 문자일 수 있으며, 유형은 알파벳의 다른 문자일 수 있다.[2][3][4][5]
진정한 다양성 또는 유효 유형 수는 유형의 평균 비례 풍부도가 관심 있는 데이터 세트에서 관찰된 값과 같아지기 위해 필요한, 동일하게 풍부한 유형의 수를 나타낸다(여기서 모든 유형이 동일하게 풍부하지 않을 수 있음). 데이터 세트의 진정한 다양성은 먼저 데이터 세트의 유형의 비례 풍부도의 가중 일반화 평균 ''M''''q''−1을 구한 다음, 이 값의 역수를 취하여 계산한다.[4][5]
:
분모 ''M''''q''−1는 지수 ''q'' − 1로 계산된 가중 일반화 평균을 사용하여 계산된 데이터 세트의 유형의 평균 비례 풍부도와 같다. 방정식에서, ''R''은 풍부도(데이터 세트의 총 유형 수)이고, ''i''번째 유형의 비례 풍부도는 ''p''''i''이다. 비례 풍부도 자체는 명목 가중치로 사용된다. 의 숫자는 '''차수''' ''q''의 '''힐 수''' 또는 '''유효 종 수'''라고 한다.[6]
''q'' = 1일 때, 위 방정식은 정의되지 않는다. 그러나, ''q''가 1에 접근할 때의 수학적 극한은 잘 정의되어 있으며, 해당 다양성은 다음 방정식으로 계산된다.
:
이는 자연 로그로 계산된 섀넌 엔트로피의 지수이다. 다른 분야에서는 이 통계를 ''혼란도''라고도 한다.
다양성의 일반적인 방정식은 다음과 같은 형태로 작성되는 경우가 많다.[2][3]
:
일부 인기 있는 다양성 지수는 ''q''의 서로 다른 값으로 계산된 기본 합계에 해당한다.[3]
''q'' 값은 종종 다양성의 차수로 언급된다. 이는 종의 상대적 풍부도의 가중 평균을 계산하는 방식을 수정하여 희귀종 대 풍부종에 대한 진정한 다양성의 민감도를 정의한다. 매개변수 ''q''의 일부 값에서 일반화 평균 ''M''''q''−1는 친숙한 종류의 가중 평균을 특수한 경우로 가정한다. 특히,
- ''q'' = 0은 가중 조화 평균에 해당하고,
- ''q'' = 1은 가중 기하 평균에 해당하며,
- ''q'' = 2는 가중 산술 평균에 해당한다.
- ''q''가 무한대에 가까워질수록 지수 ''q'' − 1을 가진 가중 일반화 평균은 최대 ''p''''i'' 값, 즉 데이터 세트에서 가장 풍부한 종의 상대적 풍부도에 접근한다.
일반적으로 ''q''의 값을 증가시키면 가장 풍부한 종에 부여되는 유효 가중치가 증가한다. 이는 ''q''가 증가함에 따라 더 큰 ''M''''q''−1 값과 더 작은 진정한 다양성 (''qD'') 값을 얻게 한다.
''q'' = 1일 때, ''p''''i'' 값의 가중 기하 평균이 사용되며 각 종은 정확히 상대적 풍부도로 가중된다 (가중 기하 평균에서 가중치는 지수이다). ''q'' > 1일 때, 풍부한 종에 부여된 가중치가 과장되고 ''q'' < 1일 때 희귀종에 부여된 가중치가 과장된다. ''q'' = 0에서, 종 가중치는 종의 상대적 풍부도를 정확히 상쇄하므로, 모든 종이 동일하게 풍부하지 않더라도 ''p''''i'' 값의 가중 평균은 1 / ''R''과 같다. ''q'' = 0에서 종의 유효 개수 0''D''는 따라서 실제 종의 개수 ''R''와 같다. 다양성의 맥락에서, ''q''는 일반적으로 음이 아닌 값으로 제한된다. 이는 ''q''의 음수 값이 풍부한 종보다 희귀종에 훨씬 더 많은 가중치를 부여하여 ''q''''D''가 ''R''을 초과하게 하기 때문이다.[4][5]
- '''섀넌 지수 (Shannon index)'''
'''섀넌 지수'''는 생태학 문헌에서 자주 사용되는 다양성 지수로, '''섀넌의 다양성 지수''', '''섀넌–비너 지수''', '''섀넌–위버 지수'''(잘못된 명칭) 등으로 알려져 있다.[8] 1948년 클로드 섀넌이 텍스트 문자열의 엔트로피를 정량화하기 위해 제안한 척도로, 섀넌 정보량과 관련이 있다.[9]
섀넌 엔트로피는 문자열에서 다음 문자를 예측하는 것과 관련된 불확실성, 즉 엔트로피(놀라움의 정도)를 정량화한다. 문자가 많고, 각 문자의 비례적 빈도가 비슷할수록 다음 문자를 예측하기 어렵다. 섀넌 엔트로피는 일반적으로 다음과 같이 계산된다.[9]
:
여기서 는 문자열에서 번째 문자 유형에 속하는 문자의 비율이다. 생태학에서는 가 데이터 세트에서 번째 종에 속하는 개체의 비율을 나타내는 경우가 많다. 섀넌 엔트로피는 데이터 세트에서 임의로 추출된 개체의 종 정체성을 예측하는 데 있어서의 불확실성을 정량화한다.[9]
섀넌 지수()는 유형의 비례적 빈도의 가중 기하 평균과 관련이 있으며, 로 계산된 진정한 다양성의 로그와 같다.[4]
:
위 식은 다음과 같이 표현할 수 있다.
:
이는 다시 다음과 같이 정리된다.
:
값의 합은 1이므로, 분모는 값의 가중 기하 평균과 같고, 값 자체가 가중치(방정식의 지수)로 사용된다. 따라서 괄호 안의 용어는 진정한 다양성 와 같고, 는 와 같다.[2][4][5]
데이터 세트의 모든 유형이 동일하게 일반적일 때, 모든 값은 과 같고, 섀넌 지수는 값을 갖는다. 유형의 빈도가 불균등할수록 값의 가중 기하 평균이 커지고, 해당 섀넌 엔트로피는 작아진다. 한 유형에 빈도가 집중되고 다른 유형이 매우 희귀하면 섀넌 엔트로피는 0에 가까워진다. 데이터 세트에 단 하나의 유형만 있으면 섀넌 엔트로피는 0이 된다.[9]
섀넌 지수는 머신 러닝에서 정보 획득이라고도 한다.
- '''심슨 지수 (Simpson index)'''
심슨 지수는 1949년 에드워드 H. 심슨(Edward H. Simpson)이 개인이 유형으로 분류될 때 집중도의 정도를 측정하기 위해 도입되었다.[10] 1950년 오리스 C. 허핀달(Orris C. Herfindahl)에 의해 재발견되었으며,[11] 1945년 알버트 O. 허쉬만(Albert O. Hirschman)이 지수의 제곱근을 도입하였다.[12] 생태학에서는 심슨 지수, 경제학에서는 허핀달 지수 또는 허핀달-허쉬만 지수(HHI)로 알려져 있다.
이 척도는 관심 있는 데이터 집합에서 무작위로 선택된 두 개의 개체가 동일한 유형을 나타낼 확률과 같다.[10] 이는 다음과 같이 계산된다.
:
여기서 은 풍부도(데이터 집합의 총 유형 수)이다. 이 방정식은 또한 관심 있는 유형의 비례적 풍부도 의 가중 산술 평균과 같으며, 비례적 풍부도 자체가 가중치로 사용된다.[2] 이며, 모든 유형이 동일하게 풍부할 때 도달된다.
λ를 계산하는 데 사용되는 방정식과 진정한 다양성을 계산하는 데 사용되는 방정식을 비교하면 가 와 같다. 즉, 2}}로 계산된 진정한 다양성이다. 따라서 원래의 심슨 지수는 해당 기본 합과 같다.[3]
λ는 다양성이 높은 데이터 집합에서는 작은 값을, 다양성이 낮은 데이터 집합에서는 큰 값을 얻는다. 이는 다양성 지수에서는 직관에 반하는 동작이므로, 종종 다양성이 증가함에 따라 증가하는 λ의 변환이 대신 사용되었다. 이러한 지수 중에서 가장 인기 있는 것은 역 심슨 지수(1/λ)와 코라도 지니(Corrado Gini) - 심슨 지수(1 − λ)이다.[2][3]
역 심슨 지수는 다음과 같다.
:
이는 단순히 2차 다양성의 참된 다양성, 즉 관심 있는 데이터 집합에서 유형의 평균 비례 풍부도를 정량화하기 위해 가중 산술 평균을 사용할 때 얻을 수 있는 유효한 유형의 수를 의미한다. 이 지수는 유효 정당 수를 측정하는 데 사용된다.
지니-심슨 지수는 지니 불순도 또는 기계 학습 분야에서 '''지니의 다양성 지수'''라고도 한다.[14] 원래의 심슨 지수 λ는 관심 데이터 집합에서 무작위로 선택된 두 개의 개체가 (복원 추출) 동일한 유형을 나타낼 확률과 같으므로, 1 − λ는 두 개체가 다른 유형을 나타낼 확률과 같다. 이 척도는 생태학에서 종간 만남 확률 (''PIE'')[15] 및 지니-심슨 지수로도 알려져 있으며,[3] 2차 다양성의 변환으로 표현될 수 있다.
:
사회학, 심리학 및 경영 연구의 깁스-마틴 지수[16]는 블라우 지수라고도 하며 지니-심슨 지수와 동일한 척도이다. 이 양은 집단 유전학에서 예상 이형접합성으로도 알려져 있다.
데이터 집합이 작고, 비복원 추출이 가정되면, 두 번의 무작위 추출로 동일한 유형을 얻을 확률은 다음과 같다.
:
여기서 는 번째 유형에 속하는 개체 수이고 은 데이터 집합의 총 개체 수이다.[10] 이 형태의 심슨 지수는 미생물학에서 헌터-개스턴 지수로도 알려져 있다.[13]
- '''레니 엔트로피 (Rényi entropy)'''
레니 엔트로피는 섀넌 엔트로피를 일반화한 것이다. 1이 아닌 다른 ''q'' 값으로 일반화하여 다음과 같이 표현할 수 있다.
:
이는 다음과 같다.
:
''q''의 모든 값을 기반으로 하는 진정한 다양성의 로그를 취하면 동일한 ''q'' 값에 해당하는 레니 엔트로피가 된다.
- '''기타 지수'''
풍부도 는 관심 있는 데이터 집합에 얼마나 많은 종류가 포함되어 있는지를 단순하게 정량화한다.[7] 예를 들어, 종 풍부도(보통 로 표기)는 단순히 종의 수, 예를 들어 특정 장소에 있는 종의 수를 의미한다. 풍부도는 간단한 척도이므로, 개체수 데이터를 사용할 수 없는 경우가 많은 생태학에서 인기 있는 다양성 지수이다.[7] 만약 참된 다양성이 0}}으로 계산된다면, 유효한 종류의 수 ()는 실제 종류의 수와 같으며, 이는 풍부도 ()와 동일하다.[3][5]
볼프강 H. 베르거와 프란세스 로렌스 파커의 이름을 따서 명명된[17] Berger–Parker 지수는 데이터 세트에서 최대 값, 즉 가장 풍부한 유형의 비례 풍부도와 같다. 이는 가 무한대에 접근할 때 값의 가중된 일반화 평균에 해당하며, 따라서 무한대 차수의 진정한 다양성의 역수()와 같다.
2. 1. 힐 수 (유효 종 수)
다양성 지수가 생태학에서 사용될 때, 관심 대상 유형은 보통 종이지만, 속, 과, 식물 기능형 또는 haplotype과 같은 다른 범주가 될 수도 있다. 관심 대상 개체는 일반적으로 개별 유기체(예: 식물 또는 동물)이며, 풍부도 측정은 예를 들어 개체 수, 바이오매스 또는 피복률일 수 있다. 인구 통계학에서 관심 대상 개체는 사람일 수 있으며, 관심 대상 유형은 다양한 인구 통계학적 그룹일 수 있다. 정보 과학에서 개체는 문자일 수 있으며, 유형은 알파벳의 다른 문자일 수 있다.[2][3][4][5]진정한 다양성 또는 유효 유형 수는 유형의 평균 비례 풍부도가 관심 있는 데이터 세트에서 관찰된 값과 같아지기 위해 필요한, 동일하게 풍부한 유형의 수를 나타낸다(여기서 모든 유형이 동일하게 풍부하지 않을 수 있음). 데이터 세트의 진정한 다양성은 먼저 데이터 세트의 유형의 비례 풍부도의 가중 일반화 평균 ''M''''q''−1을 구한 다음, 이 값의 역수를 취하여 계산한다. 방정식은 다음과 같다.[4][5]
:
분모 ''M''''q''−1는 지수 ''q'' − 1로 계산된 가중 일반화 평균을 사용하여 계산된 데이터 세트의 유형의 평균 비례 풍부도와 같다. 방정식에서, ''R''은 풍부도(데이터 세트의 총 유형 수)이고, ''i''번째 유형의 비례 풍부도는 ''p''''i''이다. 비례 풍부도 자체는 명목 가중치로 사용된다. 의 숫자는 '''차수''' ''q''의 '''힐 수''' 또는 '''유효 종 수'''라고 한다.[6]
''q'' = 1일 때, 위 방정식은 정의되지 않는다. 그러나, ''q''가 1에 접근할 때의 수학적 극한은 잘 정의되어 있으며, 해당 다양성은 다음 방정식으로 계산된다.
:
이는 자연 로그로 계산된 섀넌 엔트로피의 지수이다. 다른 분야에서는 이 통계를 ''혼란도''라고도 한다.
다양성의 일반적인 방정식은 다음과 같은 형태로 작성되는 경우가 많다.[2][3]
:
일부 인기 있는 다양성 지수는 ''q''의 서로 다른 값으로 계산된 기본 합계에 해당한다.[3]
''q'' 값은 종종 다양성의 차수로 언급된다. 이는 종의 상대적 풍부도의 가중 평균을 계산하는 방식을 수정하여 희귀종 대 풍부종에 대한 진정한 다양성의 민감도를 정의한다. 매개변수 ''q''의 일부 값에서 일반화 평균 ''M''''q''−1는 친숙한 종류의 가중 평균을 특수한 경우로 가정한다. 특히,
- ''q'' = 0은 가중 조화 평균에 해당하고,
- ''q'' = 1은 가중 기하 평균에 해당하며,
- ''q'' = 2는 가중 산술 평균에 해당한다.
- ''q''가 무한대에 가까워질수록 지수 ''q'' − 1을 가진 가중 일반화 평균은 최대 ''p''''i'' 값, 즉 데이터 세트에서 가장 풍부한 종의 상대적 풍부도에 접근한다.
일반적으로 ''q''의 값을 증가시키면 가장 풍부한 종에 부여되는 유효 가중치가 증가한다. 이는 ''q''가 증가함에 따라 더 큰 ''M''''q''−1 값과 더 작은 진정한 다양성 (''qD'') 값을 얻게 한다.
''q'' = 1일 때, ''p''''i'' 값의 가중 기하 평균이 사용되며 각 종은 정확히 상대적 풍부도로 가중된다 (가중 기하 평균에서 가중치는 지수이다). ''q'' > 1일 때, 풍부한 종에 부여된 가중치가 과장되고 ''q'' < 1일 때 희귀종에 부여된 가중치가 과장된다. ''q'' = 0에서, 종 가중치는 종의 상대적 풍부도를 정확히 상쇄하므로, 모든 종이 동일하게 풍부하지 않더라도 ''p''''i'' 값의 가중 평균은 1 / ''R''과 같다. ''q'' = 0에서 종의 유효 개수 0''D''는 따라서 실제 종의 개수 ''R''와 같다. 다양성의 맥락에서, ''q''는 일반적으로 음이 아닌 값으로 제한된다. 이는 ''q''의 음수 값이 풍부한 종보다 희귀종에 훨씬 더 많은 가중치를 부여하여 ''q''''D''가 ''R''을 초과하게 하기 때문이다.[4][5]
2. 2. 섀넌 지수 (Shannon index)
'''섀넌 지수'''는 생태학 문헌에서 자주 사용되는 다양성 지수로, '''섀넌의 다양성 지수''', '''섀넌–비너 지수''', '''섀넌–위버 지수'''(잘못된 명칭) 등으로 알려져 있다.[8] 1948년 클로드 섀넌이 텍스트 문자열의 엔트로피를 정량화하기 위해 제안한 척도로, 섀넌 정보량과 관련이 있다.[9]섀넌 엔트로피는 문자열에서 다음 문자를 예측하는 것과 관련된 불확실성, 즉 엔트로피(놀라움의 정도)를 정량화한다. 문자가 많고, 각 문자의 비례적 빈도가 비슷할수록 다음 문자를 예측하기 어렵다. 섀넌 엔트로피는 일반적으로 다음과 같이 계산된다.[9]
:
여기서 는 문자열에서 번째 문자 유형에 속하는 문자의 비율이다. 생태학에서는 가 데이터 세트에서 번째 종에 속하는 개체의 비율을 나타내는 경우가 많다. 섀넌 엔트로피는 데이터 세트에서 임의로 추출된 개체의 종 정체성을 예측하는 데 있어서의 불확실성을 정량화한다.[9]
섀넌 지수()는 유형의 비례적 빈도의 가중 기하 평균과 관련이 있으며, 로 계산된 진정한 다양성의 로그와 같다.[4]
:
위 식은 다음과 같이 표현할 수 있다.
:
이는 다시 다음과 같이 정리된다.
:
값의 합은 1이므로, 분모는 값의 가중 기하 평균과 같고, 값 자체가 가중치(방정식의 지수)로 사용된다. 따라서 괄호 안의 용어는 진정한 다양성 와 같고, 는 와 같다.[2][4][5]
데이터 세트의 모든 유형이 동일하게 일반적일 때, 모든 값은 과 같고, 섀넌 지수는 값을 갖는다. 유형의 빈도가 불균등할수록 값의 가중 기하 평균이 커지고, 해당 섀넌 엔트로피는 작아진다. 한 유형에 빈도가 집중되고 다른 유형이 매우 희귀하면 섀넌 엔트로피는 0에 가까워진다. 데이터 세트에 단 하나의 유형만 있으면 섀넌 엔트로피는 0이 된다.[9]
섀넌 지수는 머신 러닝에서 정보 획득이라고도 한다.
2. 3. 심슨 지수 (Simpson index)
다양성 지수는 임의로 선택한 두 사람의 인종과 민족이 다를 확률을 백분율로 나타낸다. 예를 들어 미국 사회의 다양성 지수가 55라면, 미국 사회에서 임의로 선택한 두 명의 인종이 다를 확률이 55%라는 의미이다.[18]심슨 지수는 1949년 에드워드 H. 심슨(Edward H. Simpson)이 개인이 유형으로 분류될 때 집중도의 정도를 측정하기 위해 도입되었다.[10] 1950년 오리스 C. 허핀달(Orris C. Herfindahl)에 의해 재발견되었으며,[11] 1945년 알버트 O. 허쉬만(Albert O. Hirschman)이 지수의 제곱근을 도입하였다.[12] 생태학에서는 심슨 지수, 경제학에서는 허핀달 지수 또는 허핀달-허쉬만 지수(HHI)로 알려져 있다.
이 척도는 관심 있는 데이터 집합에서 무작위로 선택된 두 개의 개체가 동일한 유형을 나타낼 확률과 같다.[10] 이는 다음과 같이 계산된다.
:
여기서 은 풍부도(데이터 집합의 총 유형 수)이다. 이 방정식은 또한 관심 있는 유형의 비례적 풍부도 의 가중 산술 평균과 같으며, 비례적 풍부도 자체가 가중치로 사용된다.[2] 이며, 모든 유형이 동일하게 풍부할 때 도달된다.
λ를 계산하는 데 사용되는 방정식과 진정한 다양성을 계산하는 데 사용되는 방정식을 비교하면 가 와 같다. 즉, 2}}로 계산된 진정한 다양성이다. 따라서 원래의 심슨 지수는 해당 기본 합과 같다.[3]
λ는 다양성이 높은 데이터 집합에서는 작은 값을, 다양성이 낮은 데이터 집합에서는 큰 값을 얻는다. 이는 다양성 지수에서는 직관에 반하는 동작이므로, 종종 다양성이 증가함에 따라 증가하는 λ의 변환이 대신 사용되었다. 이러한 지수 중에서 가장 인기 있는 것은 역 심슨 지수(1/λ)와 코라도 지니(Corrado Gini) - 심슨 지수(1 − λ)이다.[2][3]
역 심슨 지수는 다음과 같다.
:
이는 단순히 2차 다양성의 참된 다양성, 즉 관심 있는 데이터 집합에서 유형의 평균 비례 풍부도를 정량화하기 위해 가중 산술 평균을 사용할 때 얻을 수 있는 유효한 유형의 수를 의미한다. 이 지수는 유효 정당 수를 측정하는 데 사용된다.
지니-심슨 지수는 지니 불순도 또는 기계 학습 분야에서 '''지니의 다양성 지수'''라고도 한다.[14] 원래의 심슨 지수 λ는 관심 데이터 집합에서 무작위로 선택된 두 개의 개체가 (복원 추출) 동일한 유형을 나타낼 확률과 같으므로, 1 − λ는 두 개체가 다른 유형을 나타낼 확률과 같다. 이 척도는 생태학에서 종간 만남 확률 (''PIE'')[15] 및 지니-심슨 지수로도 알려져 있으며,[3] 2차 다양성의 변환으로 표현될 수 있다.
:
사회학, 심리학 및 경영 연구의 깁스-마틴 지수[16]는 블라우 지수라고도 하며 지니-심슨 지수와 동일한 척도이다. 이 양은 집단 유전학에서 예상 이형접합성으로도 알려져 있다.
데이터 집합이 작고, 비복원 추출이 가정되면, 두 번의 무작위 추출로 동일한 유형을 얻을 확률은 다음과 같다.
:
여기서 는 번째 유형에 속하는 개체 수이고 은 데이터 집합의 총 개체 수이다.[10] 이 형태의 심슨 지수는 미생물학에서 헌터-개스턴 지수로도 알려져 있다.[13]
2. 4. 레니 엔트로피 (Rényi entropy)
레니 엔트로피는 섀넌 엔트로피를 일반화한 것이다. 1이 아닌 다른 ''q'' 값으로 일반화하여 다음과 같이 표현할 수 있다.:
이는 다음과 같다.
:
''q''의 모든 값을 기반으로 하는 진정한 다양성의 로그를 취하면 동일한 ''q'' 값에 해당하는 레니 엔트로피가 된다.
2. 5. 기타 지수
풍부도 는 관심 있는 데이터 집합에 얼마나 많은 종류가 포함되어 있는지를 단순하게 정량화한다.[7] 예를 들어, 종 풍부도(보통 로 표기)는 단순히 종의 수, 예를 들어 특정 장소에 있는 종의 수를 의미한다. 풍부도는 간단한 척도이므로, 개체수 데이터를 사용할 수 없는 경우가 많은 생태학에서 인기 있는 다양성 지수이다.[7] 만약 참된 다양성이 0}}으로 계산된다면, 유효한 종류의 수 ()는 실제 종류의 수와 같으며, 이는 풍부도 ()와 동일하다.[3][5]볼프강 H. 베르거와 프란세스 로렌스 파커의 이름을 따서 명명된[17] Berger–Parker 지수는 데이터 세트에서 최대 값, 즉 가장 풍부한 유형의 비례 풍부도와 같다. 이는 가 무한대에 접근할 때 값의 가중된 일반화 평균에 해당하며, 따라서 무한대 차수의 진정한 다양성의 역수()와 같다.
3. 다양성 지수의 활용
미국은 2010년대 다양성 지수가 55를 기록했는데, 이는 임의로 선택한 두 사람의 민족과 인종이 다를 가능성이 절반을 넘는다는 의미이다.[19] 미국의 다양성 지수는 점점 증가하는 추세로, 1960년대에는 20에 불과했다.[19] 미국에서 다양성 지수가 가장 높은 지역은 뉴욕, 마이애미, 시카고, 샌프란시스코 등이다.[19] 2060년에는 미국 인구 3명 중 2명은 이민자가 될 것이라는 전망이 나오고 있다.[19]
3. 1. 생태학
3. 2. 인구 통계학
미국은 2010년대 다양성 지수가 55를 기록했는데, 이는 임의로 선택한 두 사람의 민족과 인종이 다를 가능성이 절반을 넘는다는 의미이다. 미국의 다양성 지수는 점점 증가하는 추세로, 1960년대에는 20에 불과했다.[19] 미국에서 다양성 지수가 가장 높은 지역은 뉴욕, 마이애미, 시카고, 샌프란시스코 등이다.[19] 2060년에는 미국 인구 3명 중 2명이 이민자가 될 것이라는 전망이 나오고 있다.3. 3. 정보 과학
4. 한국 사회의 다양성
4. 1. 다양성 증가의 긍정적 측면
4. 2. 다양성 증가에 따른 과제
5. 결론
참조
[1]
논문
A guide to phylogenetic metrics for conservation, community ecology and macroecology: A guide to phylogenetic metrics for ecology
2017-05
[2]
논문
Diversity and evenness: a unifying notation and its consequences
[3]
논문
Entropy and diversity
[4]
논문
A diversity of beta diversities: straightening up a concept gone awry. Part 1. Defining beta diversity as a function of alpha and gamma diversity
[5]
논문
A consistent terminology for quantifying species diversity? Yes, it does exist
[6]
서적
Phylogenetic Diversity Measures and Their Decomposition: A Framework Based on Hill Numbers
Springer International Publishing
2016
[7]
논문
Choosing and using diversity indices: insights for ecological applications from the German Biodiversity Exploratories
2014-09
[8]
간행물
A tribute to Claude Shannon (1916–2001) and a plea for more rigorous use of species richness, species diversity and the ‘Shannon–Wiener’Index
2003
[9]
간행물
A mathematical theory of communication
1948
[10]
논문
Measurement of diversity
[11]
문서
Concentration in the U.S. Steel Industry
1950
[12]
서적
National power and the structure of foreign trade
Berkeley
1945
[13]
논문
Numerical index of the discriminatory ability of typing systems: an application of Simpson's index of diversity
[14]
웹사이트
Growing Decision Trees
https://www.mathwork[...]
[15]
논문
The nonconcept of species diversity: A critique and alternative parameters
[16]
논문
Urbanization, technology and the division of labor
[17]
논문
Diversity of Planktonic Foraminifera in Deep-Sea Sediments
1970-06
[18]
뉴스
미국 다양성지수 역대 최고…'제2의 이민 물결'
아시아경제
2014-10-23
[19]
뉴스
美에 `제2의 이민 물결`, 2060년 3명중 2명 이민자…백인비율 61%로 떨어질듯
매일경제
2014-10-23
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com