정보 이득

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 정의
3. 공식
4. 정보 이득의 활용과 장점
5. 정보 이득의 단점 및 해결 방안
참조

1. 개요

정보 이득은 이전 상태에서 주어진 정보를 갖는 상태로 변경될 때 정보 엔트로피의 변화를 의미한다. 이는 정보 엔트로피의 감소로, 관찰 집합 내의 불순도 또는 불확실성의 척도이다. 정보 이득은 의사 결정 트리에서 특징이 클래스에 대해 제공하는 정보의 양을 측정하는 척도로 사용되며, 데이터를 분할하는 방식을 결정한다. 정보 이득은 연속형 및 이산형 변수 모두에서 작동하며, 결정 트리에서 최적의 분할을 선택하는 데 활용된다. 하지만, 많은 고유값을 가진 속성에 정보 이득을 적용할 때 과적합의 문제가 발생할 수 있으며, 이를 해결하기 위해 정보 이득률을 사용하는 방법이 제안되었다.

더 읽어볼만한 페이지

정보 이론 - 양자 컴퓨터
양자 컴퓨터는 양자역학적 현상을 이용하여 정보를 처리하는 컴퓨터로, 큐비트를 통해 0과 1을 동시에 표현하여 특정 연산에서 기존 컴퓨터보다 빠른 속도를 보이며 암호 해독, 신약 개발 등 다양한 분야에 혁신을 가져올 것으로 기대된다.
정보 이론 - 정보 엔트로피
정보 엔트로피는 확률 변수의 불확실성을 측정하는 방법으로, 사건 발생 가능성이 낮을수록 정보량이 커진다는 원리에 기반하며, 데이터 압축, 생물다양성 측정, 암호화 등 다양한 분야에서 활용된다.
통계학 - 확률
확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다.
통계학 - 사분위수
사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.

정보 이득
개요
정의	의사 결정 트리에서 특성이 주어졌을 때 목표 변수에 대한 정보 획득량
약자	I(X; A)
종류	통계, 머신 러닝
상세 내용
설명	정보 획득은 의사 결정 트리 학습 알고리즘에서 사용하는 휴리스틱이다. 정보 획득은 속성 A를 기준으로 데이터의 엔트로피를 감소시키는 양을 계산한다.
계산 방법	속성 A를 기준으로 분할하여 얻은 정보 획득은 다음과 같이 계산된다. I(S, A) = H(S) - Σv∈Values(A) \|Sv\|/\|S\| * H(Sv) 여기서 H(S)는 집합 S의 엔트로피, A는 속성, Values(A)는 속성 A가 가질 수 있는 값의 집합, Sv는 A의 값이 v인 S의 부분집합이다.
활용	정보 획득은 의사 결정 트리를 구축할 때 어떤 속성을 먼저 분할해야 하는지 결정하는 데 사용된다. 정보 획득이 가장 높은 속성이 먼저 분할된다.
추가 정보
주의 사항	정보 획득은 속성에 따라 여러 값을 가질 때 편향될 수 있다.
관련 개념	엔트로피 의사 결정 트리 지니 불순도

2. 정의

일반적으로, 기대되는 정보 이득은 이전 상태에서 주어진 정보를 갖는 상태로 바뀔 때 정보 엔트로피 H의 변화이다.

: $IG(T,a) = H(T) - H(T|a)$

: $T$ 를 각각 $(\textbf{x},y) = (x_1, x_2, x_3, ..., x_k, y)$ 형식으로 나타내보면, $x_a\in vals(a)$ 는 $\textbf{x}$ 와 $y$ 해당 클래스 라벨인 $a$ 번째 속성의 값이다. 속성 $a$ 에 대한 정보 이득은 다음과 같이 엔트로피 $H()$ 로 정의된다.

: $IG(T,a) = H(T)-\sum_{v\in vals(a)}\frac$

\cdot H(\{\textbf{x}\in T|x_a=v\})

속성값 각각에 대해 결과 속성에 대한 고유한 분류를 만들 수 있는 경우 상호 의존 정보는 속성에 대한 총 엔트로피와 같다. 이 경우 전체 엔트로피에서 빼는 상대 엔트로피는 0이다.

일반적으로, 기대 정보 이득은 사전 상태에서 어떤 정보가 주어졌을 때의 상태로의 정보 엔트로피 Η|에타^영어의 감소이다.

:

IG(T,a) = \Eta{(T)} - \Eta{(T|a)},

여기서

\Eta{(T|a)}

는 조건부 엔트로피

T

의 속성

a

의 값을 조건으로 한다.

이것은 엔트로피 Η|에타^영어를 무작위 변수

T

의 불확실성의 척도로 해석할 때 직관적으로 타당하다.

T

에 대해

a

를 학습(또는 가정)함으로써,

T

에 대한 우리의 불확실성이 감소한다(즉,

IG(T,a)

는 양수). 물론

T

가

a

와 독립적인 경우를 제외하고는, 이 경우

\Eta(T|a) = \Eta(T)

이며, 이는

IG(T,a) = 0

을 의미한다.

3. 공식

일반적으로, 기대되는 정보 이득은 이전 상태에서 주어진 정보를 갖는 상태로 바뀔 때 정보 엔트로피 H의 변화이다.

:''IG(T,a) = H(T) - H(T|a)''

''T''를 각각 ('''x''',y) = (x₁, x₂, x₃, ..., x_k, y) 형식으로 나타내보면, x_a∈vals(a)는 '''x'''와 ''y'' 해당 클래스 라벨인 ''a''번째 속성의 값이다. 속성 ''a''에 대한 정보 이득은 다음과 같이 엔트로피 H()로 정의된다.

:''IG(T,a) = H(T)-Σ_v∈vals(a)|{'''x'''∈T|x_a=v}| / |T| * H({'''x'''∈T|x_a=v})''

속성값 각각에 대해 결과 속성에 대한 고유한 분류를 만들 수 있는 경우 상호 정보량은 속성에 대한 총 엔트로피와 같다. 이 경우 전체 엔트로피에서 빼는 상대 엔트로피는 0이다.

일반적으로, 기대 정보 이득은 사전 상태에서 어떤 정보가 주어졌을 때의 상태로의 정보 엔트로피 감소이다.

:''IG(T,a) = Η(T) - Η(T|a)''

여기서 Η(T|a)는 조건부 엔트로피 ''T''의 속성 ''a''의 값을 조건으로 한다.

이것은 엔트로피 Η를 무작위 변수 ''T''의 불확실성의 척도로 해석할 때 직관적으로 타당하다. ''T''에 대해 ''a''를 학습(또는 가정)함으로써, ''T''에 대한 우리의 불확실성이 감소한다(즉, ''IG(T,a)''는 양수). 물론 ''T''가 ''a''와 독립적인 경우를 제외하고는, 이 경우 Η(T|a) = Η(T)이며, 이는 ''IG(T,a) = 0''을 의미한다.

Η(T)를 각 ('''x''',y) = (x₁, x₂, x₃, ..., x_k, y) 형태의 훈련 예시 집합으로 나타내며, 여기서 x_a∈vals(a)는 예시 '''x'''의 ''a''^번째 속성 또는 특징의 값이고, y는 해당 클래스 레이블이다. 속성 a에 대한 정보 이득은 다음과 같이 섀넌 엔트로피 Η( - )를 사용하여 정의된다. 속성 a가 취하는 값 v에 대해

S_a(v) = {'''x'''∈T|x_a=v}

를 속성 a가 v와 같은 T의 훈련 입력 집합으로 정의한다. 그러면 속성 a에 대한 T의 정보 이득은 훈련 집합의 사전 섀넌 엔트로피 Η(T)와 조건부 엔트로피 Η(T|a)의 차이이다.

:Η(T|a)= Σ_v∈vals(a)|S_a(v)| / |T| * Η(S_a(v)).

:''IG(T,a) = Η(T) - Η(T|a)''

상호 정보량은 속성의 각 값에 대해 결과 속성에 대한 고유한 통계적 분류를 만들 수 있는 경우 해당 속성에 대한 총 엔트로피와 같다. 이 경우, 총 엔트로피에서 빼는 상대 엔트로피는 0이다. 특히 값 v∈vals(a)는 훈련 집합 데이터 T를 상호 배타적이고 전체를 포함하는 부분 집합으로 분할하여 속성 a의 값에 대한 범주형 확률 분포 P_a(v)를 유도한다. 분포는 P_a(v) := |S_a(v)| / |T| 로 주어진다. 이 표현에서 a가 주어질 때 T의 정보 이득은 T의 무조건부 섀넌 엔트로피와 a의 유도된 분포에 대해 취해진 기대값이 있는 a에 조건화된 T의 예상 엔트로피 간의 차이로 정의될 수 있다.

:IG(T,a) = Η(T) - Σ_v∈vals(a)P_a(v)Η(S_a(v))

:= Η(T) - 𝔼_{P_a}[Η(S_a(v))]

:= Η(T) - Η(T|a).

4. 정보 이득의 활용과 장점

정보 이득은 결정 트리 학습에서 특정 속성이 데이터를 얼마나 잘 분류하는지를 나타내는 척도이다. 정보 이득은 의사 결정 트리의 각 노드에서 어떤 속성으로 분할할지를 결정하는 데 사용된다.

정보 이득은 엔트로피 개념을 기반으로 한다. 엔트로피는 데이터 집합의 불순도 또는 무작위성을 나타내는 지표이다.

그림에서 볼 수 있듯이, 데이터가 균일할수록 엔트로피는 낮아지고, 데이터가 혼잡할수록 엔트로피는 높아진다.

정보 이득은 특정 속성으로 데이터를 분할했을 때 엔트로피가 얼마나 감소하는지를 나타낸다. 즉, 상위 노드의 엔트로피에서 하위 노드의 평균 엔트로피를 뺀 값이다.^[2]

:(1) 획득 = (상위 노드의 엔트로피) – (자식 노드의 평균 엔트로피)

예를 들어, 유전자 돌연변이와 암 발생 여부의 관계를 나타내는 간단한 데이터 세트를 생각해 보자.

샘플	돌연변이 1	돌연변이 2	돌연변이 3	돌연변이 4
C1	1	1	1	0
C2	1	1	0	1
C3	1	0	1	1
C4	0	1	1	0
NC1	0	0	0	0
NC2	0	1	0	0
NC3	1	1	0	0

이 데이터 세트에서 1은 샘플에 돌연변이가 있음을 의미하고(참), 0은 샘플에 돌연변이가 없음을 의미한다(거짓). C가 있는 샘플은 암으로 확인되었음을 나타내고, NC는 암이 아님을 의미한다.

이 데이터를 사용하여 의사 결정 트리를 만들 때, 각 노드에서 어떤 돌연변이를 기준으로 분할할지를 정보 이득을 통해 결정할 수 있다.

먼저, 루트 노드의 엔트로피를 계산한다. 루트 노드에는 7개의 샘플이 있으며, 그 중 4개는 암(C), 3개는 암이 아니다(NC). 따라서 루트 노드의 엔트로피는 다음과 같다.

: $\Eta{(t)}$ = −(4/7log₂(4/7) + 3/7log₂(3/7)) = 0.985

다음으로, 각 돌연변이로 분할했을 때 자식 노드들의 엔트로피를 계산하고, 이를 바탕으로 정보 이득을 계산한다. 예를 들어, 돌연변이 1로 분할하면 다음과 같다.

왼쪽 자식 노드 (돌연변이 1이 1인 샘플): C 3개, NC 1개
오른쪽 자식 노드 (돌연변이 1이 0인 샘플): C 1개, NC 2개

왼쪽 자식 노드의 엔트로피:

:H(''t_L'') = −(3/4log₂(3/4) + 1/4log₂(1/4)) = 0.811

오른쪽 자식 노드의 엔트로피:

:H(''t_R'') = −(1/3log₂(1/3) + 2/3log₂(2/3)) = 0.918

자식 노드들의 평균 엔트로피:

:H(''s, t'') = (4/7 × 0.811) + (3/7 × 0.918) = 0.857

따라서 돌연변이 1로 분할했을 때의 정보 이득은 다음과 같다.

:gain(''s'') = 0.985 – 0.857 = 0.128

다른 돌연변이에 대해서도 같은 방식으로 정보 이득을 계산하면 다음과 같다.

돌연변이	획득(s)
3	0.522
4	0.292
1	0.128
2	0.006

정보 이득이 가장 큰 돌연변이 3으로 루트 노드를 분할하는 것이 가장 좋다.

이러한 방식으로 정보 이득을 활용하면 의사 결정 트리를 효과적으로 구성할 수 있다. 정보 이득은 C4.5 알고리즘 등 다양한 의사 결정 트리 알고리즘에서 활용된다.^[1]

정보 이득은 다음과 같은 장점을 가진다.^[4]

연속형 및 이산형 변수 모두에 적용할 수 있다.
엔트로피 기반으로 불순도를 측정하므로, 데이터의 특징을 잘 반영한다.

5. 정보 이득의 단점 및 해결 방안

정보 이득은 일반적으로 속성의 관련성을 결정하는 데 좋은 척도이지만 완벽하지는 않다. 정보 이득이 많은 수의 고유 값을 가질 수 있는 속성에 적용될 때 문제가 발생한다. 예를 들어, 어떤 사업체의 고객을 설명하는 데이터를 기반으로 의사 결정 트리를 구축한다고 가정해 보자. 정보 이득은 어떤 속성이 가장 관련성이 높은지 결정하는 데 자주 사용되므로 트리의 루트 근처에서 테스트할 수 있다. 입력 속성 중 하나는 고객이 사업체의 멤버십 프로그램의 회원인 경우 고객의 멤버십 번호일 수 있다. 이 속성은 각 고객을 고유하게 식별하므로 상호 정보가 높지만, 의사 결정 트리에 포함하고 싶지는 않다. 멤버십 번호를 기반으로 고객을 처리하는 방식을 결정하는 것은 아직 보지 못한 고객에게 일반화될 가능성이 낮다(과적합).^[5]

이 문제를 해결하기 위해 로스 퀸란은 정보 이득이 평균 이상인 속성 중에서 정보 이득률이 가장 높은 속성을 선택하는 것을 제안했다.^[5] 이렇게 하면 많은 수의 고유 값을 가진 속성을 고려하는 것에 대해 의사 결정 트리가 편향되지만, 정보 값이 정보 이득보다 높거나 같으므로 정보 값이 매우 낮은 속성에 불공정한 이점을 주지 않는다.^[6]

참조

_[1] 서적 Discovering Knowledge in Data: An Introduction to Data Mining Wiley (publisher)|Wiley
_[2] 웹사이트 What is Entropy and Information Gain? How are they used to construct decision trees? https://www.numpynin[...] 2020-12-10
_[3] 간행물 Predicting Life time of Heart Attack Patient using Improved C4.5 Classification Algorithm https://rjptonline.o[...] 2018
_[4] 웹사이트 machine learning - Why we use information gain over accuracy as splitting criterion in decision tree? https://datascience.[...] 2021-12-09
_[5] 간행물 Induction of Decision Trees
_[6] 웹사이트 What is the range of information gain ratio? https://stats.stacke[...] 2018-08-06

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com