맨위로가기

정보 엔트로피

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

정보 엔트로피는 확률 변수의 불확실성을 측정하는 개념으로, 섀넌 엔트로피, 레니 엔트로피 등 다양한 형태로 정의된다. 섀넌 엔트로피는 정보 이론의 핵심 개념으로, 데이터 압축, 통신, 암호학, 기계 학습 등 다양한 분야에서 활용된다. 열역학적 엔트로피와 유사한 공식을 사용하며, 정보량, 불확실성, 예측 불가능성과 관련이 있다. 한국 사회에서는 IT 기술 발전과 데이터 경제 활성화에 따라 그 중요성이 더욱 강조되고 있다.

더 읽어볼만한 페이지

  • 통계적 무작위성 - 확률 변수
    확률 변수는 확률 공간의 가측 함수로, 가능한 결과에 수치를 할당하며, 이산형과 연속형으로 구분되어 확률 분포를 나타내고, 기댓값, 분산 등을 통해 확률 분포를 특징짓는다.
  • 통계적 무작위성 - 교환 가능 확률 변수족
    교환 가능 확률 변수족은 확률 변수들의 순서를 바꿔도 결합 확률 분포가 변하지 않는 경우를 의미하며, 데 피네티 정리에 의해 조건부 독립 동일 분포를 따르고 꼬리 사건, 공분산, 상관관계 등과 관련되어 다양한 분야에 활용된다.
  • 엔트로피 - 얽힘 엔트로피
    얽힘 엔트로피는 힐베르트 공간에서 순수 상태의 양자 얽힘 정도를 나타내는 척도로, 전체 시스템을 부분 시스템으로 나누었을 때 부분 시스템의 밀도 행렬에 대한 폰 노이만 또는 레니 엔트로피로 계산된다.
  • 엔트로피 - 잔류 엔트로피
    잔류 엔트로피는 열역학적 평형 상태와 절대 영도 근처의 비평형 상태 간의 엔트로피 차이를 의미하며, 스핀 아이스나 일산화탄소 결정 등에서 관찰되는 물질의 미시적 배치의 불규칙성으로 인해 발생한다.
  • 정보 엔트로피 - 최대 엔트로피 원리
    최대 엔트로피 원리는 주어진 제약 조건에서 정보 엔트로피를 최대화하는 확률 분포를 선택하는 원리로, 불완전한 정보나 불확실성 하에서 시스템의 확률 분포를 추정하거나 최적의 결정을 내리는 데 활용되며 다양한 분야에 응용된다.
  • 정보 엔트로피 - 교차 엔트로피
    교차 엔트로피는 동일한 이벤트 공간에서 정의된 두 확률 분포 간의 차이를 측정하는 척도로, 한 확률 분포 p에 대해 다른 확률 분포 q를 사용하여 특정 사건을 식별하는 데 필요한 평균 비트 수를 나타내며, 기계 학습에서 손실 함수를 정의하고 분류 문제에서 모델 성능 평가 및 개선에 활용된다.
정보 엔트로피
정보 이론
설명확률적 데이터 소스의 출력을 특정하는 데 필요한 예상 정보량
관련 개념정보 이론
열역학
정보량
정의확률적 사건이나 정보원에서 얻을 수 있는 정보의 양을 나타내는 척도
표현기호 'm'
메시지 'n'
정보량 log₂('n')
주요 개념정보량
미분 엔트로피
조건부 엔트로피
교차 엔트로피
결합 엔트로피
상호 정보량
칼백-라이블러 발산
엔트로피 율
통신로
정보원 부호화 정리정보원 부호화 정리
채널 용량통신로 용량
채널 부호화 정리통신로 부호화 정리
샤논-하틀리 정리샤논-하틀리 정리
단위
샤논샤논
내트내트
하틀리하틀리
기타
점근적 등분할 속성점근적 등분할 속성
속도 왜곡 이론속도 왜곡 이론
정보 엔트로피
설명불확실성 정도를 나타내는 척도
정보량의 기댓값
정보의 무질서도
주요 특징불확실성이 클수록 엔트로피가 큼
정보량이 많을수록 엔트로피가 큼
관련 분야정보 이론
통계역학
기계 학습

2. 정의

확률변수 X\colon P\to E가 분포 f\colon E\to\mathbb R를 따를 때, X의 '''정보 엔트로피''' H(X)는 다음과 같다.[4]

:H(X)=-\operatorname{E}(\ln f)=-\int_Ef(x)\ln(f(x))\,dx

표본 공간 E가 이산공간

:E=\{x_1,\ldots,x_n\}

이라면, 르베그 적분은 합이 되며, 정보 엔트로피는 다음과 같다.

:H(X)=-\sum_if_i\ln f_i

위 정의에서 자연로그 대신 이진로그 \log_2를 사용하는 경우가 있다. 이 경우 정보 엔트로피의 단위는 비트이고, 자연로그의 경우에는 단위 내트(nat)를 사용한다.

정보 이론의 핵심 개념은 전달된 메시지의 "정보적 가치"가 메시지 내용의 놀라운 정도에 따라 달라진다는 것이다. 매우 가능성이 높은 사건이 발생하면 메시지는 거의 정보를 전달하지 않는다. 반면에 매우 가능성이 낮은 사건이 발생하면 메시지는 훨씬 더 많은 정보를 전달한다.[5] 예를 들어, 특정 번호가 복권 당첨 번호가 ''아니라는'' 사실은 거의 모든 특정 번호가 당첨되지 않을 것이므로 매우 적은 정보를 제공한다. 그러나 특정 번호가 복권에 당첨될 것이라는 사실은 매우 낮은 확률의 사건 발생을 전달하므로 높은 정보 가치를 지닌다.

사건 E의 정보량(놀라움, 자기 정보량이라고도 함)은 사건의 확률 p(E)이 감소함에 따라 증가하는 함수이다. p(E)가 1에 가까우면 사건의 놀라움은 낮지만, p(E)가 0에 가까우면 사건의 놀라움은 높다.

따라서 사건 E의 정보는 다음과 같이 정의할 수 있다.

:I(E) = -\log_2(p(E)) ,

엔트로피는 무작위 시행의 결과를 식별하여 전달되는 정보의 기대치(즉, 평균)를 측정한다. 주사위를 굴리는 것이 동전을 던지는 것보다 엔트로피가 더 높은데, 그 이유는 주사위를 던진 각 결과의 확률(p=1/6)이 동전을 던진 각 결과의 확률(p=1/2)보다 작기 때문이다.

앞면이 나올 확률이 p이고 뒷면이 나올 확률이 1-p인 동전을 생각해 보자. 최대 놀라움은 p=1/2일 때이며, 이 경우 한 결과가 다른 결과보다 기대되지 않는다. 이때 동전 던지기의 엔트로피는 1비트이다. 최소 놀라움은 p=0 또는 p=1일 때이며, 이때 사건 결과는 미리 알려져 있으며 엔트로피는 0비트이다. 엔트로피가 0비트일 때, 이것은 단일성이라고 하며, 전혀 불확실성이 없고, 선택의 자유가 없고, 정보량이 없는 경우를 의미한다. p의 다른 값은 0과 1비트 사이의 엔트로피를 제공한다.

H 정리를 따라 명명된 섀넌 엔트로피는 집합 \mathcal{X}에서 값을 가지며 p: \mathcal{X} \to [0, 1]에 따라 분포되는 이산 확률 변수 X에 대해 다음과 같이 정의된다. 여기서 p(x) := \mathbb{P}[X = x]이다.

:\Eta(X) = \mathbb{E}[\operatorname{I}(X)] = \mathbb{E}[-\log p(X)].

여기서 \mathbb{E}기댓값 연산자이고, \operatorname{I}X의 정보량이다.[7][8]

엔트로피는 다음과 같이 명시적으로 쓸 수 있다.

:\Eta(X) = -\sum_{x \in \mathcal{X}} p(x)\log_b p(x) ,

여기서 b는 사용된 로그의 밑이다. b의 일반적인 값은 2, 오일러 수 e, 그리고 10이며, 이에 해당하는 엔트로피 단위는 b=2인 경우 비트(bit), b=e인 경우 네이처(nat), b=10인 경우 (ban)이다.[9]

어떤 x \in \mathcal{X}에 대해 p(x) = 0인 경우, 해당 항의 값은 0으로 간주한다.[15]

섀넌 엔트로피는 다음과 같은 성질들을 만족한다.


  • 확률이 0인 사건을 추가하거나 제거해도 엔트로피에 영향을 미치지 않는다.
  • 서로 다른 ''n''개의 결과를 갖는 사건의 최대 엔트로피는 \log_b n이다. 이는 균등 확률 분포에서 달성된다. 즉, 모든 가능한 사건이 동일한 확률을 가질 때 불확실성이 최대가 된다.[15]
  • (X,Y)를 평가하여 얻는 정보량(엔트로피)은 두 번의 연속적인 실험을 수행하여 얻는 정보량과 같다. 첫 번째는 Y의 값을 평가하고, 두 번째는 Y의 값을 알고 있다는 조건 하에 X의 값을 알아내는 것이다.[15]
  • Y=f(X)이고 f가 함수라면 \Eta(f(X)|X) = 0이다. 변수를 함수에 통과시키면 엔트로피는 감소할 수밖에 없다.
  • XY가 두 개의 독립적인 확률 변수라면, Y의 값을 아는 것이 X의 값에 대한 우리의 지식에 영향을 미치지 않는다.[15]
  • 두 개의 동시 사건의 엔트로피는 각각의 개별 사건의 엔트로피의 합보다 크지 않다. 즉, \Eta(X,Y)\leq \Eta(X)+\Eta(Y)이며, 등호는 두 사건이 독립일 경우에만 성립한다.[15]
  • 엔트로피 \Eta(p)는 확률 질량 함수 p에 대해 오목 함수이다.[15]


실수값을 취하는 확률변수 X의 확률밀도함수를 p(x)라고 할 때, X의 엔트로피는 다음과 같이 정의된다.

:h(X) = - \int_{-\infty}^{\infty}p(x)\log p(x) dx

X가 유한집합에 속하는 값을 취하는 확률변수인 경우, X의 섀넌 정보량 H(X)도 정의할 수 있다. X가 n가지 값을 취할 때, H(X)h(X)는 다음을 만족한다.

::h(X) = H(U_n) - H(X)

단, 여기서 U_n은 n원 집합 상의 균일분포이다(즉, H(U_n)=\log n).

2. 1. 조건부 엔트로피

두 확률변수 (X,Y)\colon P\to E_X\times E_Y가 주어졌고, 그 확률 분포 f\colon E_X\times E_Y\to\mathbb R가 주어졌다고 하자. 그렇다면, Y가 주어졌을 때 X의 '''조건부 엔트로피'''(conditional entropy영어)는 다음과 같다.

:H(X|Y\in S)=\operatorname E\left(\ln\frac{\int f(x',y)\,dx'}{f(x,y)}\right)=\int_{E_X\times E_Y}f(x,y)\ln\frac{\int f(x',y)\,dx'}{f(x,y)}\,dx\,dy

조건부 엔트로피는 항상 음이 아니며, Y값을 알고 있을 때 X값의 무작위한 정도를 나타낸다. 예를 들어, 6면을 가진 주사위의 엔트로피 ''H(주사위)''를 구하는데, 그 주사위가 1, 2, 3만 나오도록 조작되어있다는 사실을 알고 있다면, 이것의 엔트로피는 ''H''(주사위 값이 1 또는 2 또는 3)와 같게 된다.

사건 $B$가 발생했다는 조건 하에서 사건 $A$의 '''조건부 정보량'''을 $-\log \Pr(A \mid B)$로 정의한다. 확률 변수 $X$가 주어졌을 때, 사건 "$X = x$"의 조건부 정보량 $-\log \Pr(X = x \mid B)$의 $x$에 대한 가중 평균을 '''조건부 엔트로피'''라고 하며,

:H(X \mid B) = \mathbb{E}_{P_{X \mid B}}[I(X \mid B)] = - \sum_{x \in X} \Pr(X = x \mid B) \log \Pr(X = x \mid B)

로 나타낸다.

확률 변수 $Y$가 주어졌을 때, 사건 "$Y = y$"가 발생했다는 조건 하에서의 조건부 엔트로피 $H(X \mid Y = y)$의 $y$에 대한 가중 평균

:H(X \mid Y) = \sum_{y \in Y} \Pr(Y = y) H(X \mid Y = y) = - \sum_{x \in X, y \in Y} \Pr(X = x, Y = y) \log \Pr(X = x \mid Y = y)

도 역시 '''조건부 엔트로피'''라고 한다.

2. 2. 결합 엔트로피

확률 변수 $X$와 $Y$의 쌍 $(X, Y)$도 확률 변수로 간주할 수 있다. 이 확률 변수의 값의 발생 확률, 즉 결합 확률을 $P_{X,Y}(X, Y)$라고 하면, $(X, Y)$의 엔트로피 $H(X, Y)$는 다음과 같이 정의된다.

:$\qquad H(X, Y) = \mathbb{E}_{P_{X,Y}}[I(X, Y)] = - \sum_{(x, y) \in (X, Y)} P_{X,Y}(x, y) \log P_{X,Y}(x, y)$

이를 결합 엔트로피라고 한다.

$(X, Y)$가 서로 독립인 확률 변수인 경우, $H(X, Y)$는 $H(X) + H(Y)$와 일치한다. 즉, 전체 정보량 $H(X, Y)$는 각 확률 변수의 정보량의 합이다.

그러나 $X$와 $Y$가 서로 독립이 아닌 경우, $H(X, Y)$와 $H(X) + H(Y)$는 일치하지 않고, 후자의 값이 더 크다. 두 정보량의 차이를 '''상호 정보량'''이라고 하며, 다음과 같이 나타낸다.

:$\qquad I(X, Y) = H(X) + H(Y) - H(X, Y)$

상호 정보량은 항상 비음의 값을 갖는다.

3. 의미

정보 이론의 기본 원리는 어떤 사람이 정보를 더 많이 알수록, 새롭게 알 수 있는 정보는 적어진다는 것이다. 어떤 사건의 확률이 매우 높으면 그 사건이 발생해도 놀랍지 않고, 이는 적은 정보를 제공한다는 것을 의미한다. 반대로 사건이 불확실하다면, 그 사건이 일어났을 때 더 유용한 정보를 제공한다. 따라서 정보량은 확률에 반비례한다. 엔트로피는 '어떤 상태에서의 불확실성' 또는 '평균 정보량'을 의미한다.[45]

예를 들어 정치에서 선거를 생각해보자. 선거는 결과를 모르기 때문에 실시하며, 결과는 불확실하다. 선거를 통해 결과를 얻는 것은 새로운 정보를 제공하며, 이는 선거 결과에 대한 엔트로피가 크다는 것을 의미한다. 하지만 첫 번째 선거 후 두 번째 선거에서는 결과를 예측할 수 있으므로, 두 번째 선거 결과의 엔트로피는 첫 번째보다 작다.

영어 텍스트는 낮은 엔트로피를 가지는데, 이는 예상하기 쉽다는 의미이다. 예를 들어, 'e'가 'z'보다 많이 쓰이고, 'qu'라는 조합이 자주 나타난다는 것을 알기 때문에, 처음 몇 글자를 알면 나머지 글자를 추측하기 쉽다.

정보 엔트로피가 커지는 것은 변수(불확실성)가 증가하는 것을 의미하며, 변수를 제어하여 불확실성이 줄어드는 것은 정보 획득을 의미한다. 획득을 증가시켜 불확실성을 감소시키는 것은 변수가 줄어드는 것이며, 이는 엔트로피 크기를 감소시키는 정보 이득과 관련있다.[45]

4. 성질


  • 정보량은 확률에 의해서만 결정된다.[37]
  • 정보량은 0 이상의 값을 갖는다.[37]
  • n비트의 비트열 공간(정보원)에서 (균일한 난수가 아닌 방법으로) 무작위로 비트열을 선택했을 때의 엔트로피는 n 이하가 된다. 엔트로피가 n이 되는 필요충분조건은 비트열이 균일하게 무작위로 선택되는 것이다.[37]
  • 확률변수 X와 Y가 독립일 필요충분조건은 H(X)+H(Y)=H(X,Y)가 성립하는 것이다.[37]
  • 균등 분포에서 엔트로피는 최댓값을 갖는다.[15]

5. 예시

동전 던지기에서 앞면과 뒷면이 나올 확률이 같은 공정한 동전이라면 엔트로피는 가장 높은 1비트가 된다. 이는 불확실성이 가장 크고 결과값을 예상하기 어렵다는 의미이다. 만약 앞면이 나올 확률 p와 뒷면이 나올 확률 1-p를 이미 알고 있다면, 불확실성은 낮아진다. 특정 면이 나올 확률이 더 높기 때문이다. 불확실성이 줄어들면 엔트로피도 감소하며, 공정하지 않은 동전 던지기의 엔트로피는 1비트보다 작다.

가장 극단적인 예는 양면이 모두 같아 특정 면만 나오는 동전이다. 이때는 불확실성이 전혀 없으므로(항상 같은 면만 나오므로) 엔트로피는 0이다. 이러한 동전 던지기는 아무런 정보도 전달하지 않는다.

정보 이론은 데이터 압축처럼 메시지를 전달하는 데 필요한 최소 정보량을 계산하는 데 유용하다. 예를 들어, 'A', 'B', 'C', 'D' 네 문자로 구성된 문자열을 이진 채널로 전송한다고 가정하자. 네 문자 모두 동일한 확률(25%)로 나타난다면, 각 문자를 인코딩하는 데 2비트가 필요하다. ('A'는 '00', 'B'는 '01', 'C'는 '10', 'D'는 '11').

그러나 각 문자의 확률이 다르다면 (예: 'A' 70%, 'B' 26%, 'C'와 'D' 각각 2%), 가변 길이 코드를 할당할 수 있다. 이 경우 'A'는 '0', 'B'는 '10', 'C'는 '110', 'D'는 '111'로 인코딩된다. 이렇게 하면 70%의 경우 1비트, 26%의 경우 2비트, 4%의 경우 3비트만 전송하면 된다. 평균적으로 'A' 다음에 'B'가 나오는 경우가 많아(전체 문자의 96%) 엔트로피가 낮기 때문에 2비트보다 적은 비트가 필요하다.

영어 텍스트는 문자열로 처리될 때 엔트로피가 상당히 낮다. 즉, 예측 가능성이 높다. 예를 들어 'e'가 'z'보다 훨씬 자주 나타나고, 'qu' 조합이 'q'를 포함하는 다른 조합보다 훨씬 더 자주 나타나며, 'th' 조합이 'z', 'q' 또는 'qu'보다 더 자주 나타난다. 처음 몇 글자만 보고도 종종 단어의 나머지 부분을 추측할 수 있다. 영어 텍스트의 엔트로피는 메시지 문자당 0.6~1.3비트이다.[6]

5. 1. 동전 던지기

300px


동전 던지기를 할 때, 앞면과 뒷면이 나올 확률이 같은 공정한 동전이라면 엔트로피는 가장 높은 1비트가 된다. 이는 불확실성이 가장 크고 결과값을 예상하기 어렵다는 의미이다.[15]

만약 앞면이 나올 확률 p와 뒷면이 나올 확률 1-p를 이미 알고 있다면, 불확실성은 낮아진다. 특정 면이 나올 확률이 더 높기 때문이다. 불확실성이 줄어들면 엔트로피도 감소하며, 공정하지 않은 동전 던지기의 엔트로피는 1비트보다 작다.[15]

양면이 모두 앞면이거나 뒷면인 동전은 불확실성이 전혀 없으므로 엔트로피는 0이다. 이 경우 동전 던지기는 아무런 정보도 전달하지 않는다.[15]

앞면이 나올 확률을 p, 뒷면이 나올 확률을 1-p라고 할 때, 동전 던지기에서 얻는 평균 정보량(엔트로피)은 다음과 같다.

: - p log p - (1-p)log(1-p)

이 함수를 엔트로피 함수라고 부른다.

위 그림처럼 p=0 또는 p=1 (한쪽 면만 나오는 경우)에서는 엔트로피가 0이다. p=1/2 (공정한 동전)일 때 엔트로피가 최대가 되며, 일반적으로 모든 사건이 동일한 확률을 가질 때 엔트로피는 최대가 된다.

5. 2. 균등 분포

표본 공간이 n개의 서로 다른 값들로 이루어진 이산균등분포의 경우, 확률 질량 함수p_i=1/n이다. 따라서 엔트로피는 다음과 같다.

:S=-\sum_{i=1}^np_i\ln p_i=\ln n

로그 함수는 독립적인 불확실성에 가산성을 제공하는 데 사용된다. 예를 들어 크기 mn의 이산 표본 공간에서, 서로 독립이며 균등분포를 따르는 두 확률변수를 동시에 측정할 경우, 총 엔트로피는 다음과 같다.

:\ln(mn)=\ln m+\ln n

즉, 서로 독립인 두 확률변수의 엔트로피는 각 확률변수 엔트로피의 합과 같다.[15]

6. 레니 엔트로피

확률 공간 Ω 위의 확률 분포 P와 비음의 실수 α에 대해, α≠1일 때 P의 차수 α인 레니 엔트로피는 다음과 같이 정의된다.

::H_{\alpha}(P)=\frac{\log(\sum_{A\in\Omega}P(A)^{\alpha})}{1-\alpha}

α=1 또는 α=∞인 경우, 레니 엔트로피는 극한을 이용하여 다음과 같이 정의된다.

::\left\{ \begin{array}{lll} H_1(P) &= \lim_{\alpha\to 1}&H_{\alpha}(P)\\ H_{\infty}(P) &= \lim_{\alpha\to\infty}&H_{\alpha}(P) \end{array} \right.

H_2(P)는 단순히 레니 엔트로피라고 불리기도 한다.

확률 변수 X가 확률 분포 P를 따를 때, H_{\alpha}(X)H_{\alpha}(P)와 같이 정의된다.

레니 엔트로피는 다음과 같은 성질을 갖는다.


  • H_0(P) = \log\#\Omega
  • H_1(P)는 섀넌 엔트로피 H(P) = -\sum_{A\in\Omega} P(A)\log P(A)와 같다.
  • α가 2 이상의 정수일 때, H_{\alpha}(P) = \frac{1}{1-\alpha} \log\Pr(X_1=\cdots=X_\alpha)이다. 여기서 X_1,\ldots,X_\alpha는 P를 따르는 독립 동일 분포이고, \Pr(X_1=\cdots=X_\alpha)X_1,\ldots,X_\alpha에서 각각 선택된 x_1,\ldots,x_\alpha가 모두 같을 확률이다.
  • H_{\infty}(P)=\min_{A\in\Omega}\{-\log P(A)\}이며, 이를 최소 엔트로피라고도 한다.

7. 열역학적 엔트로피와의 관계

정보이론에서 '엔트로피'라는 단어를 사용하게 된 이유는 섀넌의 공식이 열역학적 엔트로피 공식과 매우 유사하기 때문이다.[46] 통계역학에서 가장 많이 사용되는 열역학적 엔트로피 S는 조사이어 윌러드 기브스가 1878년에 정의한 깁스 엔트로피이다.

:S = - k_B \sum p_i \ln p_i \,

여기서 ''k''B볼츠만 상수이고, pi는 미시적인 상태의 확률을 의미한다.

깁스 엔트로피는 존 폰 노이만이 1927년에 정의한 양자물리학에서의 폰 노이만 엔트로피로도 변형된다.

:S = - k_B \,\,{\rm Tr}(\rho \ln \rho) \,

여기서 ρ는 양자역학 시스템에서의 밀도 행렬을 나타내며 Tr은 대각합을 나타낸다.

일상적인 수준에서 정보이론의 엔트로피와 열역학적 엔트로피의 관계는 깊지 않다. 하지만, 여러 학문 분야에 걸쳐 종합적으로 분석해보면, 열역학적 엔트로피와 정보 엔트로피 사이에 연결 고리가 만들어질 수 있다. 제인스(Jaynes)는 1957년에 열역학을 섀넌의 정보 이론의 '응용'으로 간주할 수 있다고 하였다.[47] 열역학에서의 엔트로피는 고전열역학의 미시변수로는 설명될 수 없는 시스템의 미시적인 상태를 정의하기 위해 더 필요한 섀넌 정보 양의 추정으로 해석될 수 있다. 예를 들어, 시스템에 열을 가하면 미세 상태의 가능한 가짓수가 증가하므로 열역학적 엔트로피가 증가한다.

제임스 클러크 맥스웰은 개별적인 분자 상태에 대한 정보를 사용하면 시스템의 열역학적 엔트로피를 감소시킬 수 있다고 주장하였는데, 이는 맥스웰의 도깨비로 알려져 있다. 그러나 란다우어(Landauer)와 그의 동료들은 총 엔트로피는 줄지 않는다는 것을 보이며 이 역설을 해결하였다.

8. 응용 분야

정보 엔트로피는 데이터 압축, 통신, 암호학, 기계 학습, 조합론, 수론 등 다양한 분야에서 활용된다.


  • '''데이터 압축''': 섀넌의 부호화 정리에 따르면, 정보 엔트로피 개념을 기반으로 한다. 무손실 압축은 원본 데이터를 완벽하게 복원할 수 있도록 정보를 보존하면서 데이터 크기를 줄이는 방법이다.[21] 섀넌의 엔트로피는 메시지에 포함된 정보량을 측정하지만, 예측 가능한 부분은 측정하지 않는다.
  • '''통신''': 통신 채널의 용량을 결정하는 데 중요한 역할을 한다.
  • '''암호학''': 암호 해독에서 엔트로피는 암호화 키의 예측 불가능성을 측정하는 지표로 사용된다.[24]
  • '''기계 학습''': 결정 트리 학습 알고리즘은 각 노드에서 데이터를 지배하는 의사 결정 규칙을 결정하기 위해 상대 엔트로피를 사용한다.[32]
  • '''조합론''': 셰러 부등식의 따름정리로 루미스-휘트니 부등식을 증명할 수 있는데, 이는 조합론 문제 해결에 정보 엔트로피가 활용되는 예시이다.[1]
  • '''수론''': 테렌스 타오는 에르되시 불일치 문제를 해결하려는 시도에서 엔트로피를 이용하여 유용한 연결을 맺었다.[28][29]

8. 1. 데이터 압축

섀넌의 부호화 정리에 따르면, 데이터 압축은 정보 엔트로피 개념을 기반으로 한다. 무손실 압축은 원본 데이터를 완벽하게 복원할 수 있도록 정보를 보존하면서 데이터 크기를 줄이는 방법이다.[21]

섀넌의 엔트로피 정의를 정보원에 적용하면, 이진수로 인코딩된 원본을 안정적으로 전송하는 데 필요한 최소 채널 용량을 결정할 수 있다. 섀넌의 엔트로피는 메시지에 포함된 정보량을 측정하지만, 메시지의 예측 가능한 부분은 측정하지 않는다. 최소 채널 용량은 이론적으로는 대표 집합을 사용하여, 또는 실제로는 허프만, 렘펠-지프 또는 산술 부호화를 사용하여 실현할 수 있다. 실제로 압축 알고리즘은 오류로부터 보호하기 위해 체크섬 형태로 일부 중복성을 의도적으로 포함한다.

압축 방식이 손실 없는 경우, 압축 해제를 통해 원본 메시지를 항상 복구할 수 있으며, 압축된 메시지는 원본과 동일한 양의 정보를 가지지만 더 적은 문자로 전달된다. 섀넌의 부호화 정리는 손실 없는 압축 방식이 평균적으로 메시지 비트당 1비트 이상의 정보를 압축할 수 없지만, 적절한 코딩 방식을 사용하면 메시지 비트당 1비트 미만의 정보량을 얻을 수 있다고 명시한다. 또한 섀넌의 정리는 손실 없는 압축 방식으로 모든 메시지를 단축할 수 없음을 의미한다.

2011년 ''Science''에 실린 연구에서는 2007년에 사용 가능한 가장 효과적인 압축 알고리즘을 기준으로 정보를 최적으로 압축하여 저장하고 전달할 수 있는 세계의 기술적 용량을 추정하여 기술적으로 사용 가능한 소스의 엔트로피를 추정했다.[22] 아래는 그 내용을 표로 정리한 것이다.

모든 수치는 엔트로피 압축된 엑사바이트 단위
정보 유형19862007
저장 용량2.6295
방송4321900
통신0.28165


8. 2. 통신

정보 엔트로피는 통신 채널의 용량을 결정하는 데 중요한 역할을 한다. 텍스트의 엔트로피를 정의하는 일반적인 방법은 텍스트의 마르코프 모델을 기반으로 한다. 0차 원천(각 문자는 이전 문자와 독립적으로 선택됨)의 경우, 이진 엔트로피는 다음과 같다.

:\Eta(\mathcal{S}) = - \sum p_i \log p_i ,

여기서 p_ii의 확률이다. 1차 마르코프 원천(문자 선택 확률이 바로 앞의 문자에만 의존하는 경우)의 경우, '''엔트로피율'''은 다음과 같다.

:\Eta(\mathcal{S}) = - \sum_i p_i \sum_j \ p_i (j) \log p_i (j) ,

여기서 i는 '''상태'''(특정 이전 문자들)이고 p_i(j)는 이전 문자가 i일 때 j의 확률이다.

2차 마르코프 원천의 경우, 엔트로피율은 다음과 같다.

:\Eta(\mathcal{S}) = -\sum_i p_i \sum_j p_i(j) \sum_k p_{i,j}(k)\ \log \ p_{i,j}(k) .

8. 3. 암호학

암호해독에서 엔트로피는 암호화 키의 예측 불가능성을 측정하는 지표로 종종 사용되지만, 실제 불확정성은 측정할 수 없다.[24] 예를 들어, 균일하고 무작위로 생성된 128비트 키는 128비트의 엔트로피를 가진다. 또한, 평균적으로 2^{127}번의 추측으로 무차별 대입 공격을 통해 해독할 수 있다. 가능한 키가 균일하게 선택되지 않은 경우 엔트로피는 필요한 추측 횟수를 포착하지 못한다.[25][26] 대신, "추측 작업"이라는 척도를 사용하여 무차별 대입 공격에 필요한 노력을 측정할 수 있다.

암호화에 사용되는 비균일 분포로 인해 다른 문제가 발생할 수 있다. 예를 들어, 배타적 논리합(XOR)을 사용하는 1,000,000자리 이진 원타임 패드를 생각해 보자. 패드가 1,000,000비트의 엔트로피를 가지면 완벽하다. 패드가 999,999비트의 엔트로피를 가지고 균일하게 분포되어 있다면 (패드의 각 비트가 0.999999비트의 엔트로피를 가짐) 좋은 보안을 제공할 수 있다. 그러나 패드가 999,999비트의 엔트로피를 가지고 첫 번째 비트가 고정되고 나머지 999,999비트가 완벽하게 무작위인 경우, 암호문의 첫 번째 비트는 전혀 암호화되지 않는다.

8. 4. 기계 학습

결정 트리 학습 알고리즘은 각 노드에서 데이터를 지배하는 의사 결정 규칙을 결정하기 위해 상대 엔트로피를 사용한다.[32] 결정 트리의 정보 이득은 특정 속성의 값을 추가적으로 알게 됨으로써 얻는 예상 정보, 즉 엔트로피 감소량을 정량화한다. 정보 이득은 데이터 세트에서 어떤 속성이 가장 많은 정보를 제공하며, 트리의 노드를 최적으로 분할하는 데 사용되어야 하는지를 식별하는 데 사용된다.

기계 학습에서의 분류로지스틱 회귀 또는 인공 신경망에 의해 수행되며, 종종 기준값과 예측된 분포 사이의 평균 교차 엔트로피를 최소화하는 교차 엔트로피 손실이라는 표준 손실 함수를 사용한다.[34]

8. 5. 조합론

셰러 부등식의 따름정리로 루미스-휘트니 부등식을 증명할 수 있는데, 이는 조합론 문제 해결에 정보 엔트로피가 활용되는 예시이다.[1]

루미스-휘트니 부등식은 다음과 같다. $A \subseteq \mathbb{Z}^d$인 모든 부분집합 $A$에 대해,

:|A|^{d-1} \leq \prod_{i=1}^{d} |P_{i}(A)|

여기서 $P_i$는 $i$번째 좌표에 대한 직교 사영이다.

:P_{i}(A) = \{(x_{1}, \ldots, x_{i-1}, x_{i+1}, \ldots, x_{d}):(x_{1}, \ldots, x_{d}) \in A\}.

이 증명은 셰러 부등식에서 간단하게 유도된다.[1] $X_1, \ldots, X_d$를 확률변수라 하고, $S_1, \ldots, S_n$을 ${1, \ldots, d}$의 부분집합이며, 1부터 $d$까지의 모든 정수가 이 부분집합들 중 정확히 $r$개에 속한다고 하자. 그러면 다음이 성립한다.[1]

:\Eta[(X_{1}, \ldots, X_{d})] \leq \frac{1}{r} \sum_{i=1}^{n} \Eta[(X_{j})_{j \in S_{i}}]

여기서 $(X_{j})_{j \in S_{i}}$는 인덱스 $j$가 $S_i$에 있는 확률변수 $X_j$들의 곱(카테시안 곱)이며, 이 벡터의 차원은 $S_i$의 크기와 같다.[1]

루미스-휘트니 부등식은 다음과 같이 유도할 수 있다. 먼저, $A$에서 값을 가지는 균등하게 분포된 확률변수 $X$를 생각한다. 이때, $A$의 각 점은 동일한 확률로 나타난다. 그러면 (엔트로피의 성질에 의해) $\Eta(X) = \log|A|$가 성립한다. 여기서 $|A|$는 $A$의 원소 개수를 나타낸다. $S_i = \{1, 2, \ldots, i-1, i+1, \ldots, d\}$라고 하면, $(X_{j})_{j \in S_{i}}$의 치역은 $P_i(A)$에 포함되므로, $\Eta[(X_{j})_{j \in S_{i}}] \leq \log|P_{i}(A)|$이다. 이를 셰러 부등식에 적용하고, 양변을 지수 함수로 변환하면 루미스-휘트니 부등식을 얻을 수 있다.[1]

8. 6. 수론

테렌스 타오는 에르되시 불일치 문제를 해결하려는 시도에서 엔트로피를 이용하여 유용한 연결을 맺었다.[28][29]

직관적으로 증명의 핵심 아이디어는 연속적인 확률 변수(여기서 확률 변수는 소수의 분포를 연구하는 데 유용한 수학 함수인 리우빌 함수 ''X''''H''|XH영어를 사용하여 정의됨) 사이의 섀넌 엔트로피 측면에서 정보량이 낮다면, 구간 [n, n+H]에서의 합이 임의로 커질 수 있다는 것이다. 예를 들어, +1의 수열(이는 ''X''''H''|XH영어이 취할 수 있는 값임)은 엔트로피가 자명하게 낮고, 그 합은 커진다. 그러나 핵심 통찰력은 H가 커짐에 따라 엔트로피가 무시할 수 없을 정도로 감소하는 것을 보이는 것이었는데, 이는 이 확률 변수에 대한 수학적 객체의 무한 성장과 에르되시 불일치 문제에 따른 무한 성장을 보이는 것과 동등하다.

이 증명은 매우 복잡하며, 섀넌 엔트로피의 새로운 활용뿐만 아니라 리우빌 함수와 [https://arxiv.org/pdf/1502.02374.pdf 변조된 승법 함수의 평균]을 짧은 구간에서 함께 사용하는 획기적인 발전을 이끌어냈다. 이를 증명하는 것은 또한 이 특정 문제에 대한 [https://terrytao.wordpress.com/2007/06/05/open-question-the-parity-problem-in-sieve-theory/ "패리티 장벽"]을 깨뜨렸다.

증명에서 섀넌 엔트로피의 사용은 새로운 것이지만, 이 방향으로 새로운 연구를 열 것으로 예상된다.

9. 역사

1865년 루돌프 클라우지우스는 "엔트로피" 개념을 그리스어 "변환"을 의미하는 단어를 어원으로 하여 열역학에서 기체의 어떤 상태량으로 도입했다. 이는 통계역학에서 미시적인 상태 수의 로그에 비례하는 양으로 표현된다. 1929년 레오 칠라드는 기체에 대한 정보를 관찰자가 획득하는 것과 통계역학에서의 엔트로피 사이에 직접적인 관계가 있음을 보여주었고, 현재 1비트(1섀넌)이라고 부르는 양이 통계역학에서 *k* ln 2에 대응한다는 관계를 유도했다.[39]

1948년 클로드 섀넌은 논문 『통신의 수학적 이론』에서 엔트로피 개념을 정보이론에 직접적으로 도입하여 응용했다. 섀넌은 열통계역학에서 이 개념과 관련된 개념이 이미 사용되고 있다는 것을 모르고 이 정의에 도달했지만, 명칭을 고민하던 중 동료 폰 노이만이 열통계역학의 엔트로피와 비슷하다는 점에서 제안했다. 폰 노이만은 "통계 엔트로피가 무엇인지 이해하는 사람은 적으므로, 논쟁이 되면 유리할 것이다"라고 말했다고 한다.[40][41] 그러나 섀넌은 폰 노이만과의 대화는 인정하면서도 그 영향은 부정하고 있다.[42]

섀넌 이전에도 랄프 하틀리가 1928년에 집합 *A*에 대해 \log \# A|로그 넘버 A영어라는 양을 고찰했다(" \#A"는 *A*의 원소 수). \log \# A|로그 넘버 A영어는 *A* 위의 균일 분포의 엔트로피와 일치한다. 현재는 \log \# A|로그 넘버 A영어를 *A*의 '''하틀리 엔트로피'''라고 부른다.[43]

참조

[1] 서적 Statistical Mechanics https://books.google[...] Academic Press 2011
[2] 논문 A Mathematical Theory of Communication https://web.archive.[...] 1948-07-01
[3] 논문 A Mathematical Theory of Communication https://web.archive.[...] 1948-10-01
[4] 웹사이트 Entropy (for data science) Clearly Explained!!! https://www.youtube.[...] 2021-10-05
[5] 서적 Information Theory, Inference, and Learning Algorithms http://www.inference[...] Cambridge University Press 2014-06-09
[6] 서적 Applied Cryptography John Wiley and Sons
[7] 서적 Fundamentals in Information Theory and Coding https://books.google[...] Springer
[8] 서적 Mathematics of Information and Coding https://books.google[...] American Mathematical Society
[9] 간행물 Information theory primer with an appendix on logarithms http://alum.mit.edu/[...] National Cancer Institute 2007-04-14
[10] 문서 Entropy
[11] 간행물 An introduction to information theory and entropy http://csustan.csust[...] 2017-08-04
[12] 논문 Shannon entropy: axiomatic characterization and application https://arxiv.org/pd[...] 2005
[13] 논문 Logical Information Theory: New Logical Foundations for Information Theory http://philsci-archi[...] 2022-11-02
[14] 논문 Why the Shannon and Hartley entropies are 'natural' 1974
[15] 서적 Elements of Information Theory Wiley 1991
[16] 서적 Lectures on gas theory Dover 1995
[17] 서적 Geometry of Quantum States: An Introduction to Quantum Entanglement Cambridge University Press
[18] 논문 Translation of Ludwig Boltzmann's Paper "On the Relationship between the Second Fundamental Theorem of the Mechanical Theory of Heat and Probability Calculations Regarding the Conditions for Thermal Equilibrium" 2015
[19] 논문 Information Theory and Statistical Mechanics https://link.aps.org[...] 1957-05-15
[20] 논문 Irreversibility and Heat Generation in the Computing Process https://ieeexplore.i[...] 2021-12-15
[21] 웹사이트 The Hutter Prize http://marknelson.us[...] 2008-11-27
[22] 뉴스 The World's Technological Capacity to Store, Communicate, and Compute Information http://www.sciencema[...] 2011
[23] 논문 A tribute to Claude Shannon (1916–2001) and a plea for more rigorous use of species richness, species diversity and the 'Shannon–Wiener' Index 2003
[24] 학회자료 Guessing and Entropy http://www.isiweb.ee[...] 2013-12-31
[25] 학회자료 Guesswork is not a Substitute for Entropy http://www.maths.tcd[...] 2013-12-31
[26] 학회자료 Selected Areas in Cryptography
[27] 간행물 Indices of Qualitative Variation https://www.osti.gov[...] 1967
[28] 웹사이트 A Magical Answer to an 80-Year-Old Puzzle https://www.quantama[...] 2014-08-18
[29] 논문 The Erdős discrepancy problem https://discreteanal[...] 2023-09-20
[30] 서적 New Approaches to Macroeconomic Modeling
[31] 서적 Probability and Computing Cambridge University Press
[32] 서적 Nature Inspired Computing Springer 2021-12-16
[33] 논문 Prior Probabilities https://ieeexplore.i[...] 2021-12-16
[34] 서적 The Cross-Entropy Method: A Unified Approach to Combinatorial Optimization, Monte-Carlo Simulation and Machine Learning https://books.google[...] Springer Science & Business Media 2013-03-09
[35] 문서 This definition allows events with probability 0, resulting in the undefined \log(0). We do see \lim\limits_{x\rightarrow0}x\log(x)=0 and it can be assumed that 0\log(0) equals 0 in this context. Alternatively one can define p\colon \mathcal{X}\to(0, 1], not allowing events with probability equal to exactly 0.
[36] 서적 Entropy and Information Theory https://books.google[...] Springer Science & Business Media 2013-03-14
[37] 서적 Elements of Information Theory https://books.google[...] John Wiley & Sons 2012-11-28
[38] 문서 수학 공식
[39] 저널 Über die Entropieverminderung in einem Thermodynamischen System bei Eingriffen Intelligenter Wesen
[40] 서적 ファインマン計算機科学
[41] 서적 情報と符号の数理
[42] 웹사이트 CLAUDE E. SHANNON: An Interview Conducted by Robert Price, 28 July 1982 http://www.ieeeghn.o[...]
[43] 문서 JIS X 0016:1997 선택 정보량
[44] 저널 A Mathematical Theory of Communication http://web.archive.o[...] 1948-07-01
[45] 웹사이트 엔트로피 & 정보 이득,Entropy & Information Gain https://deeplearning[...] 2017-08-19
[46] 저널 Information Theory and Statistical Mechanics http://bayes.wustl.e[...]
[47] 웹사이트 Realated Paper: Vesselin I. Dimitrov, 'On Shannon-Jaynes Entropy and Fisher Information' http://arxiv.org/ftp[...]



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com