최대 엔트로피 원리
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
최대 엔트로피 원리는 1957년 E. T. 제인스에 의해 처음 제시되었으며, 통계역학과 정보 이론 사이의 관계를 강조한다. 이 원리는 테스트 가능한 정보에 적용되며, 정보의 제약 조건에 따라 정보 엔트로피를 최대화하는 확률 분포를 찾는 것으로 구성된다. 최대 엔트로피 원리는 사전 확률 분포를 얻고, 모델을 구체화하며, 밀도를 추정하는 데 활용된다. 물리학에서는 기체 운동론의 분자 무질서와 관련이 있으며, 맥스웰 분포와 엔트로피 증대 법칙을 설명하는 데 사용된다.
더 읽어볼만한 페이지
- 정보 엔트로피 - 교차 엔트로피
교차 엔트로피는 동일한 이벤트 공간에서 정의된 두 확률 분포 간의 차이를 측정하는 척도로, 한 확률 분포 p에 대해 다른 확률 분포 q를 사용하여 특정 사건을 식별하는 데 필요한 평균 비트 수를 나타내며, 기계 학습에서 손실 함수를 정의하고 분류 문제에서 모델 성능 평가 및 개선에 활용된다. - 정보 엔트로피 - 쿨백-라이블러 발산
쿨백-라이블러 발산은 두 확률 분포의 차이를 측정하는 비대칭적인 척도로, 정보 이론, 통계학, 기계 학습 등에서 활용되며, 두 분포가 동일할 때만 0의 값을 갖는다. - 베이즈 통계학 - 주관주의
주관주의는 현실이 인식에 의존한다는 철학적 입장으로, 형이상학에서는 궁극적 실재가 인식에 달려있다고 보며, 윤리학에서는 윤리적 판단이 개인의 태도에 따라 달라진다고 보고, 확률론에서는 확률을 개인의 신념으로 해석한다. - 베이즈 통계학 - 사후 확률
사후 확률은 베이즈 통계학에서 증거가 주어졌을 때 모수의 확률을 나타내며, 베이즈 정리를 통해 계산하고, 사전 확률을 갱신하여 사후 확률 분포를 얻는 데 활용된다.
최대 엔트로피 원리 | |
---|---|
개요 | |
유형 | 물리, 정보 이론, 추론 |
하위 분야 | 베이즈 확률, 통계역학, 기계 학습 |
관련 주제 | 베이즈 추론, 최대 엔트로피 열역학, 최대우도 추정, 최소 기술 길이, 정보 이론 |
상세 내용 | |
설명 | 주어진 제약 조건 하에서 확률 분포를 추정하는 방법. 추가 정보가 없을 경우, 모든 결과가 동등하게 가능하다고 가정함 |
관련 과학 분야 | 물리학 정보 이론 통계학 추론 |
목표 | 주어진 정보 외에는 어떠한 가정도 하지 않고 확률 분포를 찾는 것 |
특징 | 사전 지식이나 가정 없이 확률 분포를 추정 정보 부족 시 유용한 방법 |
활용 | |
응용 분야 | 이미지 재구성 스펙트럼 분석 밀도 추정 베이즈 실험 설계 기계 학습 자연어 처리 텍스트 요약 운송 계획 지구 물리학 화학 |
2. 역사
E. T. 제인스는 1957년에 발표한 두 편의 논문에서 최대 엔트로피 원리를 처음으로 설명했다.[1][2] 그는 특히 통계역학과 정보 이론 사이의 자연스러운 관계를 강조했다. 제인스는 통계역학의 깁스 방식을 옹호하면서, 통계역학의 엔트로피와 정보 이론의 정보 엔트로피가 동일한 개념이라고 주장했다. 결과적으로, 그는 통계역학을 일반적인 논리적 추론 및 정보 이론 도구의 특정 응용 분야로 간주해야 한다고 보았다.
최대 엔트로피 원리는 1957년 E. T. 제인스가 발표한 두 편의 논문에서 처음으로 설명되었다.[1][2] 그는 통계역학과 정보 이론 사이의 관계를 강조하며, 통계역학의 엔트로피와 정보 이론의 정보 엔트로피가 동일한 개념이라고 주장했다. 이는 통계역학을 일반적인 논리적 추론 및 정보 이론 도구의 특정 응용 분야로 간주할 수 있게 한다.
3. 이론적 배경
확률 변수 X에 대해 조건 I를 만족한다는 것 외에 아무것도 모를 때, 조건 I 하에서 X의 "불확실성"이 최대가 되는 분포를 선택하는 것이 적절하다. "불확실성"을 측정하는 척도인 엔트로피를 조건 I 하에서 최대화하도록 분포를 선택하는 것이 최대 엔트로피 원리이다. X가 취하는 값이 연속적인 경우에는 미분 엔트로피가 아닌 상대 엔트로피를 최대화한다.
확률 변수 X가 따르는 분포의 밀도 함수를 p(x)라 하고, m(x)를 확률 분포의 밀도 함수라고 할 때, p(x)의 m(x)에 대한 '''상대 엔트로피'''는 다음과 같이 정의된다.
:
일반적인 샤논 엔트로피는 X의 값역 I가 유한 집합이고, m(x)가 I 상의 균등 분포인 경우의 상대 엔트로피와 일치한다.
X를 실수 값 확률 변수로 하고, Tk(X)의 기대값이 tk라고 가정하면, 다음 조건 하에서 상대 엔트로피를 최대화하는 분포의 확률 밀도 함수 p(x)는 다음과 같다.
:
여기서 Z(λ1, …, λm)는 정규화 상수이고, λ1, …, λm는 라그랑주 승수법에서의 라그랑주 승수이다.
최대 엔트로피 원리에서는 m(x)를 이미 알고 있는 것으로 취급하므로, m(x)는 최대 엔트로피 원리로는 결정할 수 없다. 따라서 다른 논리적 방법으로 결정해야 한다.
최대 엔트로피 원리는 확률 변수 X가 매우 자연스러운 방식으로 얻어지는 "사고 실험"을 통해 그 실험 결과가 최대 엔트로피 원리와 일치함을 보여준다. 이 주장은 그레이엄 월리스(Graham Wallis)가 E.T. 자인스(E.T. Jaynes)에게 제안한 것으로, 통계 역학에서 맥스웰 분포를 유도하는 방법과 동일하지만, 개념적인 의미는 다르다.
3. 1. 테스트 가능한 정보
대부분의 실제 사례에서, 언급된 이전 데이터 또는 테스트 가능한 정보는 해당 확률 분포와 관련된 보존된 양 (일부 모멘트 함수의 평균값) 집합으로 제공된다. 이것이 최대 엔트로피 원리가 통계적 열역학에서 가장 자주 사용되는 방식이다. 또 다른 가능성은 확률 분포의 일부 대칭을 규정하는 것이다. 보존된 양과 해당 대칭 그룹 간의 동등성은 최대 엔트로피 방법에서 테스트 가능한 정보를 지정하는 이 두 가지 방법에 대한 유사한 동등성을 의미한다.[3]
다양한 방법, 특히 통계 역학 및 논리적 추론으로 얻은 확률 할당의 고유성과 일관성을 보장하려면 최대 엔트로피 원리도 필요하다.[3]
최대 엔트로피 원리는 다양한 형태의 이전 데이터를 사용하는 데 있어 우리의 자유를 분명히 한다. 특별한 경우로 균일한 사전 확률 밀도(라플라스의 무차별 원칙, 때로는 불충분한 이유의 원칙이라고도 함)가 채택될 수 있다. 따라서 최대 엔트로피 원리는 고전 통계의 일반적인 추론 방법을 보는 대안적인 방법일 뿐만 아니라 이러한 방법의 중요한 개념 일반화를 나타낸다.[3]
일반 언어에서 최대 엔트로피의 원리는 인식적 겸손 또는 최대 무지의 주장을 표현한다고 말할 수 있다. 선택된 분포는 명시된 이전 데이터 이상으로 정보를 가장 적게 받는 분포, 즉 명시된 이전 데이터 이상으로 가장 무지를 인정하는 분포이다.[3]
최대 엔트로피 원리는 ''테스트 가능한 정보''에만 명시적으로 적용될 때 유용하다. 테스트 가능한 정보는 진실 여부가 명확하게 정의된 확률 분포에 대한 진술이다. 예를 들어,
는 테스트 가능한 정보에 대한 진술이다.[3]
테스트 가능한 정보가 주어지면, 최대 엔트로피 절차는 정보의 제약 조건에 따라 정보 엔트로피를 최대화하는 확률 분포를 찾는 것으로 구성된다. 이 제약된 최적화 문제는 일반적으로 라그랑주 승수 방법을 사용하여 해결된다.[3]
테스트 가능한 정보가 없는 엔트로피 최대화는 확률의 합이 1이라는 보편적인 "제약"을 존중한다. 이 제약 조건 하에서, 최대 엔트로피 이산 확률 분포는 균등 분포이다.[3]
:
3. 2. 상대 엔트로피
연속 확률 분포의 경우, 섀넌 엔트로피는 이산 확률 공간에 대해서만 정의되므로 사용할 수 없다. 대신, 에드윈 제인스는 다음 공식을 제시했는데, 이는 상대 엔트로피(미분 엔트로피 참조)와 밀접한 관련이 있다.[11]
:
여기서 ''q''(''x'')는 제인스가 "불변 척도"라고 부른 것으로, 이산 점의 제한 밀도에 비례한다.
상대 엔트로피는 일반적으로 ''q''에 대한 ''p''의 쿨백-라이블러 발산으로 정의된다(혼란스럽게도 이 값의 음수로 정의되기도 한다).
확률 변수 가 따르는 분포의 밀도 함수를 라 하고, 를 확률 분포(또는 더 일반적으로 비음의 측도)의 밀도 함수라고 할 때, 의 에 대한 '''상대 엔트로피'''는
:
로 정의된다[11]. (가 확률 분포일 경우, 상대 엔트로피는 쿨백-라이블러 발산과 일치).
한편, 일반적인 샤논 엔트로피
:
는 의 값역 가 유한 집합이고, 가 상의 균등 분포인 경우의 상대 엔트로피와 일치한다.
3. 3. 불변 척도
에드윈 제인스는 연속 확률 분포에 대해 섀넌 엔트로피 대신 다음 공식을 사용했다.[11]
:
여기서 ''q''(''x'')는 제인스가 "불변 척도"라고 불렀으며, 이산 점의 제한 밀도에 비례한다.
어떤 구간의 값을 갖는 양 ''x''에 대한 테스트 가능한 정보 ''I''가 있고, 이 정보가 함수 ''fk''의 기대값에 대한 ''m''개의 제약 조건 형태를 갖는다고 가정한다. 즉, 확률 밀도 함수는 다음 부등식(또는 등식) 모멘트 제약 조건을 충족해야 한다.
:
여기서 는 관측 가능량이다. 또한 확률 밀도는 1로 적분되어야 한다.
이러한 제약 조건을 받는 최대 ''Hc''를 갖는 확률 밀도 함수는 다음과 같다.[11]
:
분배 함수는 다음과 같다.
:
모든 모멘트 제약 조건이 등식인 경우 매개변수 값은 다음 비선형 방정식 시스템에 의해 결정된다.
:
부등식 모멘트 제약 조건의 경우 라그랑주 승수는 볼록 최적화 프로그램의 해에서 결정된다.[11]
불변 척도 함수 ''q''(''x'')는 ''x''가 유계 구간(''a'', ''b'')에서만 값을 가지며 다른 정보가 주어지지 않는 경우, 최대 엔트로피 확률 밀도 함수는 다음과 같다.
:
여기서 ''A''는 정규화 상수이다. 불변 척도 함수는 '관련 정보 부족'을 나타내는 사전 밀도 함수이며, 변환 그룹의 원리 또는 주변화 이론과 같은 다른 논리적 방법에 의해 결정되어야 한다.
4. 선형 제약 조건이 있는 최대 엔트로피 분포
{''x1'', ''x2'', ..., ''xn''} 값을 가지는 수량 ''x''에 대해, 함수 ''fk''의 기댓값에 대한 ''m''개의 제약 조건, 즉 모멘트 부등식/등식 제약 조건 형태의 테스트 가능한 정보가 있다고 가정한다.
:
여기서 는 관측값이다. 또한 확률의 합은 1이 되어야 한다.
:
이러한 제약 조건에서 최대 정보 엔트로피를 갖는 확률 분포는 다음과 같다.[20]
:
여기서 는 깁스 분포의 매개변수이다. 분배 함수라고 하는 정규화 상수는 다음과 같이 결정된다.
:
매개변수는 라그랑주 승수이다. 등식 제약 조건의 경우, 이 값은 다음 비선형 방정식의 해로 결정된다.
:
부등식 제약 조건의 경우, 라그랑주 승수는 선형 제약 조건이 있는 볼록 최적화 프로그램의 해에서 결정된다.[20] 일반적으로 폐쇄형 해가 없어 수치적 방법으로 계산해야 한다.
연속 분포의 경우, 섀넌 엔트로피는 이산 확률 공간에 대해서만 정의되므로, 에드윈 제인스는 상대 엔트로피(미분 엔트로피 참조)와 유사한 다음 공식을 제시했다.
:
여기서 ''q''(''x'')는 이산 점의 제한 밀도에 비례하는 "불변 측정"이다.
실수의 일부 구간에서 값을 취하는 수량 ''x''에 대해, 함수 ''fk''의 기댓값에 대한 ''m''개의 제약 조건 형태의 테스트 가능한 정보가 주어지고, 확률 밀도 함수가 부등식/등식 모멘트 제약 조건을 만족해야 한다고 가정한다.
:
여기서 는 관측값이며, 확률 밀도는 1로 적분되어야 한다.
:
이 제약 조건에서 최대 ''Hc''를 갖는 확률 밀도 함수는 다음과 같다.[21]
:
분배 함수는 다음과 같다.
:
모든 모멘트 제약 조건이 등식인 경우 매개변수는 다음 비선형 방정식 시스템으로 결정된다.
:
부등식 모멘트 제약 조건의 경우, 라그랑주 승수는 볼록 최적화 프로그램의 해에서 결정된다.[21]
4. 1. 일반 해
x영어가 {''x1'', ''x2'',..., ''xn''}의 값을 취하는 수량일 때, 함수 fk영어의 기댓값에 대한 ''m''개의 제약 조건 형태의 테스트 가능한 정보 ''I''가 있다고 가정한다. 즉, 확률 분포가 다음의 모멘트 부등식/등식 제약 조건을 만족해야 한다.:
여기서 는 관측 가능한 값이다. 또한 확률 밀도의 합이 1이 되어야 한다.
:
이러한 제약 조건 하에서 최대 정보 엔트로피를 갖는 확률 분포는 다음과 같은 형태를 갖는다.[20]
:
여기서 는 특정 값이며, 깁스 분포라고도 한다. 정규화 상수 는 다음과 같이 결정된다.
:
이는 일반적으로 분배 함수라고 불린다. 피트만-쿠프만 정리에 따르면, 제한된 차원의 충분 통계량을 허용하기 위한 샘플링 분포의 필요충분조건은 최대 엔트로피 분포의 일반적인 형태를 가져야 한다.
λk 매개변수는 라그랑주 승수이다. 등식 제약 조건의 경우, 그 값은 다음 비선형 방정식의 해에서 결정된다.
:
부등식 제약 조건의 경우, 라그랑주 승수는 선형 제약 조건이 있는 볼록 최적화 프로그램의 해에서 결정된다.[20] 두 경우 모두 폐쇄형 해가 없으며, 라그랑주 승수의 계산에는 일반적으로 수치적 방법이 필요하다.
연속 분포의 경우, 섀넌 엔트로피는 이산 확률 공간에 대해서만 정의되므로 사용할 수 없다. 대신 에드윈 제인스는 상대 엔트로피(미분 엔트로피 참조)와 밀접한 관련이 있는 다음 공식을 제공했다.
:
여기서 q(''x'')영어는 이산 점의 제한 밀도에 비례하는, 제인스가 "불변 측정"이라고 불렀던 것이다. 지금은 ''q''가 알려져 있다고 가정하고, 솔루션 방정식이 주어진 후에 더 논의한다.
상대 엔트로피는 일반적으로 ''q''에서 ''p''의 쿨백-라이블러 발산으로 정의된다(때로는 혼란스럽게도 이것의 음수로 정의됨). 쿨백의 최소 차별 정보 원리는 이를 최소화하는 추론 원리이다.
실수의 일부 구간에서 값을 취하는 수량 x영어에 대한 테스트 가능한 정보 ''I''가 있다고 가정한다. 이 정보는 함수 fk영어의 기댓값에 대한 ''m''개의 제약 조건 형태를 갖는다. 즉, 확률 밀도 함수가 다음 부등식(또는 순수 등식) 모멘트 제약 조건을 충족해야 한다.
:
여기서 는 관측 가능한 값이다. 또한 확률 밀도를 1로 적분해야 한다.
:
이러한 제약 조건 하에서 최대 Hc영어를 갖는 확률 밀도 함수는 다음과 같다.[21]
:
분배 함수는 다음과 같다.
:
이산 경우와 마찬가지로, 모든 모멘트 제약 조건이 등식인 경우 매개변수는 다음 비선형 방정식 시스템에 의해 결정된다.
:
부등식 모멘트 제약 조건이 있는 경우 라그랑주 승수는 볼록 최적화 프로그램의 해에서 결정된다.[21]
4. 2. 라그랑주 승수법
Lagrange multiplier영어는 제약 조건이 있는 최적화 문제에서 사용되는 방법이다. 주어진 문제에서 확률 분포 ''p(x)''는 다음과 같은 형태를 갖는다.[20]:
여기서 는 라그랑주 승수이며, 깁스 분포라고도 한다. 정규화 상수 는 다음과 같이 결정된다.
:
이는 일반적으로 파티션 함수라고 불린다.
등식 제약 조건의 경우, λk 매개변수는 다음 비선형 방정식의 해에서 결정된다.
:
부등식 제약 조건의 경우, 라그랑주 승수는 선형 제약 조건이 있는 볼록 최적화 프로그램의 해에서 결정된다.[20]
두 경우 모두, 폐쇄형 해는 없으며, 라그랑주 승수의 계산에는 일반적으로 수치적 방법이 필요하다.
연속 분포의 경우, 섀넌 엔트로피는 이산 확률 공간에 대해서만 정의되므로, 에드윈 제인스는 상대 엔트로피와 밀접한 관련이 있는 다음 공식을 제공했다.[21]
:
여기서 ''q''(''x'')는 "불변 측정"이라고 불리며, 이산 점의 제한 밀도에 비례한다.
실수의 일부 간격에서 값을 취하는 수량 ''x''에 대한 제약 조건 하에서, 최대 Hc를 갖는 확률 밀도 함수는 다음과 같다.[11]
:
여기서 파티션 함수는 다음과 같다.
:
모든 모멘트 제약 조건이 등식인 경우, 매개변수는 다음 비선형 방정식 시스템에 의해 결정된다.
:
부등식 모멘트 제약 조건의 경우, 라그랑주 승수는 볼록 최적화 프로그램의 해에서 결정된다.[11]
''x''가 유계 구간 (''a'', ''b'')에서만 값을 가지며 다른 정보가 주어지지 않는 경우, 최대 엔트로피 확률 밀도 함수는 다음과 같다.
:
여기서 ''A''는 정규화 상수이다. 불변 척도 함수 ''q''(''x'')는 '관련 정보 부족'을 나타내는 사전 밀도 함수이며, 최대 엔트로피 원리로는 결정할 수 없고, 변환 그룹의 원리 또는 주변화 이론과 같은 다른 논리적 방법으로 결정되어야 한다.
확률 변수 ''X''에 대해 조건 ''I''만 알고 있을 때, 최대 엔트로피 원리는 ''X''의 "불확실성"이 최대가 되는 분포를 선택하는 것이 적절하다고 본다. 이 "불확실성"을 측정하는 척도가 엔트로피이며, 조건 ''I'' 하에서 엔트로피를 최대화하는 분포를 선택해야 한다.
''X''가 따르는 확률 분포를 '''p'''라고 할 때, 구속 조건 ''I''가 다음과 같은 방정식 형태로 표현될 수 있다.
:
이러한 제한된 최적화 문제는 일반적으로 라그랑주 승수법으로 해결할 수 있다.
실수 값 확률 변수 ''X''와 실수 값 함수 ''Tk'', 실수 ''tk'' (''k''=1,...,''m'')에 대해, ''Tk(X)''의 기대값이 ''tk''이고 확률의 총합이 1이라는 조건 하에서, 상대 엔트로피를 최대화하는 분포의 확률 밀도 함수 ''p(x)''는 다음과 같다.
:
여기서 는 정규화 상수이며, 다음과 같이 정의된다.
:
''λ''1,..., ''λm''는 라그랑주 승수이며, 다음 연립 방정식을 만족하는 값으로 결정된다.
:
이 연립 방정식은 일반적으로 수치 해석으로 풀린다.
최대 엔트로피 원리에서 ''m''(''x'')는 이미 알고 있는 값으로 취급되므로, 다른 논리적 방법으로 결정해야 한다.
5. 최대 엔트로피 원리의 정당화
최대 엔트로피 원리는 통계 역학 및 논리적 추론에서 얻은 확률 할당의 고유성과 일관성을 보장하기 위해 필요하다.
최대 엔트로피 원리는 다양한 형태의 이전 데이터를 사용하는 데 있어 자유를 명확히 한다. 균일한 사전 확률 밀도(라플라스의 무차별 원칙)를 특별한 경우로 채택할 수 있다. 따라서 최대 엔트로피 원리는 고전 통계의 일반적인 추론 방법을 보는 대안적인 방법이자 중요한 개념 일반화이다.
최대 엔트로피 원리의 지지자들은 베이즈 확률을 사용하며, 확률 할당에 엔트로피 사용을 정당화한다.
확률 변수 X가 조건 I를 만족한다는 것 외에 다른 정보를 모를 때, X의 분포는 조건 I 하에서 "불확실성"( 엔트로피)을 최대화하는 것이 적절하다. 연속적인 경우 미분 엔트로피 대신 상대 엔트로피를 최대화한다.
확률 변수 ''X''가 자연스러운 방식으로 얻어진다는 "사고 실험"은 그 결과가 최대 엔트로피 원리와 일치함을 보여준다.
X의 확률 분포를 '''p'''라 할 때, 구속 조건 I는
:
와 같은 '''p'''에 관한 방정식 형태로 표현 가능하다. 이러한 제한된 최적화 문제는 라그랑주 승수법으로 풀 수 있다.
5. 1. 인식적 겸손
일반적으로 최대 엔트로피 원리는 인식적 겸손 또는 최대 무지의 주장을 표현한다고 할 수 있다. 선택된 분포는 명시된 이전 데이터 이상으로 정보를 가장 적게 받는 분포, 즉 명시된 이전 데이터 이상으로 가장 무지를 인정하는 분포이다.개의 명제 중에서 서로 배타적인 '''이산 확률 분포'''를 생각해 보자. 가장 많은 정보를 담고 있는 분포는 명제 중 하나가 참인 것으로 알려져 있을 때 발생하며, 이 경우 정보 엔트로피는 0과 같다. 가장 적은 정보를 담고 있는 분포는 어떤 명제도 다른 명제보다 우위에 있다고 할 이유가 없을 때 발생한다. 이 경우 유일하게 합리적인 확률 분포는 균등 분포이며, 정보 엔트로피는 가능한 최대 값인 과 같다. 따라서 정보 엔트로피는 0(완전한 정보)에서 (완전한 무정보)까지의 범위에서 특정 확률 분포가 얼마나 무정보인지를 나타내는 수치적 척도로 볼 수 있다.
우리가 가진 정보로 허용되는 최대 엔트로피를 가진 분포를 선택함으로써, 가장 무정보적인 분포를 선택하는 것이라는 주장이 이어진다. 엔트로피가 더 낮은 분포를 선택하는 것은 우리가 갖고 있지 않은 정보를 가정하는 것이다. 따라서 최대 엔트로피 분포가 유일하게 합리적인 분포이다. 그러나 로 표현되는 지배 측도에 대한 [http://projecteuclid.org/euclid.ba/1340370710 해의 의존성]은 이 지배 측도가 실제로 임의적이기 때문에 이 접근법에 대한 비판의 원천이 된다.
5. 2. 월리스 유도 (Wallis derivation)
다음은 1962년 그레이엄 월리스(Graham Wallis)가 E. T. 자인스(E. T. Jaynes)에게 제안한 내용의 결과이다. 이는 통계역학에서 맥스웰-볼츠만 통계에 사용된 것과 동일한 수학적 논증이지만, 개념적인 강조점이 다르다. 이 유도는 '불확실성'이나 '무정보성'과 같이 부정확하게 정의된 개념의 척도로서 정보 엔트로피를 언급하지 않고, 엄격하게 조합론적인 특성을 갖는다는 장점이 있다. 정보 엔트로피 함수는 ''사전적(a priori)''으로 가정되지 않고, 논증 과정에서 발견된다. 이 논증은 정보 엔트로피를 다른 방식으로 다루는 대신, 자연스럽게 정보 엔트로피를 최대화하는 절차로 이어진다.어떤 개인이 개의 상호 배타적 명제들 중에서 확률 할당을 하려고 할 때, 몇 가지 테스트 가능한 정보를 가지고 있지만, 이 정보를 자신의 확률 평가에 어떻게 포함시켜야 할지 확신하지 못하는 경우를 가정한다. 그는 다음과 같은 무작위 실험을 고안한다. 개의 확률 퀀타(각각 의 가치)를 개의 가능성들 사이에 무작위로 분배한다. (최대한 공정성을 유지하기 위해, 각 던지기는 다른 던지기와 독립적이어야 하며, 모든 바구니는 동일한 크기여야 한다.) 실험이 완료되면, 이렇게 얻은 확률 할당이 자신의 정보와 일치하는지 확인한다. 만약 일치하지 않으면, 그것을 거부하고 다시 시도한다. 만약 일치한다면, 그의 평가는 다음과 같다.
:
여기서 는 번째 명제의 확률이며, ''ni''는 번째 명제에 할당된 퀀타의 수이다.
확률 할당의 '입자성'을 줄이기 위해, 상당히 많은 수의 확률 퀀타를 사용해야 한다. 다소 긴 무작위 실험을 실제로 수행하는 대신, 가장 확률이 높은 결과를 계산하고 사용하기로 결정한다. 임의의 특정 결과의 확률은 다항 분포이다.
:
여기서
:
는 때때로 결과의 중복도로 알려져 있다.
가장 확률이 높은 결과는 중복도 를 최대화하는 것이다. 를 직접 최대화하는 대신, 의 단조 증가 함수를 동등하게 최대화할 수 있다. 다음을 최대화한다.
:
이 시점에서, 식을 단순화하기 위해, 의 극한을 취한다. 즉, 확률 수준이 입자성의 이산 값에서 부드러운 연속 값으로 바뀐다. 스털링 근사를 사용하면, 다음을 얻는다.
:
결과적으로 테스트 가능한 정보의 제약 조건 하에서 엔트로피를 최대화하면 된다. 최대 엔트로피 분포는 확률 수준이 이산에서 연속으로 바뀔 때, 모든 "공정한" 무작위 분포 중에서 가장 확률이 높다는 것을 발견했다.
5. 3. 베이즈 정리와의 호환성
기핀(Giffin)과 카티차(Caticha) (2007)는 베이즈 정리와 최대 엔트로피 원리가 완전히 호환되며 "최대 상대 엔트로피 방법"의 특수한 경우로 볼 수 있다고 주장한다. 이들은 이 방법이 정통 베이즈 추론 방법의 모든 측면을 재현한다고 말한다. 또한, 이 새로운 방법은 최대 엔트로피 원리나 정통 베이즈 방법만으로는 개별적으로 해결할 수 없었던 문제에 접근할 수 있는 길을 열어준다. 게다가 최근 연구 (Lazar 2003, Schennach 2005)는 빈도주의적 상대 엔트로피 기반 추론 방식 (예: 경험적 우도 및 지수 기울어진 경험적 우도 - 예: Owen 2001 및 Kitamura 2006 참조)이 사전 정보와 결합하여 베이즈 사후 분석을 수행할 수 있음을 보여준다.제인스(Jaynes)는 베이즈 정리가 확률을 계산하는 방법인 반면, 최대 엔트로피는 사전 확률 분포를 할당하는 방법이라고 말했다.
그러나 어떠한 베이즈적 고려 없이도, 문제를 제약 최적화 문제로 공식적으로 취급하여, 최소 교차 엔트로피 원리(주어진 사전 분포로 균등 분포를 사용하는 최대 엔트로피 원리의 특수한 경우)를 사용하여, 명시된 사전 분포로부터 사후 분포를 직접적으로 해결하는 것이 개념적으로 가능하다. 엔트로피 범함수는 목적 함수이다. 주어진 평균값을 테스트 가능한 정보로 갖는 경우 (구해진 확률 분포에 대해 평균), 구해진 분포는 공식적으로 깁스 (또는 볼츠만) 분포이며, 최소 교차 엔트로피를 달성하고 주어진 테스트 가능한 정보를 충족시키기 위해 그 매개변수를 풀어야 한다.
6. 응용
최대 엔트로피 원리는 추론 문제에 일반적으로 두 가지 방식으로 적용된다.
- 베이즈 추론을 위한 사전 확률 분포 획득: 제인스는 최대 엔트로피 분포가 가장 정보가 적은 분포를 나타낸다고 주장하며 이 접근 방식을 옹호했다.[14] 많은 문헌들이 최대 엔트로피 사전 확률과 채널 코딩과의 연결을 다루고 있다.[15][16][17][18]
- 모델 사양: 관찰된 데이터 자체가 테스트 가능한 정보로 가정된다. 이러한 모델은 자연어 처리에 널리 사용된다. 로지스틱 회귀가 대표적인 예시이며, 이는 독립적인 관찰에 대한 최대 엔트로피 분류기에 해당한다.
최대 엔트로피 원리의 주요 응용 분야 중 하나는 이산 및 연속 밀도 추정이다.[20][21] 서포트 벡터 머신 추정기와 유사하게, 최대 엔트로피 원리는 이차 계획법 문제에 대한 해를 요구할 수 있으므로 최적의 밀도 추정기로 희소 혼합 모델을 제공한다. 이 방법의 주요 장점은 밀도 추정에 사전 정보를 통합할 수 있다는 것이다.[22]
6. 1. 사전 확률 및 사후 확률
최대 엔트로피 원리는 베이즈 추론에서 사전 확률 분포를 결정하는 데 자주 사용된다. 제인스(Jaynes)는 최대 엔트로피 분포가 가장 정보가 적은 분포를 나타낸다고 주장하며 이 접근법을 지지했다.[14] 현재 많은 문헌들이 최대 엔트로피 사전 확률과 채널 코딩 간의 관계를 밝히는 데 집중하고 있다.[15][16][17][18]최대 엔트로피는 급진적 확률론에서 충분한 업데이트 규칙으로 사용된다. 리처드 제프리의 확률 운동학은 최대 엔트로피 추론의 한 예이다. 그러나 최대 엔트로피가 이러한 모든 규칙을 일반화하는 것은 아니다.[19]
기핀과 카티샤(Giffin and Caticha, 2007)는 베이즈 정리와 최대 엔트로피 원리가 완전히 호환되며, "최대 상대 엔트로피 방법"의 특수한 경우로 볼 수 있다고 주장한다. 이들은 이 방법이 기존의 베이즈 추론 방법의 모든 측면을 재현하며, 최대 엔트로피 원리나 베이즈 방법만으로는 해결할 수 없었던 문제에 대한 해결책을 제시한다고 말한다. 또한, 최근 연구(Lazar 2003, Schennach 2005)에서는 빈도주의적 상대 엔트로피 기반 추론 방식(예: 경험적 우도)이 사전 정보와 결합하여 베이즈 사후 분석을 수행할 수 있음을 보여준다.
제인스는 베이즈 정리가 확률 계산 방법인 반면, 최대 엔트로피는 사전 확률 분포를 할당하는 방법이라고 언급했다.
하지만 베이즈적 고려 없이도, 최소 교차 엔트로피 원리(주어진 사전 분포로 균등 분포를 사용하는 최대 엔트로피 원리의 특수한 경우)를 사용하여 사후 분포를 직접 구할 수 있다. 이는 문제를 제약 최적화 문제로 다루고, 엔트로피 범함수를 목적 함수로 사용하는 방식이다. 주어진 평균값을 테스트 가능한 정보로 가질 때, 구해진 분포는 깁스(또는 볼츠만) 분포이며, 최소 교차 엔트로피를 달성하고 주어진 테스트 가능한 정보를 만족시키기 위해 그 매개변수를 풀어야 한다.
6. 2. 모델 사양
최대 엔트로피 원리는 모델 사양에도 사용되는데, 이때 관찰된 데이터 자체가 테스트 가능한 정보로 간주된다. 이러한 모델은 자연어 처리에 널리 사용된다. 이러한 모델의 예시로는 독립적인 관찰에 대한 최대 엔트로피 분류기에 해당하는 로지스틱 회귀가 있다.[20][21]최대 엔트로피 원리의 주요 응용 분야 중 하나는 이산 및 연속 밀도 추정이다.[22] 서포트 벡터 머신 추정기와 유사하게 최대 엔트로피 원리는 2차 계획법 문제에 대한 솔루션을 요구할 수 있으므로 최적의 밀도 추정기로 희소 혼합 모델을 제공한다. 이 방법의 중요한 장점 중 하나는 밀도 추정에 사전 정보를 통합할 수 있다는 것이다.
6. 3. 밀도 추정
최대 엔트로피 원리의 주요 응용 분야 중 하나는 이산 및 연속 밀도 추정이다.[20][21] 지원 벡터 머신 추정기와 유사하게, 최대 엔트로피 원리는 이차 계획법 문제의 해를 요구할 수 있으며, 따라서 최적의 밀도 추정기로서 희소 혼합 모델을 제공한다. 이 방법의 중요한 장점 중 하나는 밀도 추정에 사전 정보를 통합할 수 있다는 것이다.[22]6. 4. 구체적인 예시
최대 엔트로피 원리는 구체적인 문제 상황에 따라 다양한 방식으로 적용될 수 있다.; 베이즈 추론에서의 사전 확률 분포 결정
: 최대 엔트로피 원리는 베이즈 추론에서 사전 확률 분포를 결정하는 데 사용될 수 있다. 제인스(Jaynes)는 최대 엔트로피 분포가 가장 정보가 적은 분포라고 주장하며 이 방법을 지지했다.[14] 이는 사전 정보가 부족한 상황에서 가장 객관적인 확률 분포를 선택하는 방법으로 간주된다.
; 모델 사양
: 최대 엔트로피 원리는 모델 사양에도 적용될 수 있다. 관찰된 데이터를 테스트 가능한 정보로 가정하고, 이 정보를 바탕으로 모델을 구성한다. 자연어 처리 분야에서 널리 사용되는 로지스틱 회귀 모델이 이러한 예시에 해당한다.
; 밀도 추정
: 최대 엔트로피 원리는 이산 및 연속 밀도 추정에도 활용된다.[20][21] 이 방법은 서포트 벡터 머신 추정기와 유사하게 2차 계획법 문제의 해를 구해야 할 수 있으며, 희소 혼합 모델을 제공한다. 또한, 밀도 추정에 사전 정보를 통합할 수 있다는 장점이 있다.[22]
; 확률 분포 계산
: 어떤 양 ''x''가 ''x1'', ''x2'', ..., ''xn''의 값을 가질 수 있고, 함수 ''fk''의 기댓값에 대한 ''m''개의 제약 조건이 주어진 경우, 최대 엔트로피 원리를 사용하여 확률 분포를 계산할 수 있다. 이 제약 조건은 다음과 같은 형태로 표현된다.
:
:
: 이러한 제약 조건을 만족하는 최대 정보 엔트로피를 갖는 확률 분포는 다음과 같은 형태를 가진다.[10]
:
: 여기서 Z는 분배 함수이며, λk는 라그랑주 승수이다. 이 값들은 비선형 방정식이나 볼록 최적화 프로그램을 통해 계산된다.[10]
; 연속 확률 분포의 경우
: 연속 확률 분포의 경우, 섀넌 엔트로피 대신 에드윈 제인스가 제시한 다음 공식이 사용된다.
:
: 여기서 ''q''(''x'')는 "불변 척도"라고 불리는 함수로, 이산 점의 제한 밀도에 비례한다. 이 공식을 최대화하는 확률 밀도 함수는 다음과 같다.[11]
:
; 불변 척도 함수
: 불변 척도 함수 ''q''(''x'')는 ''x''가 유계 구간 (''a'', ''b'')에서만 값을 가지며 다른 정보가 없을 때, 최대 엔트로피 확률 밀도 함수가 다음과 같이 표현될 수 있음을 의미한다.
:
: 여기서 ''A''는 정규화 상수이다. 불변 척도 함수는 '관련 정보 부족'을 나타내는 사전 밀도 함수이며, 변환 그룹의 원리나 주변화 이론과 같은 다른 방법을 통해 결정된다.
; 최대 엔트로피 분포의 예시
7. 물리학에서의 응용
최대 엔트로피 원리는 기체 운동론의 핵심적인 가정인 분자 무질서(또는 ''Stosszahlansatz'')와 관련이 있다. 이는 충돌에 들어가는 입자들을 특징짓는 분포 함수가 인수분해될 수 있다는 것을 의미한다. 이 주장은 엄격한 물리적 가설로 이해될 수 있지만, 충돌 전 입자들의 가장 확률적인 구성을 나타내는 휴리스틱 가설로 해석될 수도 있다.[13]
7. 1. 맥스웰 분포
통계역학에서 '''맥스웰 분포'''는, 용기 안에 기체(1종류의 물질로 이루어져 있으며, 정상 상태에 있는)가 갇혀 있을 때 용기 안 각 분자의 속도가 따르는 확률 분포이다. 분자의 속도를 라고 하면, 이 분포의 확률 밀도 함수는 다음과 같다.:
여기서 ''Z''는 정규화 상수이고, λ는 역온도(=절대 온도의 역수. 일반적으로 β로 나타내지만 여기서는 전절까지와 기호를 맞추기 위해 λ로 쓴다)이다.
맥스웰 분포는 최대 엔트로피 원리로부터 다음과 같이 유도할 수 있다.
용기 안에 기체(1종류의 물질로 이루어져 있으며, 정상 상태에 있는)가 갇혀 있다고 가정하고, 그 기체를 구성하는 각 분자의 속도를 생각한다. 각 분자가 가질 수 있는 속도 전체가 이루는 공간('''속도 공간''')을 생각하면, 속도는 3차원 벡터 로 나타낼 수 있으므로, 속도 공간은 3차원 벡터 공간(의 유한 체적 부분 집합)이 된다.
속도 공간을 개의 영역으로 나누고, 용기 안의 분자가 그 영역 중 어디에 속하는지를 생각한다. 각 분자는 서로 충돌을 반복하면서 임의로 그 위치나 속도를 바꾸지만, 지금 기체는 정상 상태에 있으므로, 각 영역에 있는 분자의 총수는 시간이 지나도 거의 변하지 않는다.
''i''번째 영역에 포함되어 있는 분자의 수를 ''ni''로 하고, 용기 안의 분자의 총수를 ''N''으로 하며, 이라고 하면, 각 분자가 영역 ''i''에 포함되어 있을 확률은 이다.
속도 공간의 각 점에서의 분자의 존재 확률이 항상 같다고 가정하면('''등확률의 원리'''), 각 분자가 영역 ''i''에 있을 확률은 영역의 체적에 비례한다고 생각할 수 있다. 따라서 1번째, ..., 번째 영역에 들어가 있는 분자의 개수가 각각 일 확률을 생각한다. '''각 분자를 구별할 수 없다고 가정하면''', 다항 분포에서,
:
에 비례한다.
기체가 정상 상태에 있다는 것은, 기체의 분포가 분자의 운동 에너지의 기대값이 일정값이라는 조건 하에, 가 최대가 되는 상태에 있다고 생각할 수 있음을 의미한다.
전절에서 설명했듯이, 분자의 수→∞의 극한에서, 를 최대화하는 것은 상대 엔트로피
:
를 최대화하는 것과 같다. 확률과 체적의 비 는 확률의 '밀도'를 나타내므로, 속도 공간을 분할하는 영역의 수→∞로 하면,
:
가 된다. 여기서 는 확률 밀도 함수이다. 따라서 기체는 이 값을 최대화하도록 행동한다.
분자의 운동 에너지의 기대값이 일정하다는 앞서 언급한 조건을 수식으로 나타내면
: 일정
이라고 쓸 수 있다. 여기서 ''m''은 분자의 질량이다.
이 조건은 에 관한 기대값이므로(확률 밀도 함수 도 에 관한 함수로 볼 수 있으므로), 앞의 절에서 나타낸 기대값이 제약되어 있는 경우의 최대 엔트로피 원리의 일반해를 적용함으로써,
:
임을 알 수 있다.
7. 2. 엔트로피 증대 법칙
하나의 용기가 있고, 용기 중앙에 판이 있어 용기의 오른쪽 절반과 왼쪽 절반이 분리되어 있다고 가정하자. 이 상태에서 두 종류의 기체 ''A'', ''B''가 각각 용기의 오른쪽 절반, 왼쪽 절반에 들어 있을 때, 용기 속 분자가 따르는 분포는 최대 엔트로피 원리에 의해,: (1) ''A''는 용기의 오른쪽 절반, ''B''는 왼쪽 절반에 들어 있다
라는 조건 하에서 엔트로피를 최대화한다.
다음으로 판을 제거하면, 용기 속 분자의 분포가 변화한다. 이 상태에서 분자가 따르는 분포는, 다시 최대 엔트로피 원리에 의해,
: (2) ''A'', ''B''가 용기에 들어 있다
라는 조건 하에서 엔트로피를 최대화한다.
명백히 조건 (2)는 조건 (1)보다 약하다. 따라서 조건 (2) 하에서의 최대값은 조건 (1) 하에서의 최대값보다 크다(작지 않다). 즉, 판을 제거함으로써 엔트로피는 증대한다.
참조
[1]
논문
Information Theory and Statistical Mechanics
http://bayes.wustl.e[...]
[2]
논문
Information Theory and Statistical Mechanics II
http://bayes.wustl.e[...]
[3]
서적
Data Analysis: A Bayesian Tutorial
https://books.google[...]
OUP Oxford
2006-06-02
[4]
논문
Prior Probabilities
http://bayes.wustl.e[...]
[5]
논문
Information optimality and Bayesian modelling
[6]
논문
Principal Information Theoretic Approaches
[7]
논문
Eliciting vague but proper maximal entropy priors in Bayesian experiments
[8]
논문
Objective priors from maximum entropy in data classification
2013-04-01
[9]
논문
Updating, supposing and MAXENT
[10]
논문
Non-asymptotic Bandwidth Selection for Density Estimation of Discrete Data
[11]
논문
The Generalized Cross Entropy Method, with Applications to Probability Density Estimation
http://espace.librar[...]
[12]
서적
Maximum Entropy and Bayesian Methods
https://archive.org/[...]
[13]
논문
Kinetic theory beyond the Stosszahlansatz
[14]
논문
Prior Probabilities
http://bayes.wustl.e[...]
[15]
논문
Information optimality and Bayesian modelling
[16]
논문
Principal Information Theoretic Approaches
[17]
논문
Eliciting vague but proper maximal entropy priors in Bayesian experiments
[18]
논문
Objective priors from maximum entropy in data classification
2013-04-01
[19]
논문
Updating, supposing and MAXENT
[20]
논문
Non-asymptotic Bandwidth Selection for Density Estimation of Discrete Data
[21]
논문
The Generalized Cross Entropy Method, with Applications to Probability Density Estimation
http://espace.librar[...]
[22]
서적
Maximum Entropy and Bayesian Methods
https://archive.org/[...]
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com