이항 회귀
1. 개요
이항 회귀는 종속 변수 Y가 설명 변수 X에 따라 이항 분포를 따른다고 가정하는 통계적 회귀 분석 방법이다. 이 방법은 함수 θ(X)를 추정하는 것을 목표로 하며, 일반적으로 로지스틱 함수와 같은 연결 함수를 사용하여 확률 μ를 설명 변수에 연결한다. 이항 회귀는 일반화 선형 모형으로 적합될 수 있으며, 잠재 변수 모형을 통해 해석될 수도 있다. 사회 과학, 경제, 생명 과학, 공학 등 다양한 분야에서 응용된다.
2. 통계학의 기초
2.1. 기술통계학
2.2. 추론통계학
2.3. 자료 수집
3. 이항 회귀
종속 변수 Y는 설명 변수 X에 따라 이항 분포를 따른다고 가정한다. 시행 횟수 n은 알려져 있으며, 각 시행의 성공 확률 p는 함수 θ(X)로 지정된다. 이는 성공 관찰 비율인 Y/n의 조건부 기대값과 조건부 분산이 다음과 같음을 의미한다.
:
:
이항 회귀의 목표는 함수 θ(X)를 추정하는 것이다. 일반적으로 통계학자는 를 가정하고, 알려진 함수 m에 대해 β를 추정한다. m에 대한 일반적인 선택 사항으로는 로지스틱 함수가 있다.
데이터는 종종 예측값 μ가 개별 사건이 성공으로 이어질 확률인 일반화 선형 모형으로 적합된다. 예측의 가능도는 다음과 같다.
:
여기서 1A는 사건 A가 발생하면 값 1을, 그렇지 않으면 0을 취하는 지시 함수이다. 이 공식에서 주어진 관측값 yi에 대해 곱셈 내의 두 항 중 하나만 yi=0 또는 1인지 여부에 따라 기여한다. 가능도 함수는 설명 변수의 매개변수화된 함수로 형식적 매개변수 μi를 정의함으로써 더 완전하게 지정된다. 이를 통해 매개변수의 수를 크게 줄여 가능도를 정의한다. 모형의 적합은 일반적으로 이러한 매개변수를 결정하기 위해 최대 가능도 방법을 사용하여 수행된다. 실제로 일반화 선형 모형으로의 공식화를 사용하면 더 일반적인 전체 모형 클래스에 적용되지만 모든 최대 가능도 문제에는 적용되지 않는 특정 알고리즘 아이디어를 활용할 수 있다.
이항 회귀에 사용되는 모형은 종종 다항 데이터로 확장될 수 있다.
=== 연결 함수 ===
확률 μ를 설명 변수에 연결하는 모델링은 0에서 1 사이의 값만 생성하는 형태여야 한다. 많은 모델이 다음 형태로 맞출 수 있다.
:
여기서 η는 회귀 매개변수를 포함하는 설명 변수의 선형 결합을 나타내는 중간 변수이다. 함수 g는 어떤 확률 분포의 누적 분포 함수(cdf)이다. 일반적으로 이 확률 분포는 마이너스 무한대에서 플러스 무한대까지의 지지를 가지므로 η의 모든 유한 값은 함수 g에 의해 0에서 1 사이의 값으로 변환된다.
로지스틱 회귀의 경우, 연결 함수는 오즈비의 로그 또는 로지스틱 함수이다. 프로빗의 경우, 연결 함수는 정규 분포의 cdf이다. 선형 확률 모형은 예측이 0에서 1 사이의 범위에 있을 필요가 없기 때문에 적절한 이항 회귀 명세가 아니다. 이 유형의 데이터는 확률 공간에서 해석이 발생하거나 분석가가 해석을 위해 확률의 근사 선형화를 맞추거나 계산할 만큼 충분한 정교함을 갖추지 못한 경우에 사용되기도 한다.
=== 잠재 변수 해석 ===
이항 관측 변수 Y를 포함하는 잠재 변수 모형을 구성하여, Y가 잠재 변수 Y*와 다음과 같은 관계를 갖도록 할 수 있다.
:Y = 0 (만약 Y* > 0 인경우)
:Y = 1 (만약 Y* < 0 인경우)
잠재 변수 Y*는 회귀 변수 집합 X와 다음과 같은 모형으로 연관된다.
:Y* = Xβ + ε
이로 인해 이항 회귀 모형이 도출된다.
ϵ의 분산은 식별될 수 없으며, 이에 관심이 없는 경우 종종 1과 같다고 가정한다. ϵ가 정규 분포를 따르면 프로빗 모형이 적절하며, ϵ가 로그-와이블 분포를 따르면 로짓 모형이 적절하다. ϵ가 균등 분포를 따르면 선형 확률 모형이 적절하다.
3.1. 모형의 정의
종속 변수 Y는 설명 변수 X에 따라 이항 분포를 따른다고 가정한다. 시행 횟수 n은 알려져 있으며, 각 시행의 성공 확률 p는 함수 θ(X)로 지정된다. 이는 성공 관찰 비율인 Y/n의 조건부 기대값과 조건부 분산이 다음과 같음을 의미한다.
:
:
이항 회귀의 목표는 함수 θ(X)를 추정하는 것이다. 일반적으로 통계학자는 를 가정하고, 알려진 함수 m에 대해 β를 추정한다. m에 대한 일반적인 선택 사항으로는 로지스틱 함수가 있다.
데이터는 종종 예측값 μ가 개별 사건이 성공으로 이어질 확률인 일반화 선형 모형으로 적합된다. 예측의 가능도는 다음과 같다.
:
여기서 1A는 사건 A가 발생하면 값 1을, 그렇지 않으면 0을 취하는 지시 함수이다. 이 공식에서 주어진 관측값 yi에 대해 곱셈 내의 두 항 중 하나만 yi=0 또는 1인지 여부에 따라 기여한다. 가능도 함수는 설명 변수의 매개변수화된 함수로 형식적 매개변수 μi를 정의함으로써 더 완전하게 지정된다. 이를 통해 매개변수의 수를 크게 줄여 가능도를 정의한다. 모형의 적합은 일반적으로 이러한 매개변수를 결정하기 위해 최대 가능도 방법을 사용하여 수행된다. 실제로 일반화 선형 모형으로의 공식화를 사용하면 더 일반적인 전체 모형 클래스에 적용되지만 모든 최대 가능도 문제에는 적용되지 않는 특정 알고리즘 아이디어를 활용할 수 있다.
이항 회귀에 사용되는 모형은 종종 다항 데이터로 확장될 수 있다.
3.2. 연결 함수
확률 μ를 설명 변수에 연결하는 모델링은 0에서 1 사이의 값만 생성하는 형태여야 한다. 많은 모델이 다음 형태로 맞출 수 있다.
:
여기서 η는 회귀 매개변수를 포함하는 설명 변수의 선형 결합을 나타내는 중간 변수이다. 함수 g는 어떤 확률 분포의 누적 분포 함수(cdf)이다. 일반적으로 이 확률 분포는 마이너스 무한대에서 플러스 무한대까지의 지지를 가지므로 η의 모든 유한 값은 함수 g에 의해 0에서 1 사이의 값으로 변환된다.
로지스틱 회귀의 경우, 연결 함수는 오즈비의 로그 또는 로지스틱 함수이다. 프로빗의 경우, 연결 함수는 정규 분포의 cdf이다. 선형 확률 모형은 예측이 0에서 1 사이의 범위에 있을 필요가 없기 때문에 적절한 이항 회귀 명세가 아니다. 이 유형의 데이터는 확률 공간에서 해석이 발생하거나 분석가가 해석을 위해 확률의 근사 선형화를 맞추거나 계산할 만큼 충분한 정교함을 갖추지 못한 경우에 사용되기도 한다.
3.3. 잠재 변수 해석
이항 관측 변수 Y를 포함하는 잠재 변수 모형을 구성하여, Y가 잠재 변수 Y*와 다음과 같은 관계를 갖도록 할 수 있다.
:Y = 0 (만약 Y* > 0 인경우)
:Y = 1 (만약 Y* < 0 인경우)
잠재 변수 Y*는 회귀 변수 집합 X와 다음과 같은 모형으로 연관된다.
:Y* = Xβ + ε
이로 인해 이항 회귀 모형이 도출된다.
ϵ의 분산은 식별될 수 없으며, 이에 관심이 없는 경우 종종 1과 같다고 가정한다. ϵ가 정규 분포를 따르면 프로빗 모형이 적절하며, ϵ가 로그-와이블 분포를 따르면 로짓 모형이 적절하다. ϵ가 균등 분포를 따르면 선형 확률 모형이 적절하다.