맨위로가기

이항 회귀

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

이항 회귀는 종속 변수 Y가 설명 변수 X에 따라 이항 분포를 따른다고 가정하는 통계적 회귀 분석 방법이다. 이 방법은 함수 θ(X)를 추정하는 것을 목표로 하며, 일반적으로 로지스틱 함수와 같은 연결 함수를 사용하여 확률 μ를 설명 변수에 연결한다. 이항 회귀는 일반화 선형 모형으로 적합될 수 있으며, 잠재 변수 모형을 통해 해석될 수도 있다. 사회 과학, 경제, 생명 과학, 공학 등 다양한 분야에서 응용된다.

더 읽어볼만한 페이지

  • 계승과 이항식 주제 - 이항 정리
    이항 정리는 이변수 다항식 (x + y)ⁿ을 전개하는 공식으로, 이항 계수를 사용하며, 조합론적 증명과 수학적 귀납법을 통해 증명할 수 있고, 다양한 분야에 응용되며, 이항 급수, 다항 정리 등 일반화된 형태가 존재한다.
  • 계승과 이항식 주제 - 감마 분포
    감마 분포는 형상 모수와 척도 모수로 정의되는 연속 확률 분포로, 확률 밀도 함수가 감마 함수로 표현되며, 베이즈 통계학에서 켤레 사전 분포로 활용되고, 형상 모수가 양의 정수일 때는 얼랑 분포를 나타낸다.
이항 회귀
개요
유형일반화된 선형 모델
모형ln(μi/(1-μi)) = XTiβ
μi = E(Yi)
분포이항 분포
연결 함수로짓 함수
이항 회귀
유형회귀 분석
부분 분야일반화된 선형 모형
설명 변수 수여러 개

2. 통계학의 기초

2. 1. 기술통계학

2. 2. 추론통계학

2. 3. 자료 수집

3. 이항 회귀

종속 변수 ''Y''는 설명 변수 ''X''에 따라 이항 분포를 따른다고 가정한다. 시행 횟수 ''n''은 알려져 있으며, 각 시행의 성공 확률 ''p''는 함수 ''θ(X)''로 지정된다. 이는 성공 관찰 비율인 ''Y/n''의 조건부 기대값과 조건부 분산이 다음과 같음을 의미한다.

:E(Y/n \mid X) = \theta(X)

:\operatorname{Var}(Y/n \mid X) = \theta(X) (1 - \theta(X)) / n

이항 회귀의 목표는 함수 ''θ(X)''를 추정하는 것이다. 일반적으로 통계학자는 \theta(X) = m(\beta^\mathrm T X)를 가정하고, 알려진 함수 ''m''에 대해 ''β''를 추정한다. ''m''에 대한 일반적인 선택 사항으로는 로지스틱 함수가 있다.[2]

데이터는 종종 예측값 μ가 개별 사건이 성공으로 이어질 확률인 일반화 선형 모형으로 적합된다. 예측의 가능도는 다음과 같다.

:L(\boldsymbol{\mu}\mid Y)=\prod_{i=1}^n \left ( 1_{y_i=1}(\mu_i) + 1_{y_i=0} (1-\mu_i) \right ), \,\!

여기서 ''1A''는 사건 ''A''가 발생하면 값 1을, 그렇지 않으면 0을 취하는 지시 함수이다. 이 공식에서 주어진 관측값 ''yi''에 대해 곱셈 내의 두 항 중 하나만 ''yi''=0 또는 1인지 여부에 따라 기여한다. 가능도 함수는 설명 변수의 매개변수화된 함수로 형식적 매개변수 ''μi''를 정의함으로써 더 완전하게 지정된다. 이를 통해 매개변수의 수를 크게 줄여 가능도를 정의한다. 모형의 적합은 일반적으로 이러한 매개변수를 결정하기 위해 최대 가능도 방법을 사용하여 수행된다. 실제로 일반화 선형 모형으로의 공식화를 사용하면 더 일반적인 전체 모형 클래스에 적용되지만 모든 최대 가능도 문제에는 적용되지 않는 특정 알고리즘 아이디어를 활용할 수 있다.

이항 회귀에 사용되는 모형은 종종 다항 데이터로 확장될 수 있다.

=== 연결 함수 ===

확률 μ를 설명 변수에 연결하는 모델링은 0에서 1 사이의 값만 생성하는 형태여야 한다. 많은 모델이 다음 형태로 맞출 수 있다.

:\boldsymbol{\mu} = g(\boldsymbol{\eta}) \, .

여기서 ''η''는 회귀 매개변수를 포함하는 설명 변수의 선형 결합을 나타내는 중간 변수이다. 함수 ''g''는 어떤 확률 분포누적 분포 함수(cdf)이다. 일반적으로 이 확률 분포는 마이너스 무한대에서 플러스 무한대까지의 지지를 가지므로 ''η''의 모든 유한 값은 함수 ''g''에 의해 0에서 1 사이의 값으로 변환된다.

로지스틱 회귀의 경우, 연결 함수는 오즈비의 로그 또는 로지스틱 함수이다. 프로빗의 경우, 연결 함수는 정규 분포의 cdf이다. 선형 확률 모형은 예측이 0에서 1 사이의 범위에 있을 필요가 없기 때문에 적절한 이항 회귀 명세가 아니다. 이 유형의 데이터는 확률 공간에서 해석이 발생하거나 분석가가 해석을 위해 확률의 근사 선형화를 맞추거나 계산할 만큼 충분한 정교함을 갖추지 못한 경우에 사용되기도 한다.

=== 잠재 변수 해석 ===

이항 관측 변수 ''Y''를 포함하는 잠재 변수 모형을 구성하여, ''Y''가 잠재 변수 ''Y''*와 다음과 같은 관계를 갖도록 할 수 있다.

:Y = 0 (만약 Y* > 0 인경우)

:Y = 1 (만약 Y* < 0 인경우)

잠재 변수 ''Y''*는 회귀 변수 집합 ''X''와 다음과 같은 모형으로 연관된다.

:Y* = Xβ + ε

이로 인해 이항 회귀 모형이 도출된다.

''ϵ''의 분산은 식별될 수 없으며, 이에 관심이 없는 경우 종종 1과 같다고 가정한다. ''ϵ''가 정규 분포를 따르면 프로빗 모형이 적절하며, ''ϵ''가 로그-와이블 분포를 따르면 로짓 모형이 적절하다. ''ϵ''가 균등 분포를 따르면 선형 확률 모형이 적절하다.

3. 1. 모형의 정의

종속 변수 ''Y''는 설명 변수 ''X''에 따라 이항 분포를 따른다고 가정한다. 시행 횟수 ''n''은 알려져 있으며, 각 시행의 성공 확률 ''p''는 함수 ''θ(X)''로 지정된다. 이는 성공 관찰 비율인 ''Y/n''의 조건부 기대값과 조건부 분산이 다음과 같음을 의미한다.

:E(Y/n \mid X) = \theta(X)

:\operatorname{Var}(Y/n \mid X) = \theta(X) (1 - \theta(X)) / n

이항 회귀의 목표는 함수 ''θ(X)''를 추정하는 것이다. 일반적으로 통계학자는 \theta(X) = m(\beta^\mathrm T X)를 가정하고, 알려진 함수 ''m''에 대해 ''β''를 추정한다. ''m''에 대한 일반적인 선택 사항으로는 로지스틱 함수가 있다.[2]

데이터는 종종 예측값 μ가 개별 사건이 성공으로 이어질 확률인 일반화 선형 모형으로 적합된다. 예측의 가능도는 다음과 같다.

:L(\boldsymbol{\mu}\mid Y)=\prod_{i=1}^n \left ( 1_{y_i=1}(\mu_i) + 1_{y_i=0} (1-\mu_i) \right ), \,\!

여기서 ''1A''는 사건 ''A''가 발생하면 값 1을, 그렇지 않으면 0을 취하는 지시 함수이다. 이 공식에서 주어진 관측값 ''yi''에 대해 곱셈 내의 두 항 중 하나만 ''yi''=0 또는 1인지 여부에 따라 기여한다. 가능도 함수는 설명 변수의 매개변수화된 함수로 형식적 매개변수 ''μi''를 정의함으로써 더 완전하게 지정된다. 이를 통해 매개변수의 수를 크게 줄여 가능도를 정의한다. 모형의 적합은 일반적으로 이러한 매개변수를 결정하기 위해 최대 가능도 방법을 사용하여 수행된다. 실제로 일반화 선형 모형으로의 공식화를 사용하면 더 일반적인 전체 모형 클래스에 적용되지만 모든 최대 가능도 문제에는 적용되지 않는 특정 알고리즘 아이디어를 활용할 수 있다.

이항 회귀에 사용되는 모형은 종종 다항 데이터로 확장될 수 있다.

3. 2. 연결 함수

확률 μ를 설명 변수에 연결하는 모델링은 0에서 1 사이의 값만 생성하는 형태여야 한다. 많은 모델이 다음 형태로 맞출 수 있다.

:\boldsymbol{\mu} = g(\boldsymbol{\eta}) \, .

여기서 ''η''는 회귀 매개변수를 포함하는 설명 변수의 선형 결합을 나타내는 중간 변수이다. 함수 ''g''는 어떤 확률 분포누적 분포 함수(cdf)이다. 일반적으로 이 확률 분포는 마이너스 무한대에서 플러스 무한대까지의 지지를 가지므로 ''η''의 모든 유한 값은 함수 ''g''에 의해 0에서 1 사이의 값으로 변환된다.

로지스틱 회귀의 경우, 연결 함수는 오즈비의 로그 또는 로지스틱 함수이다. 프로빗의 경우, 연결 함수는 정규 분포의 cdf이다. 선형 확률 모형은 예측이 0에서 1 사이의 범위에 있을 필요가 없기 때문에 적절한 이항 회귀 명세가 아니다. 이 유형의 데이터는 확률 공간에서 해석이 발생하거나 분석가가 해석을 위해 확률의 근사 선형화를 맞추거나 계산할 만큼 충분한 정교함을 갖추지 못한 경우에 사용되기도 한다.

3. 3. 잠재 변수 해석

이항 관측 변수 ''Y''를 포함하는 잠재 변수 모형을 구성하여, ''Y''가 잠재 변수 ''Y''*와 다음과 같은 관계를 갖도록 할 수 있다.

:Y = 0 (만약 Y* > 0 인경우)

:Y = 1 (만약 Y* < 0 인경우)

잠재 변수 ''Y''*는 회귀 변수 집합 ''X''와 다음과 같은 모형으로 연관된다.

:Y* = Xβ + ε

이로 인해 이항 회귀 모형이 도출된다.

''ϵ''의 분산은 식별될 수 없으며, 이에 관심이 없는 경우 종종 1과 같다고 가정한다. ''ϵ''가 정규 분포를 따르면 프로빗 모형이 적절하며, ''ϵ''가 로그-와이블 분포를 따르면 로짓 모형이 적절하다. ''ϵ''가 균등 분포를 따르면 선형 확률 모형이 적절하다.

4. 통계학의 응용

4. 1. 사회 과학 분야

4. 2. 경제 및 경영 분야

4. 3. 생명 과학 및 의학 분야

4. 4. 공학 및 자연 과학 분야

이항 회귀의 응용 사례는 다음과 같다.[1] 관찰된 결과 변수는 산업 공정에서 결함 발생 여부였다. 설명 변수는 두 가지였는데, 첫 번째는 공정의 수정 버전을 사용했는지 여부를 나타내는 단순한 이진 요인이고, 두 번째는 공정에 공급되는 재료의 순도를 측정한 일반적인 양적 변수였다.

참조

[1] 서적 Example H https://books.google[...] 1981
[2] 서적 Applied Linear Regression https://archive.org/[...] Wiley-IEEE 2005



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com