로지스틱 회귀
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
로지스틱 회귀는 종속 변수가 이항형 또는 다항형인 데이터를 분석하는 데 사용되는 통계적 방법이다. 선형 회귀와 유사하지만, 종속 변수의 결과가 0과 1 사이로 제한되고, 종속 변수의 분포가 이항 분포를 따른다는 차이점이 있다. 로지스틱 회귀는 독립 변수와 종속 변수 간의 관계를 파악하여, 새로운 독립 변수 집합이 주어졌을 때 종속 변수의 값을 예측하는 것을 목표로 한다. 모델 적합은 추정(estimation)과 평가(evaluation) 과정으로 이루어지며, 최대 우도 추정 방법을 통해 계수를 추정하고, 가능도비 검정, 왈드 검정, 의사결정계수, 호스머-레메쇼 검정 등을 통해 모델의 적합도를 평가한다. 로지스틱 회귀는 의학, 사회과학, 공학 등 다양한 분야에서 활용되며, 다항 로지스틱 회귀, 순서 로지스틱 회귀 등의 확장 모델이 존재한다.
더 읽어볼만한 페이지
- 회귀 모형 - 다층 모형
다층 모형은 계층 구조 데이터 분석에 사용되는 통계 방법으로, 변수의 측정 수준을 명확히 하고 고정 효과와 변량 효과를 동시에 고려하며, 무작위 절편 모형, 무작위 기울기 모형 등 다양한 종류가 있다. - 회귀 모형 - 구조방정식 모델링
구조 방정식 모델링은 관찰된 변수 간의 인과 관계를 분석하는 통계 기법으로, 경로 분석, 확인적 요인 분석 등에 활용되며, 모델 구축 및 평가를 통해 적합도를 평가한다. - 통계 이론 - 정보 엔트로피
정보 엔트로피는 확률 변수의 불확실성을 측정하는 방법으로, 사건 발생 가능성이 낮을수록 정보량이 커진다는 원리에 기반하며, 데이터 압축, 생물다양성 측정, 암호화 등 다양한 분야에서 활용된다. - 통계 이론 - 통계량
통계량은 표본에서 계산되는 값으로, 요약, 검정, 순서 통계량 등으로 분류되며 모수를 추정하기 위한 추정량도 포함하고, 완비성, 일치성 등의 통계적 성질을 가질 수 있다. - 회귀분석 - 회귀 분석
회귀 분석은 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링하고 분석하는 통계적 기법으로, 최소 제곱법 개발 이후 골턴의 연구로 '회귀' 용어가 도입되어 다양한 분야에서 예측 및 인과 관계 분석에 활용된다. - 회귀분석 - 과적합
과적합은 통계 모델이나 기계 학습 알고리즘이 훈련 데이터에 과도하게 적합되어 새로운 데이터에 대한 예측 성능이 저하되는 현상이다.
로지스틱 회귀 | |
---|---|
지도 정보 | |
기본 정보 | |
유형 | 통계 모델 |
종속 변수 유형 | 이진 |
설명 변수 유형 | 연속형 범주형 |
연결 함수 | 로짓 함수 |
최대 우도 추정 | 통계적 |
역사 | |
개발자 | 데이비드 콕스 |
발표 년도 | 1958년 |
추가 개발 | S.H. 워커 (1967) |
특징 | |
용도 | 이진 결과 예측 분류 |
장점 | 해석 용이 계산 효율적 |
단점 | 선형성 가정 이상치에 민감 |
관련 모델 | |
일반화 선형 모델 | 일반화 선형 모델 |
프로빗 모델 | 프로빗 모델 |
로짓 모델 | 로짓 모델 |
다항 로지스틱 회귀 | 다항 로지스틱 회귀 |
혼합 로짓 | 혼합 로짓 |
추가 정보 | |
예시 | 의료 통계, 마케팅, 사회 과학 |
대안 | 선형 판별 분석 서포트 벡터 머신 |
2. 기초
로지스틱 회귀는 종속 변수의 결과가 이항형 또는 다항형이 될 수 있다. 이항형 로지스틱 회귀에서 종속 변수는 0과 1, 두 가지 카테고리로 나타내어지며, 각 카테고리로 분류될 확률의 합은 1이 된다. 다항형 로지스틱 회귀는 종속 변수가 2개 이상의 카테고리로 분류되는 것을 가리킨다.
로지스틱 회귀는 일반화 선형 모형의 특수한 경우로 볼 수 있으므로 선형 회귀와 유사하다. 하지만, 로지스틱 회귀 모델은 종속 변수와 독립 변수 사이의 관계에 있어서 선형 모델과 다음과 같은 차이점을 보인다.
- 이항형 데이터에 적용했을 때 종속 변수 y의 결과가 [0,1] 범위로 제한된다.
- 종속 변수가 이진적이기 때문에 조건부 확률(''P(y│x)'')의 분포가 정규분포 대신 이항 분포를 따른다.
데이터 집합에는 N개의 점이 포함되어 있다. 각 점 i는 m개의 입력 변수 x1,i ... xm,i (독립 변수, 설명 변수, 예측 변수, 특징 또는 속성)와 이진 결과 변수 Yi (종속 변수, 반응 변수, 출력 변수 또는 클래스)로 구성된다. 결과 변수는 0 (주로 "아니오" 또는 "실패") 또는 1 (주로 "예" 또는 "성공")의 두 가지 값만 가질 수 있다. 로지스틱 회귀의 목표는 데이터 집합을 사용하여 결과 변수의 예측 모델을 만드는 것이다.
선형 회귀와 마찬가지로 결과 변수 Yi는 설명 변수 x1,i ... xm,i에 따라 달라지는 것으로 가정한다.
; 설명 변수
설명 변수는 실수형, 이진형, 범주형 등 어떤 통계적 데이터 유형이든 될 수 있다. 주요 차이점은 연속 변수와 이산 변수이다.
(둘 이상의 선택 사항을 나타내는 이산 변수는 일반적으로 더미 변수(또는 지시 변수)를 사용하여 코딩된다. 즉, 이산 변수의 각 가능한 값에 대해 "변수가 주어진 값을 갖는다"는 의미의 1과 "변수가 해당 값을 갖지 않는다"는 의미의 0을 취하는 별도의 설명 변수가 생성된다.)
; 결과 변수
형식적으로, 결과 Yi는 각 결과가 해당 결과에 특정하지만 설명 변수와 관련된 관찰되지 않은 확률 pi에 의해 결정되는 베르누이 분포 데이터로 설명된다.
; 선형 예측 함수
로지스틱 회귀의 기본 아이디어는 설명 변수와 모델에 특정하지만 모든 시행에 대해 동일한 일련의 회귀 계수의 선형 결합인 선형 예측 함수를 사용하여 확률 pi를 모델링함으로써 선형 회귀에 대해 이미 개발된 메커니즘을 사용하는 것이다.

2. 1. 연결 함수
단순 선형 회귀를 적용하면 결과가 [0,1] 범위를 벗어나 예측 정확도가 떨어진다. 이를 해결하기 위해 로지스틱 회귀는 연속이고 증가함수이며 [0,1]에서 값을 갖는 연결 함수 ''g(x)''를 제안하였다. 연결 함수 형태는 다양하며, 대표적인 두 가지는 다음과 같다.[15]- 로지스틱 모형:
- 검벨 모형:
이 중 계산이 편리하여 로지스틱 모형이 널리 사용된다.[15]
로지스틱 회귀는 일반화 선형 모형의 일종으로, 종속 변수가 특정 그룹으로 분류될 확률을 계산하여 정보에 입각한 의사 결정을 지원하는 확률적 프레임워크를 제공한다.[15]
3. 로지스틱 함수
로지스틱 모형은 독립 변수가 어떤 숫자이든 상관 없이 종속 변수, 즉 결과 값이 항상 0과 1 사이에 있도록 한다. 이는 오즈(odds)를 로짓(logit) 변환을 수행함으로써 얻어진다.[51]
다른 형태의 회귀 분석과 달리, 로지스틱 회귀는 연속적인 결과가 아닌 제한된 수의 범주 중 하나에 대한 소속을 예측하는 종속 변수에 사용된다. 일반 선형 회귀와 달리 잔차는 정규 분포를 따르지 않으며, 이항 종속 변수에 대해 비논리적인 예측을 할 수 있다.
이항 로지스틱 회귀는 먼저 각 독립 변수의 여러 수준에 대해 발생하는 사건의 오즈를 계산한 다음, 로그를 취하여 종속 변수의 변환된 버전으로 연속 기준을 만든다. 성공 확률의 로짓은 예측 변수에 적합되며, 로짓의 예측값은 지수 함수를 통해 예측 오즈로 다시 변환된다. 따라서 이항 로지스틱 회귀에서 관찰된 종속 변수는 0 또는 1 변수이지만, 로지스틱 회귀는 종속 변수가 '성공'일 확률을 연속 변수인 오즈로 추정한다.
어떤 응용 프로그램에서는 오즈만 필요하다. 다른 응용 프로그램에서는 종속 변수가 '성공'인지 아닌지에 대한 특정 예/아니오 예측이 필요하며, 이러한 범주형 예측은 계산된 성공 확률을 기반으로 할 수 있다. 이때 선택한 임계값을 초과하는 예측 확률은 성공 예측으로 변환된다.
모수의 추정은 오즈비에 중대한 영향을 미치며, 추정에는 최대우도법을 자주 사용한다.
3. 1. 식
오즈(odds)는 성공 확률이 실패 확률에 비해 몇 배 더 높은가를 나타내며, 그 식은 다음과 같다.:odds영어 = \frac{p(y=1|x)}{1-p(y=1|x)}}
로짓 변환은 오즈에 로그를 취한 함수로서, 입력 값의 범위가 [0,1] 일 때 출력 값의 범위를 (-\infty,+\infty)로 조정한다.
:\operatorname{logit}(p) = \log\frac{p}{1-p}
로지스틱 함수(logistic function)는 독립 변수 x가 주어졌을 때 종속 변수가 1의 범주에 속할 확률, 즉 p(y=1|x)를 의미한다. 로지스틱 함수는 로짓 변환을 통해 만들어지며, 그 형태는 다음과 같다.
:\text{logistic function}= \frac{e^{\beta\centerdot X_i}}{1+e^{\beta\centerdot X_i}}
표준 로지스틱 함수 \sigma:\mathbb R\rightarrow (0,1)는 다음과 같이 정의된다.
:\sigma (t) = \frac{e^t}{e^t+1} = \frac{1}{1+e^{-t}}
그림 1은 ''t'' 구간 (−6,6)에서의 로지스틱 함수 그래프를 보여준다.[43]
t가 단일 설명 변수 x의 선형 함수라고 가정하면 t는 다음과 같이 표현할 수 있다.
:t = \beta_0 + \beta_1 x
그리고 일반적인 로지스틱 함수 p:\mathbb R \rightarrow (0,1)는 다음과 같이 쓸 수 있다.
:p(x) = \sigma(t)= \frac {1}{1+e^{-(\beta_0 + \beta_1 x)}}
로지스틱 모델에서 p(x)는 종속 변수 Y가 실패/비사례가 아닌 성공/사례와 같을 확률로 해석된다.[1]
로짓(로그 승산) 함수는 다음과 같이 정의 된다.
:g(p(x)) = \sigma^{-1} (p(x)) = \operatorname{logit} p(x) = \ln \left( \frac{p(x)}{1 - p(x)} \right) = \beta_0 + \beta_1 x
양변에 지수 함수를 취하면 승산을 얻는다.
:\frac{p(x)}{1 - p(x)} = e^{\beta_0 + \beta_1 x}
예측 변수의 선형 결합 x가 주어진 경우 종속 변수가 특정 사례와 같을 승산은 다음과 같이 정의된다.[43]
:\text{승산} = e^{\beta_0 + \beta_1 x}
로지스틱 회귀의 종속 변수는 베르누이 분포를 따르지만, 로짓은 제한 없는 척도이다.[43] 로짓 함수는 이러한 종류의 일반화 선형 모델에서 연결 함수이다. 즉,
:\operatorname{logit} \operatorname{\mathcal E}(Y) = \beta_0 + \beta_1 x
로지스틱 회귀 모델은 다음과 같은 형태이다. x가 입력이고, p가 확률(출력), α와 β가 모수이다.
:\operatorname{logit}(p_i)=\ln\left(\frac{p_i}{1-p_i}\right) = \alpha + \beta_1 x_{1,i} + \cdots + \beta_k x_{k,i},
:i = 1, \dots, n
여기서, *n*개의 유닛과 공변량 *X*가 있으며, 다음과 같은 관계가 있다.
:p_i = E(Y|X_i) = \Pr(Y_i = 1)
결과의 오즈(1에서 확률을 뺀 값으로 확률을 나눈 값)의 로그가 설명변수 Xi의 선형 함수로 모델링된다. 이를 다음과 같이 표현할 수도 있다.
:p_i = \Pr(Y_i = 1|X) = \frac{1}{1+e^{-(\alpha + \beta_1 x_{1,i} + \cdots + \beta_k x_{k,i})}}
단순 퍼셉트론의 표기법을 사용하면 위의 식은 다음과 같이 표현할 수도 있다. \varsigma_1는 표준 시그모이드 함수이다.
:p_i = \varsigma_1 (\alpha + \beta_1 x_{1,i} + \cdots + \beta_k x_{k,i})
3. 2. 수식 유도
N개의 관찰된 데이터 요소가 존재한다고 가정한다. 각 데이터 요소는 m개의 독립 변수 집합 ()을 포함하며, 이는 설명 변수, 예측 변수, 입력 변수, 특징, 속성이라고도 불린다. 또한, 각 데이터 요소에는 독립 변수와 연관된 이진 값 형태의 종속 변수 가 존재하며, 이는 응답 변수, 결과 변수, 클래스 변수라고도 불린다. 종속 변수는 '0' (실패 또는 없음)과 '1' (성공 또는 존재) 두 가지 값만 가질 수 있다. 로지스틱 회귀의 목적은 독립 변수와 종속 변수의 관계를 찾아, 새로운 독립 변수 집합이 주어졌을 때 종속 변수의 값을 예측하는 것이다.로지스틱 함수는 다음과 같은 형태를 갖는다.
:
여기서 ''μ''는 위치 매개변수(곡선의 중간점, 인 지점)이고, ''s''는 척도 매개변수이다. 이 식은 다음과 같이 다시 쓸 수 있다.
:
여기서 는 절편이고, 는 역 척도 매개변수 또는 비율 매개변수이다. 이들은 ''x''의 함수로서 로그 승산의 ''y''절편과 기울기이다. 반대로, 이고 이다.
참고: 이 모델은 충분히 오랫동안 학습하면 모든 사람이 통과한다고 가정하기 때문에(한계값 = 1) 지나치게 단순화된 것이다. 더 현실적으로 만들려면 한계값도 변수 매개변수여야 한다.
4. 형식적 수학 모델
로지스틱 회귀 모델은 입력값 x와 확률(출력값) p, 그리고 모수 α와 β를 사용하여 다음과 같이 표현된다.
:
:
여기서 *n*개의 유닛과 공변량 *X*가 있으며, 다음과 같은 관계를 가진다.
:
결과 오즈(1에서 확률을 뺀 값으로 확률을 나눈 값)의 로그는 설명변수 *Xi*의 선형 함수로 모델링된다. 이를 다르게 표현하면 다음과 같다.
:
단순 퍼셉트론 표기법을 사용하면 위 식은 표준 시그모이드 함수 를 사용하여 다음과 같이 표현할 수 있다.
:
모수 추정은 오즈비에 큰 영향을 미친다. 성별과 같은 이항 설명변수의 경우, 는 남성과 여성 결과의 오즈비 추정치이다. 추정에는 최대우도법을 주로 사용한다.
다항 로지스틱 회귀는 이 모델을 확장하여 다중 범주 종속 변수나 순서가 있는 종속 변수를 다룬다. 로지스틱 회귀에 의한 계층화를 다항 로짓 모델이라고 한다.
로지스틱 회귀 모형은 일반화 선형 모형의 일종으로, p(x)가 예측 변수 x에 대한 성공 확률을 나타낸다고 하면 다음과 같이 표현된다.
:
대수적 조작을 거치면 다음과 같이 성공의 오즈를 구할 수 있다.
:
예를 들어 p(50)이 2/3이라고 가정하고 계산해보면, x = 50일 때 성공 가능성은 실패의 2배(오즈가 2:1)임을 알 수 있다.
:
로지스틱 회귀는 다양한 등가 사양과 해석이 있으며, 서로 다른 유형의 더 일반적인 모델에 적합하고, 다른 일반화를 허용한다.
로지스틱 회귀의 적합도를 측정하는 일반적인 방법은 로지스틱 손실(또는 로그 손실) 즉, 음의 로그 우도를 사용한다. 주어진 ''xk'' 및 ''yk''에 대해 라고 하면, 는 해당 가 1이 될 확률이고 는 0이 될 확률이다(베르누이 분포 참조). 데이터에 가장 잘 "적합"하는 와 값을 찾고자 한다. 선형 회귀의 경우, 적합값과 데이터 점(''yk'') 사이의 제곱 편차의 합(즉, 제곱 오차 손실)이 적합도의 척도로 사용되며, 해당 함수가 ''최소화''될 때 최적 적합이 얻어진다.
k번째 점에 대한 로그 손실 는 다음과 같다.
:
로그 손실은 예측값 에 대한 실제 결과 의 "놀람도"로 해석될 수 있으며, 정보량의 척도이다. 로그 손실은 항상 0보다 크거나 같으며, 완벽한 예측일 때만 0이 되고, 예측이 나빠짐에 따라 무한대로 접근한다. 로지스틱 함수의 값은 항상 0과 1 사이이므로 로그 손실은 항상 0보다 크고 무한보다 작다. 선형 회귀와 달리, 로지스틱 회귀에서는 어떤 점에서도 손실이 0이 될 수 없다.
위의 식들은 다음과 같은 단일 표현식으로 결합될 수 있다.
:
이는 예측 분포 와 실제 분포 의 교차 엔트로피로 더 공식적으로 알려져 있다.
총 손실은 전체 음의 로그 우도 이고, 이 ''최소화''되는 와 의 선택에 대해 최적 적합이 얻어진다.
또는 손실을 ''최소화''하는 대신, 역수인 (양의) 로그 우도를 ''최대화''할 수 있다.
:
혹은 우도 함수 자체를 최대화할 수 있다.
:
이 방법은 최대 우도 추정으로 알려져 있다.
4. 1. 잠재변수 모델(latent-variable)
앞서 설명된 로지스틱 모델은 잠재변수 모델로서 동등한 공식화가 존재한다. 이 공식화는 이산 선택 모델 이론에서 공통적으로 쓰이며, 로지스틱 회귀를 이와 깊이 관련된 프로빗 모델과 비교하기 쉽도록 해줄 뿐만 아니라, 다수의 상호연관된 선택지를 지니는 더 복잡한 특정 모델로 확장하기 쉽게 해준다.매 i번째 시행마다 연속적인 잠재변수 (즉, 관찰되지 않은 확률변수)가 다음과 같이 분포해 있다고 가정한다.
:
여기서
:
즉, 잠재변수는 선형 예측변수 함수와 표준 로지스틱 분포를 따르는 가산 확률 오차 변수로써 곧바로 표현될 수 있다. 그러면, 를 이 잠재변수가 양수인지 아닌지에 대한 지표로 볼 수 있다.
:
오차 변수를 구체적으로 표준 로지스틱 분포를 따르도록 모델링하는 것은 임의의 위치 및 축척을 가지는 보편적인 로지스틱 분포로 모델링하는 것보다 제한적이어 보이나, 사실은 그렇지 않다. 회귀 계수는 얼마든지 마음대로 고를 수 있고, 때때로 오차 변수 분포의 매개변수 변화량을 상쇄시키는데 사용될 수 있음을 명심해야 한다. 예를 들어, 0이 아닌 위치 매개변수 μ(평균값)를 가지는 로지스틱 오차 변수 분포는 절편계수에 μ를 더하면 위치 매개변수가 0인 분포와 동등해진다. 두 경우 모두 설명 변수의 설정과는 관계없이 같은 값을 낳는다. 마찬가지로 임의의 축척 매개변수 s는 축척 매개변수를 1로 설정한 뒤 모든 회귀 계수를 s로 나눈 것과 동등한 효과를 나타낸다. 후자의 경우, 의 결과값이 모든 설명변수들의 조합에 대해 이전보다 s배만큼 작아진다—그러나 중요한건, 0을 기준으로 언제나 동일한 쪽에 남아있기 때문에, 결국 같은 선택을 따른다.
(이러한 사실에서 곧 축척 매개변수의 무관성이 두 개 이상의 선택이 존재하는 보다 더 복잡한 모델에도 적용되지는 않을 수도 있음을 예견한다는 점에 주목한다.)
앞서 일반화된 선형 모델로 표현된 것과 이 공식화가 정확히 동등함이 알려져 있다. 이는 표준 로지스틱 분포의 누적 분포 함수가 로지스틱 함수, 즉, 로짓 함수의 역함수라는 사실을 이용하여 다음과 같이 나타낼 수 있다. 다시 말해,
: 이고,
그러면:
:
이산 선택 모델에서 표준적인 이 공식화는 로지스틱 회귀("로짓 모델")와 프로빗 모델 사이의 관계를 명확히 한다. 프로빗 모델은 표준 로지스틱 분포 대신 표준 정규 분포에 따라 분포되는 오차 변수를 사용한다. 로지스틱 분포와 정규 분포 모두 기본적인 단봉형 "종형 곡선" 모양을 가진 대칭 분포이다. 유일한 차이점은 로지스틱 분포가 다소 두꺼운 꼬리를 가지고 있다는 것이다. 즉, 이상치 데이터에 덜 민감하며(따라서 모형 오류 지정 또는 잘못된 데이터에 다소 더 강건하다).
또 다른 공식화는 별개의 두 잠재변수를 사용한다:
:
여기서
:
여기서 ''EV''1(0,1)은 표준 제1형 극값 분포이다. 즉,
:
이다. 그러면
:
이 모델은 종속변수의 가능한 각 결과값들에 대하여 별개의 잠재변수와 별도의 회귀 계수 집합을 가지고 있다. 이렇게 변수들을 분리하는 이유는, 로지스틱 회귀를 다항 로짓 모델에서처럼 다수-결과값의 범주적 변수들로 확장하기 쉽게 만들어 주기 때문이다. 이러한 모델에서는 서로 다른 회귀 계수들을 사용하여 가능한 각 결과값을 모델링하는게 당연하다. 각 별개의 잠재변수들을 관련된 선택을 하는데 있어 이론적인 효용(utility)으로서 의미를 부여하면, 효용 이론면에서 로지스틱 회귀를 일깨우는 것도 가능하다. (효용 이론면에서, 이성적인 수행자는 언제나 가장 큰 효용과 결부된 선택지를 고른다.) 이 접근법은 이론적으로 강력한 토대를 제공할뿐만 아니라, 모델에 대한 직관을 용이하게 하기 때문에 경제학자들이 이산 선택 모델을 공식화할 때 채택하는 방법이다. 바꿔 말하면, 다양한 종류의 확장들을 고려하기 쉽게 해준다.
제1형 극값 분포를 선택한 것은 상당히 임의적으로 보이지만, 이는 수학적 계산이 가능케 하고, 이성적 선택 이론을 통해 사용예들을 정당화할 수 있게끔 해준다.
이제는 두 벌의 회귀 계수들과 오차 변수들이 존재하고, 오차 변수가 다른 분포를 따르기 때문에 불분명해 보일 수도 있지만, 이 모델이 이전의 모델과 동등함이 밝혀져 있다. 사실은 다음의 치환을 통해 이 모델이 이전의 모델로 곧바로 축소된다.
:
:
이 치환에 대한 직관은 다음의 사실로부터 얻어진다. 두 값 중 최댓값을 기준으로 선택되기 때문에, 정확한 값들이 아닌 두 값의 차이만이 중요해진다—이로써 하나의 자유도가 실질적으로 제거된다. 또 다른 중요한 사실은 제1형 극값 분포 변수들의 차이가 로지스틱 분포라는 점이다. 즉, 이라고 하면,
다음과 같이 동치를 증명할 수 있다:
:
4. 2. 이중(two-way) 잠재변수 모델
이 모델은 종속 변수의 가능한 각 결과값에 대해 별도의 잠재 변수와 별도의 회귀 계수 집합을 가진다.[1] 이렇게 변수를 분리하는 이유는, 로지스틱 회귀를 다항 로짓 모델처럼 다중 결과값의 범주형 변수들로 확장하기 쉽게 만들기 때문이다.[1] 각 별개의 잠재 변수들을 관련된 선택을 하는 데 있어 이론적인 효용으로 해석하면, 효용 이론 면에서 로지스틱 회귀를 설명할 수 있다.[1] (효용 이론 면에서, 이성적인 행위자는 언제나 가장 큰 효용과 결부된 선택을 한다.)[1] 경제학자들은 이 접근법을 통해 이산 선택 모델을 공식화하는데, 이는 이론적으로 강력한 토대를 제공하고 모델에 대한 직관을 용이하게 하기 때문이다.[1]제1형 극값 분포를 선택한 것은 다소 임의적으로 보이지만, 이는 수학적 계산을 가능하게 하고, 합리적 선택 이론을 통해 사용 예를 정당화할 수 있게 해준다.[1]
이 모델은 이전 모델과 동등하며, 다음 치환을 통해 이전 모델로 축소할 수 있다.[1]
이는 두 값 중 최댓값을 기준으로 선택하기 때문에, 정확한 값들이 아닌 두 값의 차이만이 중요해져서 하나의 자유도가 제거되기 때문이다.[1] 또한, 제1형 극값 분포 변수들의 차이가 로지스틱 분포라는 점도 중요하다.[1] 즉, 이다.[1]
다음은 동등성을 증명하는 과정이다:[1]
:
4. 3. 로그-선형 모델
또 다른 공식화는 바로 위의 이중 잠재변수 공식화와 더 위의 잠재변수가 없는 공식화를 결합한다. 그 과정에서 다항 로짓의 표준 공식화에 한 연결점을 제공한다.여기서는 확률의 로짓 ''p''''i''를 선형 예측 변수로 쓰는 대신에, 각 두 결과값에 따라 선형 예측 변수를 둘로 분리한다:
:
이중 잠재변수 모델에서처럼 별도의 회귀 계수들이 쌍으로 도입되었고, 두 식의 마지막에 추가적으로 항과 함께 선형 예측 변수로서 관련된 확률이 로그 형태로 나타나 있음에 주목하자. 보다시피 이 항은 결과가 확률분포가 되도록 정규화 인자로서 작용한다. 이는 양변을 지수화함으로써 나타낼 수 있다:
:
이런 형태에서 보면, ''Z''의 용도가 실은 결과를 ''Y''''i''에 대한 확률분포(즉, 총합이 1)가 되도록 만드는 것임이 확실해진다. 이는 ''Z''가 단순히 비정규화 확률의 총합이라는 것, 그리고 각 확률을 ''Z''로 나누면 "정규화" 확률이 된다는 것을 의미한다. 다시 말해서:
:
그 결과 방정식들은
:
또는, 일반적으로
:
위에서처럼 다항 로짓과 같은 둘 이상의 결과값에 대하여 일반화된 공식화를 보일 수 있다. 일반화된 공식화가 Softmax 함수와 정확히 일치함에 유의하자.
:
이전 모델과 이 동치가 같음을 증명하기 위해, 바로 위 식에서 중복적으로 명시된 사항(와 는 서로 독립적이지 않다)을 이용하자. 이므로 둘 중 하나만 알면 나머지 하나도 저절로 알 수 있다. '''''β'''''0, '''''β'''''1의 복수 조합으로써 가능한 모든 설명변수들에 대하여 동일한 확률을 내놓기 때문에 결국 모델은 비식별적이다. 사실, 두 식에 아무런 상수 벡터를 더해도 같은 확률을 나타냄을 보일 수 있다:
:
결과적으로, 두 벡터 중 하나에 임의의 값을 선택함으로써 식별성을 복원하고, 문제를 간소화할 수 있다. 을 선택했다면,
:
따라서
:
이로써 이 공식화가 이전의 공식화와 동등함이 확실히 보여진다. (이중 잠재변수 모델에서 로 설정함으로써 동등한 결과를 내놓기 때문)
5. 모델 적합
로지스틱 회귀에서 모델 적합은 모델의 계수를 추정하고, 추정된 모델이 데이터에 적합한지 평가하는 과정이다.
- 모델 형태:
로지스틱 회귀 모델에서 모수 추정은 오즈비에 큰 영향을 미치며, 최대우도법을 사용하여 추정한다.
이 모델은 다항 로짓 모델로 확장될 수 있으며, 다중 범주 종속 변수나 순서가 있는 종속 변수를 다룰 때 사용된다.
모델 평가는 가능도비 검정, 왈드 검정, 의사결정계수(Pseudo-R2), 호스머-레메쇼 검정 등 다양한 방법을 사용한다.[29]
5. 1. 추정
로지스틱 회귀 모델은 주어진 입력 x에 대해 확률 p (출력)를 예측하며, α와 β는 모델의 모수(계수)이다.여기서 *n*개의 유닛과 공변량 *X*가 주어지며, 와 같은 관계를 가진다. 즉, 결과의 오즈(어떤 사건이 일어날 확률을 일어나지 않을 확률로 나눈 값)의 로그 값이 설명변수 *Xi*의 선형 함수로 표현된다. 이를 확률 *pi*에 대해 다시 표현하면 다음과 같다.
퍼셉트론 표기법을 사용하면, 위 식은 표준 시그모이드 함수()를 이용하여 다음과 같이 나타낼 수 있다.
모수 추정은 오즈비에 큰 영향을 미친다. 예를 들어, 성별과 같은 이항 설명변수의 경우, 는 남성과 여성 결과의 오즈비 추정치가 된다. 이러한 모수를 추정하기 위해 최대우도법을 주로 사용한다.
이 모델은 다항(polytomous) 로지스틱 회귀로 확장될 수 있으며, 다중 범주 종속 변수나 순서가 있는 종속 변수를 다룰 때 사용된다. 로지스틱 회귀에 의한 계층화를 다항 로짓 모델이라고 한다.
5. 1. 1. 최대가능도 방법
로지스틱 회귀의 계수 추정은 최대가능도 방법을 이용한다.[52]로지스틱 함수를 다음과 같이 정의한다.
:
그러면 가능도(likelihood)는 다음과 같다.
:
이 식을 바탕으로 전체 데이터 (: 전체 데이터 개수)에 대한 가능도는 다음과 같다.
:
이 식을 최대로 하는 계수 ()를 찾으면 모델 추정이 완료된다.
계산 편의를 위해 로그 함수를 사용하여 Negative Log Likelihood (NLL)를 최소화하는 형태로 변환한다.
:
종속 변수 y의 범위가 [0,1] 이므로, 위 식은 다음과 같이 다시 표현할 수 있다.
:
로지스틱 회귀에서는 위 식을 최소화하는 닫힌 형태(closed-form expression)를 바로 구할 수 없다. 따라서 경사 하강법(Gradient Descent)과 같은 반복 처리(iterative process)를 통해 계수를 추정한다.[53] 이 과정은 임의의 계수에서 시작하여 반복적으로 수정하면서 모델이 개선되는지 확인하고, 결과가 수렴할 때까지 반복하여 최종 계수를 구한다.
하지만 모델이 수렴하지 않는 경우도 있는데, 이는 반복 처리로 적합한 해를 찾을 수 없어 계수가 의미를 지니지 않음을 의미한다. 수렴 실패의 대표적인 이유로는 사건에 매우 큰 영향을 미치는 예측변수의 사용, 다중공선성, 희소성(sparseness), 완분성(complete separation) 등이 있다.
경사 하강법의 코드는 다음과 같다.
:
::
:
5. 1. 2. 집단 데이터의 최소 카이제곱 추정법
각각의 데이터는 매 관측마다 0 또는 1의 값을 가지는 종속변수를 지니는 반면, 집단 데이터는 하나의 관측에 대하여 집단 내에 공통적인 특성(예: 인구학적 특성)을 공유한다. 이 경우, 그룹의 어느 특정한 비율이 응답 변수의 한 범주 또는 그 외로 나뉘는 현상이 관찰된다. 만약 이 비율이 0과 1이 아니라면, 최소 카이제곱 추정법은 가중 최소 제곱법(weighted least squares)을 수반하여 종속변수가 비율의 로짓(로그 승산)으로 표현되는 선형모델을 추정한다.이제 표준 로지스틱 함수의 역함수 로서 로짓(로그 승산) 함수를 정의할 수 있다. 다음을 만족함을 쉽게 알 수 있다.
:
그리고 동등하게, 양변에 지수 함수를 취하면 승산을 얻는다.
:
5. 2. 평가
로지스틱 회귀의 평가에는 가능도비 검정, 왈드 검정(Wald test), 의사결정계수(Pseudo-R2s), 호스머-레메쇼 검정 등 다양한 방법이 사용된다.[29]회귀 계수는 일반적으로 최대우도추정을 사용하여 추정된다.[44][21] 정규분포 잔차를 가진 선형 회귀와 달리, 우도 함수를 최대화하는 계수 값에 대한 폐쇄형 표현식을 찾는 것은 불가능하므로, 뉴턴-랩슨 방법과 같은 반복적인 과정을 사용해야 한다. 이 과정은 잠정적인 해결책으로 시작하여 더 이상 개선되지 않을 때까지 반복적으로 수정하여 수렴에 도달한다.[44]
하지만 모델이 수렴에 도달하지 못하는 경우도 있는데, 이는 다음과 같은 이유로 발생할 수 있다.
- 변수 대 사례 비율: 변수 대 사례의 비율이 크면 과도하게 보수적인 Wald 통계량이 생성되어 비수렴으로 이어질 수 있다. 정규화된 로지스틱 회귀는 이러한 상황에서 사용하도록 설계되었다.
- 다중공선성: 예측 변수 간의 높은 상관관계는 표준 오차를 증가시키고 모델 수렴 가능성을 감소시킨다.[44]
- 희소성: 데이터에 빈 셀(0 개수를 가진 셀)이 많으면, 특히 범주형 예측 변수의 경우 모델이 수렴하지 않을 수 있다.[44]
- 완전 분리: 예측 변수가 기준을 완벽하게 예측하는 경우(모든 사례가 정확하게 분류)에도 수렴 문제가 발생할 수 있다.[43]
이러한 문제 외에도, 지수 함수에 대한 매개변수 형태의 가정을 피하고 링크 함수(예: probit 또는 logit) 선택에 대해 강력한 로컬 우도 또는 비모수 준우도 방법을 통해 준모수적 또는 비모수적 접근 방식을 취할 수도 있다.[22]
모형 적합 후에는 개별 예측 변수의 기여도를 검토해야 한다. 선형 회귀에서는 회귀 계수가 예측 변수 한 단위 변화에 따른 기준 변수의 변화량을 나타내지만,[45] 로지스틱 회귀에서는 회귀 계수가 예측 변수 한 단위 변화에 따른 로짓의 변화량을 나타낸다. 로짓은 직관적이지 않으므로, 연구자들은 회귀 계수의 지수 함수인 승산비(odds ratio)를 통해 예측 변수의 영향을 파악한다(정의 참조).
개별 예측 변수의 유의성을 평가하기 위해 우도비 검정과 왈드 통계량이 사용된다. 왈드 통계량은 회귀 계수의 제곱을 계수의 표준 오차의 제곱으로 나눈 값으로, 점근적으로 카이제곱 분포를 따른다.[44]
:
하지만 왈드 통계량은 회귀 계수가 클 때 표준 오차가 커져 제2종 오류 확률이 증가하고, 데이터가 부족할 때 편향되는 경향이 있다.[45]
질병 발생률이 낮은 경우, 모집단 내 발생률보다 더 자주 표본을 추출하는 역향적 표본 추출(또는 불균형 데이터)을 사용할 수 있다. 로지스틱 회귀는 불균형 데이터를 사용해도 각 독립 변수의 영향에 대한 올바른 계수 추정치를 생성한다는 점에서 고유하다. 단, 는 진정한 유병률을 사용하여 다음과 같이 수정해야 한다.[31]
:
여기서 는 진정한 유병률이고 는 표본의 유병률이다.
5. 2. 1. 가능도비 검정
가능도비 검정은 로지스틱 회귀 분석에서 각 회귀 계수가 통계적으로 유의한지 검정하는 방법으로, 두 개의 모형의 가능도비를 계산하여 두 모형의 가능도가 유의한 차이가 나는지 비교한다.[43] '포화 모델(이론적으로 완벽히 들어맞는 모델)'을 구할 수 있다고 했을 때, 편차값은 주어진 모델과 포화 모델을 비교함으로써 계산된다.: 적합된 모델의 가능도, 포화 모델의 가능도
위 등식에서 는 편차값을 나타내고, 은 자연로그를 나타낸다. 가능도비에 자연로그를 취한 값은 음수이기 때문에 -2를 곱함으로써 근사적으로 카이제곱 분포를 따르게 만든다. 이 때 편차값이 작을수록 포화모델과 차이가 적은, 잘 맞춰진 분석모델임을 의미한다.
로지스틱 회귀에서 편차를 측정하기 위한 또 다른 중요한 측정값은 널편차와 모델 편차이다. 널편차는 예측 모형이 적용되지 않은, 즉, 예측 변수가 없는 모델과 포화 모델간의 차이를 말한다. 이 때, 널편차는 예측 변수 모델과 비교할 대상의 기준을 제공한다. 편차값을 주어진 모델과 포화 모델 사이의 차이라고 가정했을 때, 두 모델간의 편차가 작을수록 오차가 적은 분석 모델이다. 따라서 예측 변수들의 기여도를 평가하기 위해, 널 편차값에서 모델 편차값을 빼거나, 예측할 매개변수의 개수 차이를 자유도로 가지는 카이제곱 분포()로 나타낼 수 있다. 그리고 이를 기준으로 F-test를 수행함으로써 최종적으로 회귀 계수의 유의성을 판단할 수 있다.[45]
:
: 라고 하면,
:
로지스틱 회귀에서 편차는 선형 회귀의 제곱합 계산과 유사하며, 로지스틱 회귀 모형에서 데이터에 대한 적합성 부족의 척도이다.[45][43]
5. 2. 2. 의사-결정계수(Pseudo-{{수학|''R''2}})
결정계수(''R''2)는 종속변수의 분산 중 어느 정도 비율(%)이 독립변수에 의해 설명되는가를 나타내는 값으로, 0.00 ~ 1.00 사이의 값을 갖는다. 1.00에 가까울수록 모델의 적합도가 높다고 평가한다. 이는 모델의 적합도를 평가하는데 쓰인다.''R''2를 계산하는 방법은 통일되어 있지 않고 여러 방법이 존재하는데, 대표적인 세 가지는 McFadden (1974)가 제안한 방법, Cox and Snell (1989)가 제안한 방법, 그리고 Cox and Snell ''R''2의 수정 버전이 있다.
McFadden이 제안한 ''R''2은 의사-결정계수라고도 불리며, 다음과 같이 정의된다.
:
이 공식은 "잔차 분산(error variance)"의 감소 비율에 해당한다. 의사-''R''2의 단점은 오즈비와 직접적으로 연관되어 있지 않다는 점이다. 즉, 오즈비가 증가한다고 해서 반드시 ''R''2이 증가하거나, 오즈비가 감소한다고 해서 ''R''2이 감소하지는 않는다.
Cox and Snell이 제안한 ''R''2는 다음과 같이 정의된다.
:
이 공식은 선형 회귀 분석과 동일한 원리를 이용하며, 선형 회귀 분석에서의 일반적인 ''R''2이 이 공식에 의해 예측 변수가 없는 모델과 있는 모델의 가능도로 결정된다. 이는 최대 가능도 추정을 하는 다른 종류의 회귀 분석(예시: count data에 대한 negative binomial regression)으로 확장될 수 있다는 장점이 있다. 하지만 Cox and Snell이 제안한 결정계수는 최대 값이 1.0보다 작고, 특정 경우에는 1.0에 비해 상당히 작은 값이 될 수도 있다는 단점이 있다.
의사-결정계수가 Cox and Snell이 제안한 결정계수에 비해 조금 더 선호되는 경향이 있는데, 그 이유는 선형 회귀의 결정계수와 가장 유사하고, 기저율(base rate)에 독립적이기 때문이다. 또한 Cox and Snell이 제안한 ''R''2과는 달리 이는 범위 [0,1]을 가진다.
의사-결정계수를 이용한 해석에서 유의할 점은 선형분석에서의 ''R''2 해석과 다르다는 것이다. 로지스틱 회귀분석은 종속 변수가 범주형이므로 오차의 등분산성 가정이 만족되지 않고, 따라서 오차 분산이 예측된 확률에 따라 달라진다. 또한 로지스틱 회귀분석에서 ''R''2은 대개 낮게 나오는 편이므로, 모델 평가에서 ''R''2에 너무 의존할 필요는 없다.
6. 응용
로지스틱 회귀는 의학, 사회 과학, 공학, 마케팅, 경제학 등 다양한 분야에서 널리 사용된다.
- 의학: 부상 환자의 사망률 예측에 사용되는 중증 외상 및 손상 심각도 점수(TRISS)는 로지스틱 회귀를 기반으로 개발되었다.[54] 환자의 중증도를 평가하는 다른 많은 의학 척도들도 로지스틱 회귀를 사용하여 개발되었다.[2][3][4][5][6] 환자의 특성(나이, 성별, 혈액 검사 결과 등)을 기반으로 특정 질병(예: 당뇨병, 관상 동맥 질환) 감염 여부를 예측하는 데 사용된다.[7][8]
- 공학: 특정 프로세스, 시스템 또는 제품의 실패 확률을 예측하는 데 사용된다.[9][10]
- 마케팅: 고객의 제품 구매 성향이나 구독 중단 가능성 예측 등에 사용된다.[11]
- 경제학: 사람이 노동 시장에 진입할 가능성, 주택 소유자의 모기지 상환 불이행 가능성 예측 등에 사용된다.
- 사회과학: 기업의 과거 데이터를 바탕으로 신용 위험을 추정하거나, 다이렉트 마케팅에서 특정 제안에 반응할 사람들을 식별하는 데 사용된다.
- 재난 관리: 재난 계획 담당자와 기술자들은 로지스틱 회귀 모델을 통해 소규모 및 대규모 대피(예: 건물 화재, 산불, 허리케인 등)에서 가구주 또는 건물 거주자의 의사 결정을 예측한다.[12][13][14]
로지스틱 회귀는 지도 학습 알고리즘의 한 종류로, 특히 이진 분류(두 가지 범주로 분류) 작업에 널리 사용된다. 예를 들어, 스팸 메일 분류, 질병 진단 등이 있다.
7. 확장
다항 로지스틱 회귀(multinomial logistic regression), 순서형 로지스틱 회귀(ordered logistic regression), 혼합형 로지스틱 회귀(mixed logit) 등 다양한 확장된 로지스틱 회귀 모델이 존재한다.
- 다항 로지스틱 회귀: 이항 로지스틱 회귀를 일반화하여 여러 개의 설명 변수와 여러 개의 범주를 포함하도록 확장한 것이다.
- 순서형 로지스틱 회귀: 순서가 있는 범주형 데이터를 다루는 모델이다.
- 혼합형 로지스틱 회귀: (설명 부족)
- 조건부 확률장(Conditional random fields): 순차적 데이터에 대한 로지스틱 회귀의 확장으로, 자연어 처리에 사용된다.
- 조건부 로지스틱 회귀: 층화된 데이터 또는 일치시킨 데이터(표본 크기가 작은 경우)를 처리하며, 주로 관찰 연구 분석에 사용된다.
단일 설명 변수에 대한 이항 로지스틱 회귀는 임의의 수의 설명 변수 ''x1, x2,...'' 와 임의의 수의 범주형 값 에 대한 이항 로지스틱 회귀로 일반화될 수 있다.
''M''개의 설명 변수 ''x1'', ''x2'' ... ''xM'' 및 두 개의 범주형 값 (''y'' = 0과 1)을 갖는 로지스틱 모델을 고려할 때, 단순 이항 로지스틱 회귀 모델에서 예측 변수와 사건 의 로그 승산(로그 오즈, logit이라고도 함) 사이의 선형 관계를 가정하며, 이 선형 관계는 ''M''개의 설명 변수의 경우로 확장될 수 있다.
:
여기서 ''t''는 로그 승산이고 는 모델의 매개변수이다. 모델의 기저(밑)(''b'')가 오일러의 수 ''e''로 제한되지 않는 추가적인 일반화가 도입되었다. 대부분의 응용 프로그램에서 로그의 밑 는 일반적으로 ''e''로 간주된다. 그러나 경우에 따라 2 또는 10을 기저로 사용하여 결과를 전달하는 것이 더 쉬울 수 있다.
보다 간결한 표기법을 위해 설명 변수와 ''β'' 계수를 차원 벡터로 지정한다.
:
:
추가된 설명 변수 ''x0'' =1을 사용한다. 로짓은 이제 다음과 같이 작성할 수 있다.
:
일 확률 ''p''에 대해 풀면 다음과 같다.
:,
여기서 는 밑이 인 시그모이드 함수이다. 위 공식은 이 고정되면 주어진 관측치에 대해 일 로그 승산 또는 주어진 관측치에 대해 일 확률을 쉽게 계산할 수 있음을 보여준다. 로지스틱 모델의 주요 사용 사례는 관측치 를 제공하고 일 확률 를 추정하는 것이다. 최적 베타 계수는 로그 우도를 극대화하여 찾을 수 있다.
두 범주(이항 로지스틱 회귀)의 경우, 범주는 "0"과 "1"로 색인되었으며, 결과가 범주 1에 속할 확률은 로 주어지고, 결과가 범주 0에 속할 확률은 로 주어진다.
일반적으로, 개의 설명 변수(''x0'' 포함)와 개의 범주가 있는 경우, 각 범주에 대해 하나씩, 개의 별도 확률이 필요하다. 이 확률은 공변량 벡터 '''x'''를 조건으로 범주형 결과 ''y''가 범주 ''y=n''에 속할 확률을 나타낸다. 모든 범주에 걸친 이러한 확률의 합은 1과 같아야 한다. 수학적으로 편리한 밑 ''e''를 사용하면, 이러한 확률은 다음과 같다.
: for
:
를 제외한 각 확률은 고유한 회귀 계수 집합 을 갖는다.
8. 역사
로지스틱 함수는 1830년대와 1840년대에 피에르 프랑수아 베르휠스트가 인구 성장 모델로 개발했으며, 아돌프 케틀레의 지도하에 "로지스틱"이라는 이름을 붙였다.[37][38] 그러나 베르휠스트는 1838년 초기 논문에서 데이터에 곡선을 적합시키는 방법을 명시하지 않았고, 1845년 논문에서는 곡선이 세 개의 관측된 점을 통과하도록 하여 모델의 세 가지 매개변수를 결정했는데, 이는 예측력이 떨어지는 결과를 초래했다.[39]
로지스틱 함수는 빌헬름 오스트발트(1883)에 의해 화학 분야에서 자기촉매 모델로 독립적으로 개발되었다.[37] 자기촉매 반응은 생성물 중 하나가 동일 반응의 촉매 역할을 하는 반응으로, 한 반응물의 공급이 고정되어 있다. 이는 인구 성장과 같은 이유로 로지스틱 방정식을 생성한다. 즉, 반응은 자체적으로 강화되지만 제약을 받는다.
1920년 레이먼드 펄과 로웰 리드는 로지스틱 함수를 인구 성장 모델로 독립적으로 재발견했고,[37] 이는 현대 통계학에서의 사용으로 이어졌다. 그들은 처음에는 베르휠스트의 연구를 알지 못했고, 아마도 L. 구스타브 뒤 파스키에를 통해 알게 되었을 것이지만, 그에게는 거의 인정하지 않았고 그의 용어를 채택하지 않았다.[37] 어드니 율은 1925년에 베르휠스트의 우선순위를 인정했고 "로지스틱"이라는 용어가 부활되어 그 이후로 사용되어 왔다.[37] 펄과 리드는 처음에 미국 인구에 모델을 적용했고, 곡선이 세 점을 통과하도록 하여 곡선을 적합시켰는데, 베르휠스트와 마찬가지로 이는 부정확한 결과를 초래했다.[37]
1930년대에 프로빗 모델이 체스터 이트너 블리스와 존 개덤에 의해 체계화되었고, 로널드 피셔에 의해 최대우도추정으로 모델이 적합되었다.[37] 프로빗 모델은 주로 생물검정에 사용되었으며, 1860년까지 거슬러 올라가는 초기 연구에 앞서 있었다. 프로빗 모델은 그 후 로짓 모델의 개발에 영향을 미쳤고 이러한 모델들은 서로 경쟁했다.[37]
에드윈 비드웰 윌슨과 그의 제자 제인 우스터는 생물검정에서 프로빗 모델의 대안으로 로지스틱 모델을 처음 사용했을 가능성이 있다.[37] 그러나 프로빗 모델에 대한 일반적인 대안으로서 로지스틱 모델의 개발은 주로 조셉 버크슨의 수십 년에 걸친 연구 덕분인데, 그는 "프로빗"과 유사하게 "로짓"이라는 용어를 만들었고, 이후의 연구를 통해 계속되었다.[40] 로짓 모델은 처음에는 프로빗 모델보다 열등하다고 간주되었지만, 특히 1960년대와 1970년대 사이에 점차 프로빗과 동등한 수준에 도달했다.[37] 1970년까지 로짓 모델은 통계학 저널에서 프로빗 모델과 동등한 수준에 도달했고 그 이후로는 프로빗 모델을 능가했다. 이러한 상대적 인기는 생물검정 내에서 프로빗을 대체하는 것이 아니라 생물검정 이외의 분야에서 로짓의 채택과 비공식적인 사용 때문이었고, 로짓 모델의 계산 간편함, 수학적 특성, 일반성으로 인한 다양한 분야에서의 사용 가능성 때문이다.[37]
그 기간 동안 데이비드 콕스 등에 의해 다양한 개선이 이루어졌다.[41]
다항 로짓 모델은 독립적으로 소개되었으며, 이는 응용 범위와 로짓 모델의 인기를 크게 높였다.[37] 1973년 다니엘 맥패든은 다항 로짓을 이산 선택 이론, 특히 루스의 선택 공리와 연결하여, 다항 로짓이 무관한 대안의 독립성 가정에서 비롯되고 대안의 승산을 상대적 선호도로 해석함을 보였다.[42] 이는 로지스틱 회귀에 대한 이론적 토대를 제공했다.[37]
참조
[1]
논문
Logistic Regression Relating Patient Characteristics to Outcomes
2016-00-00
[2]
논문
Evaluating trauma care: The TRISS method. Trauma Score and the Injury Severity Score
[3]
논문
Validation of MPI and PIA II in two different groups of patients with secondary peritonitis
[4]
논문
Prognostic factors for mortality in left colonic peritonitis: A new scoring system
[5]
논문
Multiple organ dysfunction score: A reliable descriptor of a complex clinical outcome
[6]
논문
A new Simplified Acute Physiology Score (SAPS II) based on a European/North American multicenter study
[7]
서적
Statistical Models: Theory and Practice
Cambridge University Press
[8]
논문
A multivariate analysis of the risk of coronary heart disease in Framingham
[9]
논문
Logistic regression analysis for experimental determination of forming limit diagrams
[10]
논문
Logistic regression model for prediction of roof fall risks in bord and pillar workings in coal mines: An approach
[11]
서적
Data Mining Techniques For Marketing, Sales and Customer Support
Wiley
[12]
논문
Household-Level Model for Hurricane Evacuation Destination Type Choice Using Hurricane Ivan Data
https://ascelibrary.[...]
2013-02-00
[13]
논문
Risk Preferences in Strategic Wildfire Decision Making: A Choice Experiment with U.S. Wildfire Managers
https://onlinelibrar[...]
2013-06-00
[14]
논문
A discrete choice model based on random utilities for exit choice in emergency evacuations
https://www.scienced[...]
2014-02-01
[15]
웹사이트
Logistic Regression
https://www.mastersi[...]
2024-03-16
[16]
논문
On the problem of the most efficient tests of statistical hypotheses
http://www.stats.org[...]
[17]
웹사이트
How to Interpret Odds Ratio in Logistic Regression?
https://stats.idre.u[...]
Institute for Digital Research and Education
[18]
서적
The Cambridge Dictionary of Statistics
https://archive.org/[...]
Cambridge University Press
[19]
기타
[20]
학회
A comparison of algorithms for maximum entropy parameter estimation
https://dl.acm.org/c[...]
2002-00-00
[21]
논문
Asymptotic Properties of the Maximum Likelihood Estimator in Dichotomous Logit Models
[22]
논문
Nonparametric estimation of dynamic discrete choice models for time series data
https://espace.libra[...]
[23]
서적
Machine Learning – A Probabilistic Perspective
The MIT Press
2012-00-00
[24]
논문
No rationale for 1 variable per 10 events criterion for binary logistic regression analysis
[25]
논문
A simulation study of the number of events per variable in logistic regression analysis
1996-12-00
[26]
논문
Relaxing the Rule of Ten Events per Variable in Logistic and Cox Regression
2007-01-12
[27]
서적
Econometric Analysis
Prentice-Hall
[28]
웹사이트
Measures of fit for logistic regression
https://support.sas.[...]
Statistical Horizons LLC and the University of Pennsylvania
[29]
논문
A comparison of goodness-of-fit tests for the logistic regression model
1997-00-00
[30]
서적
Regression Modeling Strategies: With Applications to Linear Models, Logistic Regression, and Survival Analysis
Springer
[31]
기타
[32]
웹사이트
The Equivalence of Logistic Regression and Maximum Entropy models
http://www.win-vecto[...]
2011-00-00
[33]
논문
CS229 Lecture Notes
http://akademik.bahc[...]
[34]
서적
Lecture Notes on Generalized Linear Models
http://data.princeto[...]
[35]
서적
An Introduction to Statistical Learning
http://www-bcf.usc.e[...]
Springer
[36]
저널
Comparison of Logistic Regression and Linear Discriminant Analysis: A Simulation Study
https://www.research[...]
[37]
저널
Notice sur la loi que la population poursuit dans son accroissement
https://books.google[...]
2014-12-03
[38]
harvnb
[39]
저널
Recherches mathématiques sur la loi d'accroissement de la population
http://gdz.sub.uni-g[...]
2013-02-18
[40]
harvnb
[41]
저널
Estimation of the probability of an event as a function of several independent variables
1967
[42]
서적
Frontiers in Econometrics
Academic Press
2019-04-20
[43]
서적
Applied Logistic Regression
Wiley
[44]
서적
Applied Logistic Regression
SAGE
[45]
서적
Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences
Routledge
[46]
서적
Regression Modeling Strategies
New York; Springer
[47]
저널
Modern modelling techniques are data hungry: a simulation study for predicting dichotomous endpoints
2014
[48]
저널
The regression analysis of binary sequences (with discussion)
1958
[49]
저널
The regression analysis of binary sequences (with discussion)
1958
[50]
저널
Estimation of the probability of an event as a function of several independent variables
[51]
서적
Applied Logistic Regression
Wiley
[52]
서적
Applied Logistic Regression
SAGE
[53]
서적
Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences
Routledge
[54]
저널
Evaluating trauma care: The TRISS method. Trauma Score and the Injury Severity Score
[55]
저널
Valdation of MPI and OIA II in two different groups of patients with secondary peritonitis
[56]
저널
Prognostic factors for mortality in left colonic peritonitis: a new scoring system
[57]
저널
Multiple Organ Dysfunction Score: A reliable descriptor of a complex clinical outcome
[58]
저널
A new Simplified Acute Physiology Score (SAPS II) based on a European/North American multicenter study
[59]
서적
Statistical Models: Theory and Practice
Cambridge University Press
[60]
서적
상하수도 공학
구미서관
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com