포아송 회귀
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
포아송 회귀는 종속 변수가 사건의 수와 같이 계수일 때 사용되는 회귀 분석의 한 종류이다. 독립 변수와 종속 변수 간의 관계를 모델링하며, 사건의 발생률을 예측하는 데 사용된다. 포아송 회귀는 일반적으로 최대 우도 추정법을 사용하여 매개변수를 추정하며, 과대산포 및 영과잉과 같은 문제를 해결하기 위해 다른 모델을 사용할 수도 있다. 또한, 생존 분석과도 연관되어 있으며, 정규화를 통해 모델의 성능을 향상시킬 수 있다.
더 읽어볼만한 페이지
- 일반화 선형 모형 - 일반화 가법 모델
일반화 가법 모델은 다변수 연속 함수를 단변수 함수의 합과 합성으로 나타내어 관찰된 양의 기댓값을 근사하는 통계적 모델이며, 다양한 형태의 모델을 포함하고 지수족 반응 분포뿐만 아니라 다른 모수도 모델링할 수 있다. - 수리적 방법과 정량적 방법 (경제학) - 안정성 이론
안정성 이론은 미분 방정식과 동역학적 시스템의 해의 점근적 성질과 궤적을 다루며, 평형점, 주기 궤도의 안정성, 섭동과 선형화, 랴푸노프 함수 등을 사용하여 시스템의 안정성을 분석한다. - 수리적 방법과 정량적 방법 (경제학) - 모형 선택
모형 선택은 데이터에 가장 적합한 통계 모형을 선택하는 과정으로, 과학적 발견을 위한 통계적 추론과 통계적 예측으로 나뉘며, AIC, BIC, 교차 검증 등의 기준을 활용하여 모델의 적합도와 복잡성을 평가한다.
포아송 회귀 | |
---|---|
개요 | |
유형 | 일반화 선형 모형 |
반응 변수 유형 | 계수 데이터 |
분포 | 푸아송 분포 |
관련 항목 | |
관련 통계 | 과다 분산, 영 과다 |
대안 | |
대안 | 음이항 회귀 제로-팽창 모델 인플레이션 모델 |
2. 회귀 모형
포아송 회귀는 종속 변수가 사건의 수와 같이 계수(count)일 때 적합한 회귀 모형이다.[3] 예를 들어, 전화 상담 센터에 걸려온 전화 횟수나 숲에서 발견된 특정 종의 나무 수 등을 모델링할 때 사용될 수 있다. 이때 사건은 서로 독립적이어야 하지만, 단위 시간당 사건 발생 확률은 시간과 같은 공변량(covariate)과 관련이 있을 수 있다.
포아송 회귀는 비율 데이터에도 적합하다. 여기서 비율은 어떤 단위의 '노출'(특정 관측 단위)에 대한 사건의 수를 나눈 값이다.[4] 예를 들어, 단위 면적당 나무 종의 수, 인년(person-years)당 사망자 수 등이 이에 해당한다. 이러한 경우, 노출은 각각 단위 면적, 인년, 단위 시간이 된다. 포아송 회귀에서는 log(노출)을 회귀 계수에 추가하는 방식으로 처리하는데, 이를 오프셋 변수라고 한다.
일반화 선형 모형(GLM)에서 R의 오프셋은 `offset()` 함수를 사용하여 구현할 수 있다.
glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )
푸아송 분포의 특징은 평균과 분산이 같다는 것이다. 그러나 실제 데이터에서는 관측된 분산이 평균보다 큰 과대산포가 나타날 수 있다. 이는 모델이 적절하지 않음을 의미하며, 관련 설명 변수 누락이나 종속적인 관측 등이 원인일 수 있다. 이 경우 준우도 추정 또는 음이항 분포를 대신 사용할 수 있다.[5][6]
Ver Hoef와 Boveng은 준푸아송과 음이항(감마-푸아송)의 차이를 설명했다.[7] 준푸아송은 var(''Y'') = ''θμ''를, 감마-푸아송은 var(''Y'') = ''μ''(1 + ''κμ'')를 가정한다. (여기서 ''E''(''Y'') = ''μ'', ''θ''는 준푸아송 과대산포 매개변수, ''κ''는 음이항 분포의 형태 매개변수) 두 모델 모두 반복 가중 최소 제곱으로 매개변수를 추정한다. 준푸아송의 가중치는 ''μ''/''θ'', 음이항의 가중치는 ''μ''/(1 + ''κμ'')이다. ''μ''가 크고 추가적인 푸아송 변동이 상당하면 음이항 가중치는 1/''κ''로 제한된다.
포아송 회귀에서 흔히 발생하는 또 다른 문제는 영(0)의 과다 발생이다. 사건 발생 여부를 결정하는 과정과 사건 발생 수를 결정하는 푸아송 과정이 আলাদা 존재한다면, 실제 0의 개수가 포아송 회귀 예측보다 많아진다. 이 경우 영과다 모형이나 음이항 모형이 더 적합할 수 있다.
반대로, 과소산포는 매개변수 추정에 문제를 야기할 수 있다.[8]
포아송 회귀는 생존 분석의 한 종류인 비례 위험 모형을 생성한다. 콕스 비례 위험 모형에 대한 설명은 비례 위험 모형 문서를 참조하면 된다.
2. 1. 모형 정의
만약 이 독립 변수의 벡터라면, 모형은 다음 형식을 취한다.:
여기서 이고 이다. 때때로 이것은 다음과 같이 더 간결하게 쓰인다.
:
여기서 는 이제 숫자 1에 연결된 ''n''개의 독립 변수로 구성된 (''n'' + 1)차원 벡터이다. 여기서 는 단순히 에 연결된 이다.
따라서 포아송 회귀 모형 와 입력 벡터 가 주어지면, 관련 포아송 분포의 예측 평균은 다음과 같다.
:
만약 가 예측 변수의 해당 값 을 가진 통계적 독립 관측치라면, 는 최대 우도 추정으로 추정할 수 있다. 최대 우도 추정량은 닫힌 형식 표현이 없으며 수치적 방법을 통해 찾아야 한다. 최대 우도 포아송 회귀의 확률 표면은 항상 오목하므로 뉴턴-랩슨 또는 기타 기울기 기반 방법이 적절한 추정 기술이다.
2. 2. 계수 해석
단일 예측 변수를 가진 모델, 즉 을 가정해 보자.:
와 지점에서 예측값을 계산한다고 가정해 보자.
:
:
두 번째 식에서 첫 번째 식을 빼면 다음과 같다.
:
이제 이라고 가정해 보자. 다음을 얻는다.
:
따라서 모델의 계수는 독립 변수가 1 증가할 때 결과 변수의 개수의 로그가 증가하는 것으로 해석된다.
로그의 규칙을 적용하면 다음과 같다.
:
:
:
즉, 독립 변수가 1 증가하면 결과 변수는 지수화된 계수로 곱해진다.
지수화된 계수는 '발생률 비'라고도 한다.
2. 3. 평균 부분 효과 (Average Partial Effect)
대개 관심 대상은 평균 부분 효과 또는 평균 한계 효과 인데, 이는 독립 변수 가 1단위 변했을 때 결과 의 변화로 해석된다. 연속적인 에 대한 포아송 모형의 평균 부분 효과는 다음과 같다.[2]:
이는 포아송 모형의 계수 추정치 와 의 관측값을 사용하여 추정할 수 있다.
3. 모수 추정
가 독립 변수의 벡터일 때, 포아송 회귀 모형은 또는 더 간결하게 형태를 취한다. 여기서 는 1이 추가된 (''n'' + 1)차원 벡터이고, 는 와 를 결합한 것이다. 포아송 회귀 모형 와 입력 벡터 가 주어지면, 예측 평균은 이다.
가 통계적 독립 관측치이고, 예측 변수가 일 때, 모수 는 최대 우도 추정으로 추정할 수 있다. 최대 우도 추정량은 닫힌 형태가 없어 수치적 방법으로 구해야 한다. 확률 표면은 항상 오목하므로 뉴턴-랩슨 같은 기울기 기반 방법이 적절하다.
3. 1. 최대 우도 추정법
이 독립 변수의 벡터라면, 포아송 회귀 모형은 다음 형식을 취한다.:
여기서 이고 이다. 때때로 이것은 다음과 같이 더 간결하게 쓰인다.
:
여기서 는 이제 숫자 1에 연결된 ''n''개의 독립 변수로 구성된 (''n'' + 1)차원 벡터이고, 는 에 를 연결한 것이다.
만약 가 예측 변수의 해당 값 을 가진 통계적 독립 관측치라면, 는 최대 우도 추정으로 추정할 수 있다. 최대 우도 추정량은 닫힌 형식 표현이 없으며 수치적 방법을 통해 찾아야 한다. 최대 우도 포아송 회귀의 확률 표면은 항상 오목하므로 뉴턴-랩슨 또는 기타 기울기 기반 방법이 적절한 추정 기술이다.
주어진 파라미터 집합 ''θ''와 입력 벡터 ''x''에 대해, 예측된 푸아송 분포의 평균은 다음과 같다.
:
따라서, 푸아송 분포의 확률 질량 함수는 다음과 같다.
:
의 ''m''개의 벡터와 의 ''m''개의 값으로 구성된 데이터 집합이 주어졌다고 가정하면, 주어진 파라미터 집합 ''θ''에 대해, 이 특정 데이터 집합을 얻을 확률은 다음과 같다.
:
최대 우도 추정 방법을 사용하여, 이 확률을 최대한 크게 만드는 파라미터 집합 ''θ''를 찾는다. 이를 위해, 먼저 방정식을 ''θ''에 대한 우도 함수로 다시 작성한다.
:
위 식에서 우변은 변경되지 않았다. 이러한 형식의 수식은 다루기 어려우므로, ''로그 우도''를 사용한다.
:
파라미터 ''θ''는 합계의 각 항의 처음 두 항에만 나타난다. 따라서 ''θ''에 대한 최상의 값만 찾는 데 관심이 있다면, ''y''''i''
:
최댓값을 찾기 위해, 방정식을 풀어야 하는데, 이 방정식은 폐쇄형 해를 갖지 않는다. 그러나 음의 로그 우도, 는 볼록 함수이므로, 경사 하강법과 같은 표준 볼록 최적화 기법을 적용하여 ''θ''의 최적값을 찾을 수 있다.
4. 실제 적용
포아송 회귀는 종속 변수가 전화 상담 센터에 걸려온 전화와 같은 사건의 수와 같이 계수일 때 적합할 수 있다.[3] 사건은 한 통화의 도착이 다른 통화의 발생 가능성을 높이거나 낮추지 않는다는 의미에서 독립적이어야 하지만, 단위 시간당 사건 발생 확률은 시간과 같은 공변량과 관련이 있는 것으로 이해된다.
4. 1. 노출 (Exposure)과 오프셋 (Offset)
포아송 회귀는 비율 데이터에도 적합할 수 있는데, 여기서 비율은 어떤 단위의 '노출'(특정 관측 단위)에 대한 사건의 수를 나눈 값이다.[4] 예를 들어, 생물학자들은 숲의 나무 종 수를 셀 수 있다. 이때 사건은 나무 관찰, 노출은 단위 면적, 비율은 단위 면적당 종의 수가 된다. 인구 통계학자들은 지역의 사망률을 사망자 수를 인년(person−years)으로 나눈 값으로 모델링할 수 있다. 더 일반적으로, 사건 비율은 단위 시간당 사건 수로 계산될 수 있으며, 이를 통해 각 단위에 대한 관찰 기간을 다양하게 할 수 있다. 이러한 예에서 노출은 각각 단위 면적, 인년 및 단위 시간이다. 포아송 회귀에서 이것은 '오프셋'으로 처리된다. 비율이 (사건 수)/(노출)인 경우, 방정식의 양변에 노출을 곱하면 방정식의 우변으로 이동한다. 그런 다음 방정식의 양변에 로그를 취하면 최종 모델은 회귀 계수에 추가되는 항으로 log영어(노출)을 포함한다. 이 로그 변수, log영어(노출)은 오프셋 변수라고 하며, 매개변수 추정치(log영어(노출)에 대해)가 1로 제한된 상태로 방정식의 오른쪽에 들어간다.:
는 다음을 의미한다.
:
일반화 선형 모형(GLM)에서 R의 오프셋은 `offset()` 함수를 사용하여 구현할 수 있다.
4. 2. 과대산포 (Overdispersion)와 영과잉 (Zero Inflation)
푸아송 분포는 평균과 분산이 같다는 특징을 가진다. 그러나 특정 상황에서는 관측된 분산이 평균보다 큰 경우가 있는데, 이를 과대산포라고 하며 모델이 적절하지 않음을 의미한다. 일반적인 원인으로는 관련된 설명 변수를 생략하거나 종속적인 관측을 누락하는 경우가 있다. 과대산포 문제는 준우도 추정이나 음이항 분포를 대신 사용하여 해결할 수 있다.[5][6]Ver Hoef와 Boveng은 준푸아송(준우도에 의한 과대산포)과 음이항(감마-푸아송)의 차이를 다음과 같이 설명했다. ''E''(''Y'') = ''μ''일 때, 준푸아송 모델은 var(''Y'') = ''θμ''를 가정하고, 감마-푸아송은 var(''Y'') = ''μ''(1 + ''κμ'')를 가정한다. 여기서 ''θ''는 준푸아송 과대산포 매개변수이고, ''κ''는 음이항 분포의 형태 매개변수이다. 두 모델 모두 반복 가중 최소 제곱을 사용하여 매개변수를 추정한다. 준푸아송의 경우 가중치는 ''μ''/''θ''이다. 음이항의 경우 가중치는 ''μ''/(1 + ''κμ'')이다. ''μ''가 크고 추가적인 푸아송 변동이 상당할 경우, 음이항 가중치는 1/''κ''로 제한된다. Ver Hoef와 Boveng은 평균 제곱 잔차와 평균을 그래프로 그려 이 둘 중에서 선택한 사례를 논의했다.[7]
푸아송 회귀에서 흔히 발생하는 또 다른 문제는 0의 과다 발생이다. 이는 두 가지 과정이 작용하는 경우에 발생하는데, 하나는 사건 발생 여부(0개인지 아닌지)를 결정하고, 다른 하나는 푸아송 과정으로 사건의 수를 결정한다. 이 경우 푸아송 회귀가 예측하는 것보다 더 많은 0이 관측된다. 예를 들어, 비흡연자 그룹 구성원이 한 시간 동안 피운 담배 개수 분포가 이러한 경우에 해당한다.
이러한 경우에는 일반화 선형 모형의 다른 모델, 예를 들어 음이항 모형이나 영과다 모형이 더 적합할 수 있다.
반대로, 과소산포는 매개변수 추정에 문제를 일으킬 수 있다.[8]
5. 생존 분석과의 연관성
포아송 회귀는 생존 분석의 한 종류인 비례 위험 모형을 생성한다. 콕스 비례 위험 모형에 대한 설명은 비례 위험 모형을 참조하라.
6. 확장
포아송 회귀에서 매개변수를 추정할 때, 일반식 의 가능도를 최대화하는 ''θ'' 값을 찾는다.[9] 여기서 ''m''은 데이터 세트의 예제 수이고, 는 평균이 인 포아송 분포의 확률 질량 함수이다. 이 최적화 문제에 정규화를 추가하여 과적합을 줄일 수 있으며, 이는 릿지 회귀와 유사한 기법이다.
6. 1. 정규화된 포아송 회귀 (Regularized Poisson Regression)
일반적으로 포아송 회귀의 매개변수를 추정할 때, 데이터 세트의 예제 수가 ''m''이고 평균이 인 포아송 분포의 확률 질량 함수가 일 때, 다음 식의 가능도를 최대화하는 ''θ'' 값을 찾는다.[9]:
다음 식을 최대화하여 이 최적화 문제에 정규화를 추가할 수 있다.[9]
:
여기서 는 양의 상수이다. 이 기법은 릿지 회귀와 유사하며 과적합을 줄일 수 있다.
참조
[1]
논문
Log Linear Models for Contingency Tables: A Generalization of Classical Least Squares
https://doi.org/10.2[...]
[2]
서적
Econometric Analysis of Cross Section and Panel Data
The MIT Press
2010
[3]
서적
Econometric Analysis
https://archive.org/[...]
Prentice-Hall
[4]
논문
The Analysis of Rates Using Poisson Regression Models
https://doi.org/10.2[...]
[5]
논문
Multiple routes to delinquency? A test of developmental and general theories of crime
[6]
논문
Overdispersion and Poisson regression
[7]
논문
Quasi-Poisson vs. Negative Binomial Regression: How should we model overdispersed count data?
http://digitalcommon[...]
2016-09-01
[8]
논문
Is eliciting dependency worth the effort? A study for the multivariate Poisson-Gamma probability model
2021-11-23
[9]
논문
Fitting survival data with penalized Poisson regression
Springer Nature
2011-09-08
[10]
저널
Log Linear Models for Contingency Tables: A Generalization of Classical Least Squares
https://doi.org/10.2[...]
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com