카플란-마이어 생존분석
1. 개요
카플란-마이어 생존분석은 관찰 기간 동안 사건 발생 시간 데이터를 분석하여 생존 함수를 추정하는 비모수적 통계 방법이다. 이 방법은 절단된 데이터를 처리할 수 있으며, 의료 통계에서 환자 생존율 비교 등에 널리 사용된다. 카플란-마이어 추정량은 위험 함수의 최대 우도 추정에서 유도되며, 그린우드 공식을 사용하여 분산을 추정한다. 소프트웨어 패키지를 통해 쉽게 수행할 수 있으며, 로그 순위 검정 등을 통해 여러 생존 곡선을 비교할 수 있다.
| 종류 | 비모수적 추정량 |
|---|---|
| 분야 | 생존 분석 |
| 개발자 | 에드워드 L. 카플란, 폴 마이어 |
| 개발일 | 1958년 |
| 다른 이름 | 곱-한계 추정량 Kaplan–Meier 추정량(영어) |
| 목적 | 생존 함수 추정 |
|---|---|
| 가정 | 검열은 비유익적이어야 함 |
| 관련된 검정 | 로그 순위 검정 일반화된 Wilcoxon 검정 Cox 비례 위험 모형 |
| 유사한 방법 | 넬슨-에일런 추정량 |
-
생존분석 -
감마 분포
감마 분포는 형상 모수와 척도 모수로 정의되는 연속 확률 분포로, 확률 밀도 함수가 감마 함수로 표현되며, 베이즈 통계학에서 켤레 사전 분포로 활용되고, 형상 모수가 양의 정수일 때는 얼랑 분포를 나타낸다. -
생존분석 -
로그순위법
로그순위법은 생존 분석에서 두 그룹 간 생존 곡선을 비교하는 통계적 방법으로, 임상 시험과 역학 연구 등에서 치료법이나 요인이 생존 기간에 미치는 영향을 평가하는 데 활용된다. -
통계학 -
확률
확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다. -
통계학 -
사분위수
사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다. -
보험계리학 -
회귀 분석
회귀 분석은 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링하고 분석하는 통계적 기법으로, 최소 제곱법 개발 이후 골턴의 연구로 '회귀' 용어가 도입되어 다양한 분야에서 예측 및 인과 관계 분석에 활용된다. -
보험계리학 -
예측 분석
예측 분석은 통계학, 기계 학습 등의 분석 기법을 활용하여 과거 및 현재 데이터를 토대로 미래의 사건이나 결과를 예측하는 방법론으로, 다양한 분야에서 의사 결정 지원 및 위험 관리 등에 활용되지만, 인간 행동의 복잡성으로 인한 예측 불가능성에 대한 비판도 존재한다.
2. 기본 개념
카플란-마이어 생존분석은 관찰 시간에 따라 사건이 발생한 시점에서의 사건 발생률을 계산하는 방법이다. 카플란-마이어 추정량의 그래프는 일련의 감소하는 수평 단계로 나타나며, 표본 크기가 충분히 크면 해당 모집단의 실제 생존 함수에 가까워진다. 연속적인 개별 표본 관찰 사이의 생존 함수 값은 일정하다고 가정한다.
이 분석 방법의 중요한 장점 중 하나는 일부 유형의 절단된 데이터, 특히 '우측 절단'(right-censoring영어)을 다룰 수 있다는 점이다. 우측 절단은 환자가 연구에서 이탈하거나, 추적 관찰에 실패하거나, 마지막 추적 관찰 시 사건 발생 없이 생존하는 경우에 발생한다. 그래프 상에서 작은 세로 눈금 표시는 생존 시간이 우측 절단된 개별 환자를 나타낸다. 만약 데이터에 절단이 없다면, 카플란-마이어 곡선은 Empirical distribution function영어의 여집합이다.
의료 통계학 분야에서 흔히 볼 수 있는 응용 사례는 환자들을 특정 기준에 따라 그룹으로 나누어 비교하는 것이다. 예를 들어, 유전자 A 프로파일을 가진 환자 그룹과 유전자 B 프로파일을 가진 환자 그룹의 생존율을 비교할 수 있다. 그래프 분석을 통해, 예를 들어 유전자 B 그룹 환자들이 유전자 A 그룹 환자들보다 더 빨리 사망하는 경향을 파악할 수 있다. 특정 시점(예: 2년 후)에서 각 그룹의 생존율(예: 유전자 A 그룹 약 80%, 유전자 B 그룹 50% 미만)을 비교하여 차이를 확인할 수 있다.
카플란-마이어 추정량을 생성하기 위해서는 각 환자(또는 각 피험자)에 대해 최소 두 가지 정보가 필요하다. 바로 마지막 관찰 시점에서의 상태(사건 발생 또는 우측 절단 여부)와 해당 시점까지의 시간(사건 발생까지 또는 절단까지의 시간)이다. 만약 둘 이상의 그룹 간 생존 함수를 비교하고자 한다면, 각 피험자가 어느 그룹에 속하는지에 대한 정보가 추가로 필요하다.
3. 문제 정의
관심 있는 사건이 발생하기까지 걸리는 시간을 확률 변수 (타우)라고 하자 (단, ). 카플란-마이어 분석의 목표는 이 확률 변수 의 생존 함수 를 추정하는 것이다. 생존 함수 는 특정 시간 보다 오래 생존할 확률, 즉 사건이 시간 이후에 발생할 확률을 의미하며, 다음과 같이 정의된다.
:
여기서 는 시간을 나타낸다.
실제 연구나 관찰에서는 모든 대상()의 정확한 사건 발생 시간()을 끝까지 알기 어려운 경우가 많다. 예를 들어 연구 기간이 종료되거나, 대상자와의 연락이 두절되는 등의 이유로 사건 발생 여부를 확인하지 못하는 경우가 발생하는데, 이를 중도 절단(censoring)이라고 한다.
따라서 분석에 사용되는 데이터는 각 대상 ()의 실제 사건 발생 시간 전체가 아니라, 관찰된 시간 와 중도 절단 여부를 나타내는 정보의 쌍 이다. 여기서 는 각 대상 에 대해 미리 정해진 중도 절단 시간이다.
관찰된 시간 는 실제 사건 발생 시간 와 중도 절단 시간 중 더 작은 값으로 정의된다. 즉, 이다.
* 만약 (즉, )이면, 사건이 중도 절단 시간 이전에 발생했음을 의미하며, 실제 사건 발생 시간 를 알 수 있다.
* 만약 (즉, )이면, 중도 절단 시간 까지 사건이 발생하지 않았다는 것만 알 수 있고, 실제 사건 발생 시간 는 알 수 없다. 이 경우가 중도 절단된 데이터에 해당한다.
카플란-마이어 생존 분석의 과제는 이렇게 중도 절단이 포함된 관찰 데이터 를 이용하여 원래의 생존 함수 를 추정하는 것이다.
4. 카플란-마이어 추정량의 유도
카플란-마이어 추정량을 유도하는 방법들은 생존 함수를 특정 시점에서의 사건 발생 가능성을 나타내는 위험률(hazard rate) 또는 사망률(mortality rate) 개념을 사용하여 표현하는 것에 기반을 둔다. 이러한 접근법들은 관측된 데이터를 활용하여 시간에 따른 생존 확률을 효과적으로 추정하는 방법을 제공한다.
4.1. 순진한 추정량 (Naive Estimator)
카플란-마이어 추정량의 장점을 이해하기 위해, 먼저 생존 함수에 대한 더 간단한 추정 방법인 순진한 추정량(Naive Estimator)을 살펴보는 것이 유용하다.
를 1부터 까지의 정수 인덱스()라 하고, 특정 시점 를 생각해보자. 기본적인 논리를 통해 다음 명제를 알 수 있다.
:명제 1: 어떤 사건 의 중도절단 시간 가 시점 이후라면(), 관측된 시간 가 이상인 것()은 실제 사건 발생 시간 가 이상인 것()과 동일한 의미를 가진다. (여기서 는 실제 사건 발생 시간과 중도절단 시간 중 더 먼저 일어난 시간이다.)
만약 어떤 사건 에 대해 가 성립한다면, 위 명제에 따라 다음이 성립한다.
:
이제 라고 정의하자. 이는 관측된 시간 가 이상이면 1, 아니면 0의 값을 갖는 지시 함수이다. 분석 대상을 시점