카플란-마이어 생존분석

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

카플란-마이어 생존분석은 관찰 기간 동안 사건 발생 시간 데이터를 분석하여 생존 함수를 추정하는 비모수적 통계 방법이다. 이 방법은 절단된 데이터를 처리할 수 있으며, 의료 통계에서 환자 생존율 비교 등에 널리 사용된다. 카플란-마이어 추정량은 위험 함수의 최대 우도 추정에서 유도되며, 그린우드 공식을 사용하여 분산을 추정한다. 소프트웨어 패키지를 통해 쉽게 수행할 수 있으며, 로그 순위 검정 등을 통해 여러 생존 곡선을 비교할 수 있다.

카플란-마이어 생존분석

개요

종류	비모수적 추정량
분야	생존 분석
개발자	에드워드 L. 카플란, 폴 마이어
개발일	1958년
다른 이름	곱-한계 추정량 Kaplan–Meier 추정량(영어)

세부 사항

목적	생존 함수 추정
가정	검열은 비유익적이어야 함
관련된 검정	로그 순위 검정 일반화된 Wilcoxon 검정 Cox 비례 위험 모형
유사한 방법	넬슨-에일런 추정량

📚 더 읽어볼만한 페이지

생존분석 - 감마 분포
감마 분포는 형상 모수와 척도 모수로 정의되는 연속 확률 분포로, 확률 밀도 함수가 감마 함수로 표현되며, 베이즈 통계학에서 켤레 사전 분포로 활용되고, 형상 모수가 양의 정수일 때는 얼랑 분포를 나타낸다.
생존분석 - 로그순위법
로그순위법은 생존 분석에서 두 그룹 간 생존 곡선을 비교하는 통계적 방법으로, 임상 시험과 역학 연구 등에서 치료법이나 요인이 생존 기간에 미치는 영향을 평가하는 데 활용된다.
보험계리학 - 회귀 분석
회귀 분석은 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링하고 분석하는 통계적 기법으로, 최소 제곱법 개발 이후 골턴의 연구로 '회귀' 용어가 도입되어 다양한 분야에서 예측 및 인과 관계 분석에 활용된다.
보험계리학 - 예측 분석
예측 분석은 통계학, 기계 학습 등의 분석 기법을 활용하여 과거 및 현재 데이터를 토대로 미래의 사건이나 결과를 예측하는 방법론으로, 다양한 분야에서 의사 결정 지원 및 위험 관리 등에 활용되지만, 인간 행동의 복잡성으로 인한 예측 불가능성에 대한 비판도 존재한다.
통계학 - 확률
확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다.
통계학 - 사분위수
사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.

1. 개요
2. 기본 개념
3. 문제 정의
4. 카플란-마이어 추정량의 유도
5. 장점 및 한계
6. 통계적 고려 사항
7. 소프트웨어

2. 기본 개념

카플란-마이어 생존분석은 관찰 시간에 따라 사건이 발생한 시점에서의 사건 발생률을 계산하는 방법이다. 카플란-마이어 추정량의 그래프는 일련의 감소하는 수평 단계로 나타나며, 표본 크기가 충분히 크면 해당 모집단의 실제 생존 함수에 가까워진다. 연속적인 개별 표본 관찰 사이의 생존 함수 값은 일정하다고 가정한다.

이 분석 방법의 중요한 장점 중 하나는 일부 유형의 절단된 데이터, 특히 '우측 절단'(right-censoring^영어)을 다룰 수 있다는 점이다. 우측 절단은 환자가 연구에서 이탈하거나, 추적 관찰에 실패하거나, 마지막 추적 관찰 시 사건 발생 없이 생존하는 경우에 발생한다. 그래프 상에서 작은 세로 눈금 표시는 생존 시간이 우측 절단된 개별 환자를 나타낸다. 만약 데이터에 절단이 없다면, 카플란-마이어 곡선은 Empirical distribution function^영어의 여집합이다.

의료 통계학 분야에서 흔히 볼 수 있는 응용 사례는 환자들을 특정 기준에 따라 그룹으로 나누어 비교하는 것이다. 예를 들어, 유전자 A 프로파일을 가진 환자 그룹과 유전자 B 프로파일을 가진 환자 그룹의 생존율을 비교할 수 있다. 그래프 분석을 통해, 예를 들어 유전자 B 그룹 환자들이 유전자 A 그룹 환자들보다 더 빨리 사망하는 경향을 파악할 수 있다. 특정 시점(예: 2년 후)에서 각 그룹의 생존율(예: 유전자 A 그룹 약 80%, 유전자 B 그룹 50% 미만)을 비교하여 차이를 확인할 수 있다.

카플란-마이어 추정량을 생성하기 위해서는 각 환자(또는 각 피험자)에 대해 최소 두 가지 정보가 필요하다. 바로 마지막 관찰 시점에서의 상태(사건 발생 또는 우측 절단 여부)와 해당 시점까지의 시간(사건 발생까지 또는 절단까지의 시간)이다. 만약 둘 이상의 그룹 간 생존 함수를 비교하고자 한다면, 각 피험자가 어느 그룹에 속하는지에 대한 정보가 추가로 필요하다.

3. 문제 정의

관심 있는 사건이 발생하기까지 걸리는 시간을 확률 변수 $\tau$ (타우)라고 하자 (단, $\tau \ge 0$ ). 카플란-마이어 분석의 목표는 이 확률 변수 $\tau$ 의 생존 함수 $S(t)$ 를 추정하는 것이다. 생존 함수 $S(t)$ 는 특정 시간 $t$ 보다 오래 생존할 확률, 즉 사건이 시간 $t$ 이후에 발생할 확률을 의미하며, 다음과 같이 정의된다.

: $S(t) = \operatorname{Prob}(\tau > t )$

여기서 $t=0, 1, \dots$ 는 시간을 나타낸다.

실제 연구나 관찰에서는 모든 대상( $j$ )의 정확한 사건 발생 시간( $\tau_j$ )을 끝까지 알기 어려운 경우가 많다. 예를 들어 연구 기간이 종료되거나, 대상자와의 연락이 두절되는 등의 이유로 사건 발생 여부를 확인하지 못하는 경우가 발생하는데, 이를 중도 절단(censoring)이라고 한다.

따라서 분석에 사용되는 데이터는 각 대상 $j$ ( $j=1, 2, \dots, n$ )의 실제 사건 발생 시간 $\tau_j$ 전체가 아니라, 관찰된 시간 $\tilde \tau_j$ 와 중도 절단 여부를 나타내는 정보의 쌍 $(\, ( \tilde \tau_j, c_j )\, )_{j=1,\dots,n}$ 이다. 여기서 $c_j \ge 0$ 는 각 대상 $j$ 에 대해 미리 정해진 중도 절단 시간이다.

관찰된 시간 $\tilde \tau_j$ 는 실제 사건 발생 시간 $\tau_j$ 와 중도 절단 시간 $c_j$ 중 더 작은 값으로 정의된다. 즉, $\tilde \tau_j = \min(\tau_j, c_j)$ 이다.

* 만약 $\tilde \tau_j = \tau_j$ (즉, $\tau_j < c_j$ )이면, 사건이 중도 절단 시간 $c_j$ 이전에 발생했음을 의미하며, 실제 사건 발생 시간 $\tau_j$ 를 알 수 있다.
* 만약 $\tilde \tau_j = c_j$ (즉, $\tau_j \ge c_j$ )이면, 중도 절단 시간 $c_j$ 까지 사건이 발생하지 않았다는 것만 알 수 있고, 실제 사건 발생 시간 $\tau_j$ 는 알 수 없다. 이 경우가 중도 절단된 데이터에 해당한다.

카플란-마이어 생존 분석의 과제는 이렇게 중도 절단이 포함된 관찰 데이터 $(\, ( \tilde \tau_j, c_j )\, )_{j=1,\dots,n}$ 를 이용하여 원래의 생존 함수 $S(t)$ 를 추정하는 것이다.

4. 카플란-마이어 추정량의 유도

카플란-마이어 추정량을 유도하는 방법들은 생존 함수를 특정 시점에서의 사건 발생 가능성을 나타내는 위험률(hazard rate) 또는 사망률(mortality rate) 개념을 사용하여 표현하는 것에 기반을 둔다. 이러한 접근법들은 관측된 데이터를 활용하여 시간에 따른 생존 확률을 효과적으로 추정하는 방법을 제공한다.

4.1. 순진한 추정량 (Naive Estimator)

카플란-마이어 추정량의 장점을 이해하기 위해, 먼저 생존 함수에 대한 더 간단한 추정 방법인 순진한 추정량(Naive Estimator)을 살펴보는 것이 유용하다.

$k$ 를 1부터 $n$ 까지의 정수 인덱스( $k\in [n]:=\{1,\dots,n\}$ )라 하고, 특정 시점 $t>0$ 를 생각해보자. 기본적인 논리를 통해 다음 명제를 알 수 있다.

:명제 1: 어떤 사건 $k$ 의 중도절단 시간 $c_k$ 가 시점 $t$ 이후라면( $c_k\ge t$ ), 관측된 시간 $\tilde \tau_k$ 가 $t$ 이상인 것( $\tilde \tau_k\ge t$ )은 실제 사건 발생 시간 $\tau_k$ 가 $t$ 이상인 것( $\tau_k\ge t$ )과 동일한 의미를 가진다. (여기서 $\tilde \tau_k = \min(\tau_k, c_k)$ 는 실제 사건 발생 시간과 중도절단 시간 중 더 먼저 일어난 시간이다.)

만약 어떤 사건 $k$ 에 대해 $c_k\ge t$ 가 성립한다면, 위 명제에 따라 다음이 성립한다.

: $\operatorname{Prob}(\tau_k\ge t) = \operatorname{Prob}(\tilde \tau_k\ge t).$

이제 $X_k = \mathbb{I}(\tilde \tau_k\ge t)$ 라고 정의하자. 이는 관측된 시간 $\tilde \tau_k$ 가 $t$ 이상이면 1, 아니면 0의 값을 갖는 지시 함수이다. 분석 대상을 시점 $t 이전에 결과가 중도절단되지 않은 사건들, 즉 C(t) := \{ k \, :\, c_k \ge t\} 에 속하는 k 들로 한정하자. 이 집합 C(t) 의 원소 개수를 m(t)=|C(t)| 라고 하자. 집합 C(t) 는 확률적으로 결정되는 것이 아니므로, m(t) 역시 확률적이지 않다.$

$C(t)$ 에 속하는 $k$ 들에 대한 $(X_k)_{k\in C(t)}$ 는 동일한 확률값 $S(t)=\operatorname{Prob}(\tau\ge t)$ 를 성공 확률로 가지는 독립적인 베르누이 확률 변수들의 수열이다. 여기서 $S(t)$ 는 시점 $t까지 생존(사건이 발생하지 않음)할 확률, 즉 생존 함수의 값이다. 만약 m(t)>0 이라면, S(t) 를 다음과 같이 추정할 수 있다.$

: $\hat S_\text{naive}(t)= \frac{1}{m(t)} \sum_{k:c_k\ge t} X_k= \frac$

👆

좌우로 밀어서 보기

👆

좌우로 밀어서 보기

= \frac

👆

좌우로 밀어서 보기

{m(t)}

이 식은 시점

t까지 중도절단되지 않은(c_k\ge t) 개체들 중에서, 실제로 시점 t까지 사건이 발생하지 않은(\tilde \tau_k\ge t) 개체들의 비율을 계산하는 것이다. 두 번째 등식은 \tilde \tau_k\ge t 이면 반드시 c_k\ge t 가 성립해야 하므로 (만약 c_k < t 이면 \tilde \tau_k = \min(\tau_k, c_k) \le c_k < t 가 되어 \tilde \tau_k \ge t 일 수 없다) 분자의 조건을 만족하는 k 는 자동으로 분모의 조건을 만족하기 때문에 성립한다. 마지막 등식은 단순히 표기법을 바꾼 것이다.

이 순진한 추정량의 정확성은 시점

t까지 중도절단되지 않은 개체의 수 m(t) 에 크게 의존한다. 만약 많은 개체가 일찍 중도절단되어 m(t) 가 작아지면, 추정 결과의 신뢰도가 낮아지는 문제가 발생한다. 특히 이 추정 방법의 큰 단점은, 시점 t 이전에 중도절단된(c_k < t) 모든 관측 데이터를 완전히 무시한다는 점이다. 직관적으로 생각해보면, t 이전에 중도절단된 데이터라 할지라도 S(t) 에 대한 정보를 일부 포함하고 있다. 예를 들어, c_k < t 인 많은 개체들이 중도절단되기 전에 이미 사건을 경험했다면(\tilde \tau_k = \tau_k < c_k), 이는 사건이 비교적 일찍 발생하는 경향이 있음을 시사한다. 이는 \operatorname{Prob}(\tau\le t) 가 크다는 것을 의미하며, S(t) = 1-\operatorname{Prob}(\tau\le t) 관계에 따라 S(t) 는 작을 것이라고 추론할 수 있다. 하지만 순진한 추정량은 이러한 정보를 전혀 활용하지 않는다.

따라서 모든 데이터를 더 효과적으로 활용하여 생존 함수를 추정할 수 있는 방법이 필요한데, 이것이 바로 카플란-마이어 추정량이 하는 역할이다. 만약 데이터에 중도절단이 전혀 없다면, 순진한 추정량은 경험적 생존 함수와 동일해지며 이를 개선할 여지가 없다. 즉, 추정 방법을 개선할 필요성은 중도절단 데이터의 존재 유무에 달려 있다.

4.2. 플러그인 접근법 (Plug-in Approach)

카플란-마이어 추정량을 유도하는 한 가지 방법은 생존 함수를 위험률(hazard rate) 또는 사망률(mortality rate)과 관련된 항으로 다시 작성하는 것에 기반한다.

기본적인 계산을 통해 생존 함수 $S(t)$ 는 다음과 같이 표현될 수 있다.

$\begin{align}S(t) & = \operatorname{Prob}(\tau > t\mid\tau > t-1)\operatorname{Prob}(\tau > t-1) \\[4pt]& = (1-\operatorname{Prob}(\tau\le t\mid\tau > t-1)) \operatorname{Prob}(\tau > t-1)\\[4pt]& = (1-\operatorname{Prob}(\tau=t\mid\tau \ge t)) \operatorname{Prob}(\tau > t-1) \\[4pt]& = q(t) S(t-1)\,,\end{align}$

여기서 $\tau$ 는 사건 발생 시간(예: 사망 시간)을 나타내는 확률 변수이며, 정수 값을 가진다고 가정한다. 마지막 줄에서는 다음을 정의했다.

$q(t) = 1-\operatorname{Prob}(\tau=t\mid\tau\ge t)$

이는 시간 $t-1$ 까지 생존한 개체가 시간 $t$ 에도 생존할 조건부 확률을 의미한다.

위의 관계식 $S(t) = q(t) S(t-1)$ 를 재귀적으로 확장하면, 생존 함수는 다음과 같이 각 시점에서의 조건부 생존 확률의 곱으로 나타낼 수 있다.

$S(t) = q(t) q(t-1) \cdots q(0)$

여기서 $q(0) = 1-\operatorname{Prob}(\tau=0\mid\tau > -1) = 1-\operatorname{Prob}(\tau=0)$ 이다.

카플란-마이어 추정량은 이러한 관점에서 플러그인 추정량(plug-in estimator)으로 이해할 수 있다. 즉, 각 시점에서의 조건부 생존 확률 $q(s)$ 를 실제 관측 데이터로부터 추정하고( $\hat q(s)$ ), 이 추정치들의 곱으로 전체 생존 함수 $S(t)$ 를 추정( $\hat S(t)$ )하는 방식이다.

이제 $q(s)=1-\operatorname{Prob}(\tau=s\mid\tau\ge s)$ 를 데이터로부터 어떻게 추정할지가 중요하다. 중도 절단(censoring)이 있는 데이터를 다루기 위해, 실제 사건 발생 시간 $\tau_k$ 와 중도 절단 시간 $c_k$ 를 고려하여 관측 시간 $\tilde \tau_k = \min(\tau_k, c_k)$ 를 사용한다. 중도 절단되지 않고 시간 $s$ 이후까지 관찰된 개체( $c_k\ge s$ )에 대해서는 다음이 성립한다고 가정한다.

$\operatorname{Prob}(\tau=s|\tau\ge s) = \operatorname{Prob}(\tilde \tau_k=s)/\operatorname{Prob}(\tilde \tau_k\ge s)$

이를 바탕으로 $q(s)$ 의 추정량 $\hat q(s)$ 는 다음과 같이 계산된다.

$\hat q(s)= 1 - \frac$

👆

좌우로 밀어서 보기

👆

좌우로 밀어서 보기

= 1 - \frac

👆

좌우로 밀어서 보기

👆

좌우로 밀어서 보기

분자는 시간

s

에서 사건이 발생한 개체 수이고, 분모는 시간

s

직전에 사건 발생 위험에 노출된(즉, 생존해 있던) 개체 수이다. 이는 "위험률"

\operatorname{Prob}(\tau=s|\tau\ge s)

의 정의에서 분자와 분모를 각각 데이터로부터 추정한 것과 같다.

최종적으로 카플란-마이어 추정량

\hat S(t)

는 각 시점의 추정된 조건부 생존 확률

\hat q(s)

들을 곱하여 얻어진다.

\hat S(t) = \prod_{s=0}^t \hat q(s)

이 식을 더 정리하면 문서 서두에서 제시된 형태의 추정량을 얻을 수 있다. 보험계리 표기법을 사용하여

d(s)

를 시간

s

에서 발생한 사건(예: 사망)의 수,

n(s)

를 시간

s

직전에 위험에 노출된 개체 수라고 하면,

\hat q(s)=1-d(s)/n(s)

로 쓸 수 있다.

만약 특정 시간

s

에서 사건이 발생하지 않았다면(

d(s)=0

\hat q(s)=1

이 되므로, 이 항은 전체 곱셈에서 생략할 수 있다. 따라서 곱셈은 실제로 사건이 발생한 시간들(

t_i)에 대해서만 수행하면 된다. 사건이 발생한 시간을 0\le t_1 라 하고, 각 시간 t_i 에서의 사건 발생 수를 d_i = d(t_i), 위험 노출 개체 수를 n_i = n(t_i) 라고 하면, 카플란-마이어 추정량은 다음과 같이 표현된다.

\hat S(t) = \prod_{i:t_i\le t} \left(1-\frac{d_i}{n_i}\right)

이 플러그인 접근법으로 유도된 추정량은 중도 절단된 데이터를 포함하여 사용 가능한 정보를 효과적으로 활용한다. 예를 들어, 초기에 많은 사건이 발생하는 경우, 추정치는 1보다 작은 많은 항들을 곱하게 되어 생존 확률이 빠르게 감소하는 것을 반영한다.

4.3. 최대 우도 추정 (Maximum Likelihood Estimation)

카플란-마이어 추정량은 이산 위험 함수의 최대 우도 추정으로부터 도출될 수 있다. 구체적으로, 시간 $t_i$ 에서의 사건의 수를 $d_i$ , 총 위험 개체수를 $n_i$ 라고 할 때, 이산 위험률 $h_i$ 는 시간 $t_i$ 에 사건이 발생한 개체의 확률로 정의할 수 있다. 그러면 생존율 $S(t)$ 는 각 시간 구간에서 생존할 확률(1 - 위험률)의 곱으로 다음과 같이 정의된다.

: $S(t) = \prod\limits_{i:\ t_i\le t} (1-h_i)$

시간 $t_i$ 까지의 위험 함수에 대한 우도 함수 $\mathcal{L}$ 는 각 시간 구간에서 사건이 발생할 확률( $h_j$ )과 발생하지 않을 확률( $1-h_j$ )을 고려하여 다음과 같이 표현된다. 이는 $n_j$ 개의 개체 중 $d_j$ 개의 사건이 발생하는 이항 분포의 확률 질량 함수 형태를 따른다.

: $\mathcal{L}(h_{j: j\le i}\mid d_{j: j\le i},n_{j: j\le i}) = \prod_{j=1}^i h_j^{d_j}(1-h_j)^{n_j-d_j} {n_j \choose d_j}$

계산을 용이하게 하기 위해 로그 우도 함수를 사용하며, 이는 다음과 같다.

: $\log(\mathcal{L}) = \sum_{j=1}^i \left(d_j\log(h_j)+(n_j-d_j)\log(1-h_j) + \log {n_j \choose d_j} \right)$

최대 우도 추정은 로그 우도 함수를 각 위험률 $h_i$ 에 대해 편미분하여 0이 되는 지점을 찾아 구한다. 이항 계수 항( $\log {n_j \choose d_j}$ )은 $h_i$ 와 무관하므로 미분 시 사라진다.

: $\frac{\partial \log(\mathcal{L})}{\partial h_i} = \frac{d_i}{\widehat{h}_i}-\frac{n_i-d_i}{1-\widehat{h}_i} = 0 \Rightarrow \widehat{h}_i=\frac{d_i}{n_i}$

여기서 모자 기호( $\hat{}$ )는 최대 우도 추정량임을 나타낸다. 즉, 특정 시간 $t_i$ 에서의 위험률 $h_i$ 의 최대 우도 추정량 $\widehat{h}_i$ 는 해당 시간의 위험 개체수 $n_i$ 대비 사건 발생 수 $d_i$ 의 비율이다.

이 결과를 바탕으로 카플란-마이어 생존율 추정량 $\widehat S(t)$ 는 각 시간 구간에서의 최대 우도 추정된 생존 확률( $1 - \widehat{h}_i$ )의 곱으로 다음과 같이 쓸 수 있다.

: $\widehat S(t) = \prod\limits_{i:\ t_i\le t} \left(1 - \widehat{h}_i\right) = \prod\limits_{i:\ t_i\le t} \left(1 - \frac{d_i}{n_i}\right)$

더 일반적으로, 카플란-마이어 추정량은 연속 및 이산 생존 분포 모두에 대해 비모수적 최대 우도 추정량으로 해석될 수 있다.

5. 장점 및 한계

카플란-마이어 추정량은 관찰 시간에 따라서 사건이 발생한 시점에서의 사건 발생률을 계산하는 방법이다. 이 추정량은 생존 분석에서 가장 자주 사용되는 방법 중 하나로, 회복률, 사망 확률, 그리고 치료의 효과를 검토하는 데 유용할 수 있다.

장점

* 절단 데이터 처리: 카플란-마이어 분석의 중요한 장점은 일부 유형의 절단된 데이터, 특히 환자가 연구에서 중도 탈락하거나, 추적 관찰을 놓치거나, 마지막 추적 관찰 시 사건 발생 없이 생존하는 경우 발생하는 우측 절단을 고려할 수 있다는 점이다. 그래프에서 작은 수직 눈금 표시는 생존 시간이 우측 절단된 개별 환자를 나타낸다. 절단이나 절단이 발생하지 않으면 카플란-마이어 곡선은 경험적 분포 함수의 여집합이다.
* 생존 함수 추정: 표본 크기가 충분히 크다면, 카플란-마이어 추정량 그래프(일련의 감소하는 수평 단계 형태)는 해당 모집단의 실제 생존 함수에 가깝게 근사한다. 연속적인 뚜렷한 표본 관찰 사이의 생존 함수의 값은 일정하다고 가정한다.
* 그룹 비교 용이성: 의료 통계에서 환자 그룹 간의 생존율 차이를 비교하는 데 유용하게 활용된다. 예를 들어, 유전자 A 프로필을 가진 환자 그룹과 유전자 B 프로필을 가진 환자 그룹의 생존 기간을 비교할 수 있다. 그래프를 통해 유전자 B를 가진 환자는 유전자 A를 가진 환자보다 훨씬 빨리 사망한다는 것을 시각적으로 파악할 수 있다. 예를 들어 2년 후, 유전자 A 환자의 약 80%가 생존하지만 유전자 B 환자의 절반 미만이 생존하는 식이다.

한계

* 공변량 조정의 어려움: 카플란-마이어 추정량은 다른 요인, 즉 공변량의 영향을 반영하여 생존율을 조정하는 데에는 제한이 있다.
* 대안적 방법: 공변량에 맞춰 생존율을 추정해야 할 경우에는, 모수적 생존 모형이나 콕스 비례 위험 모형과 같은 다른 통계적 방법들이 유용할 수 있다.

기타

카플란-마이어 추정량을 생성하려면 각 환자(또는 각 피험자)에 대해 최소 두 개의 데이터 조각이 필요하다: 마지막 관찰 시 상태(사건 발생 또는 우측 절단)와 사건 발생 시간(또는 절단 시간)이 그것이다. 만약 둘 이상의 그룹 간의 생존 함수를 비교하려면 세 번째 데이터 조각, 즉 각 피험자의 그룹 할당이 필요하다. 또한, 카플란-마이어 추정량은 넬슨-앨런 추정량과 직접적인 관련이 있으며, 둘 다 경험적 가능도를 최대화한다.

6. 통계적 고려 사항

카플란-마이어 추정량은 통계량이며, 그 분산을 근사하기 위해 몇 가지 추정량이 사용된다. 가장 일반적인 추정량 중 하나는 그린우드 공식이다.

: $\widehat{\operatorname{Var}} \left( \widehat S(t) \right) = \widehat S(t)^2 \sum_{i:\ t_i\le t} \frac{d_i}{n_i(n_i-d_i)},$

여기서, $d_i$ 는 사례 수, $n_i$ 는 관측의 총수이며, $t_i < t$ 이다.

경우에 따라, 서로 다른 카플란-마이어 곡선을 비교하고 싶을 수 있다. 이것은 로그 순위 검정 및 콕스 비례 위험 검정을 통해 수행할 수 있다.

이 추정량에 사용할 수 있는 다른 통계량은 홀-웰너 밴드(Hall-Wellner band) 및 등정밀 밴드(equal-precision band)이다.

7. 소프트웨어

* Epi Info: KMSURVIVAL 명령으로 카플란-마이어 추정량 생존 곡선 및 로그 순위 검정 결과를 얻을 수 있다.
* Julia: Survival.jl 패키지에 카플란-마이어 추정량이 포함되어 있다.
* MATLAB: ecdf 함수에 'function','survivor' 인수를 사용하여 카플란-마이어 추정량을 계산하거나 플로팅할 수 있다.
* Mathematica: 내장 함수 SurvivalModelFit은 생존 모델을 생성한다.
* Python: lifelines 및 scikit-survival 패키지에 카플란-마이어 추정량이 포함되어 있다.
* R: 카플란-마이어 추정량은 survival 패키지의 일부로 제공된다.
* SAS: 카플란-마이어 추정량은 proc lifetest 프로시저에 구현되어 있다.
* SPSS: 카플란-마이어 추정량은 Analyze > Survival > Kaplan-Meier... 메뉴에 구현되어 있다.
* Stata: sts 명령은 카플란-마이어 추정량을 반환한다.
* StatsDirect: 카플란-마이어 추정량은 Survival Analysis 메뉴에 구현되어 있다.

종류	비모수적 추정량
분야	생존 분석
개발자	에드워드 L. 카플란, 폴 마이어
개발일	1958년
다른 이름	곱-한계 추정량 Kaplan–Meier 추정량(영어)

세부 사항

목적	생존 함수 추정
가정	검열은 비유익적이어야 함
관련된 검정	로그 순위 검정 일반화된 Wilcoxon 검정 Cox 비례 위험 모형
유사한 방법	넬슨-에일런 추정량