맨위로가기

로그순위법

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

로그순위법은 두 군의 생존률을 비교하기 위해 사용되는 통계적 방법이다. 이 방법은 관찰 기간 동안 사건 발생 시점을 기준으로 각 군의 위험 함수 추정치를 비교하며, 귀무 가설 하에서 각 군의 생존률을 평가한다. 로그순위 통계량은 관찰된 사건 시간에서 두 그룹의 위험 함수 추정치를 비교하며, 점근적으로 표준 정규 분포를 따른다. 로그순위 검정은 중도 절단이 예후와 관련이 없고, 생존 확률이 등록 시점에 관계없이 동일하며, 사건이 특정 시간에 발생한다는 가정을 기반으로 한다.

더 읽어볼만한 페이지

  • 생존분석 - 감마 분포
    감마 분포는 형상 모수와 척도 모수로 정의되는 연속 확률 분포로, 확률 밀도 함수가 감마 함수로 표현되며, 베이즈 통계학에서 켤레 사전 분포로 활용되고, 형상 모수가 양의 정수일 때는 얼랑 분포를 나타낸다.
  • 생존분석 - 베이불 분포
    베이불 분포는 고장률이 시간의 거듭제곱에 비례하는 확률 분포로, 모양 모수와 척도 모수를 사용하여 정의되며, 재료 과학, 신뢰성 공학 등 다양한 분야에서 활용된다.
로그순위법
일반 정보
종류통계적 가설 검정
분야생존 분석
다른 이름
영어 이름Log-rank test
다른 이름Mantel–Cox test
개발자
개발자네이선 맨텔
리처드 피토

2. 정의

로그순위법은 두 집단의 생존 경험을 비교하는 데 사용되는 비모수적 방법이다.[13] 주로 의학 연구에서 특정 치료법이나 약물의 효과를 평가하기 위해 치료군과 대조군의 생존 시간을 비교할 때 활용된다. 이 검정의 핵심은 각 관찰된 사건 발생 시점에서 두 그룹의 위험 함수(hazard function) 추정치를 비교하는 것이다.

로그순위 검정은 두 그룹의 위험 함수가 동일하다는 귀무 가설(H_0)을 설정하고 시작한다. 즉, H_0 : h_1(t) = h_2(t)로, 이는 시간에 따른 사건 발생 위험(예: 사망 위험)이 두 그룹 간에 차이가 없다고 가정하는 것이다. 이 가설 하에서, 각 사건 발생 시점(j)에 관찰된 사건들은 각 그룹의 위험군 크기에 비례하여 분포될 것으로 기대한다.

검정 통계량은 각 사건 발생 시점에서 관찰된 그룹별 사건 수(O_{i,j})와 귀무 가설 하에서 기대되는 사건 수(E_{i,j})의 차이를 계산하고, 이를 모든 사건 발생 시점에 걸쳐 합산하여 구한다. 기대 사건 수와 그 분산(V_{i,j})은 초기하분포의 원리를 이용하여 계산된다. 로그순위 검정 통계량 Z는 관찰된 사건 수와 기대 사건 수의 총 차이를, 그 차이의 표준 오차로 나눈 값으로 다음과 같이 정의된다:

:Z = \frac {\sum_{j=1}^J (O_{i,j} - E_{i,j})} {\sqrt {\sum_{j=1}^J V_{i,j}}}

중심 극한 정리에 따라, 사건 발생 시점의 수(J)가 충분히 크면 이 Z 통계량의 분포는 표준 정규 분포(\mathcal N(0,1))에 근사한다. 이 근사 분포를 이용하여 계산된 Z 값의 통계적 유의성을 평가하고, 귀무 가설의 기각 여부를 판단하여 두 그룹 간 생존 경험에 차이가 있는지를 결론 내린다.[7]

2. 1. 계산 과정

로그순위법의 계산 과정은 비교하려는 두 그룹(예: 특정 치료를 받은 치료군과 받지 않은 대조군)의 데이터를 통합하여 시작한다. 먼저, 두 그룹의 모든 대상자를 관찰 기간 순서대로 배열한다. 이때 추적 관찰 기간 중 연락 두절이나 다른 원인으로 인해 최종 결과를 알 수 없게 된 경우(이를 '중도절단'(censored)이라고 한다)는 분석에서 제외한다. 그 후, 실제 사건(예: 사망, 질병 재발 등)이 발생한 각 시점(j)에 주목한다.[13]

각 사건 발생 시점 j (j=1, \ldots, J)마다 다음 값들을 계산한다:

  • N_{1,j}N_{2,j}: 시점 j 직전에 각 그룹(그룹 1, 그룹 2)에서 아직 사건을 경험하지 않았고 중도절단되지 않아 사건 발생 가능성이 있는 대상자 수('위험군'이라고도 한다).
  • O_{1,j}O_{2,j}: 시점 j에 각 그룹에서 실제로 관찰된 사건 수.
  • N_j: 시점 j 직전에 전체 대상자 중 사건 발생 가능성이 있는 대상자 총수 (N_j = N_{1,j} + N_{2,j}).
  • O_j: 시점 j에 전체 대상자 중에서 관찰된 사건 총수 (O_j = O_{1,j} + O_{2,j}).


로그순위 검정의 핵심 아이디어는 귀무 가설(H_0)을 설정하고 이를 검정하는 것이다. 귀무 가설은 "두 그룹의 위험 함수가 동일하다(H_0 : h_1(t) = h_2(t))"는 것으로, 이는 두 그룹 간 생존 경험(사건 발생률)에 차이가 없다고 가정하는 것이다.[13]

이 귀무 가설이 맞다면, 특정 시점 j에서 발생한 총 사건 수(O_j)는 각 그룹의 위험군 크기(N_{1,j}, N_{2,j})에 비례하여 분포될 것으로 기대할 수 있다. 구체적으로, 각 그룹 i(i=1 또는 2)에서 시점 j에 관찰된 사건 수 O_{i,j}는 모수가 N_j, N_{i,j}, O_j인 초기하분포를 따른다고 본다. 이 분포로부터 각 그룹별로 기대되는 사건 수(E_{i,j})와 그 분산(V_{i,j})을 계산할 수 있다:

  • 기대 사건 수: E_{i,j} = N_{i,j} \times \frac{O_j}{N_j}
  • 이는 시점 j에서 전체 위험군(N_j) 중 그룹 i가 차지하는 비율(N_{i,j}/N_j)만큼 전체 사건(O_j)이 그룹 i에서 발생할 것이라고 기대하는 값이다.
  • 분산: V_{i,j} = E_{i,j} \times \left( \frac{N_j - O_j}{N_j} \right) \times \left( \frac{N_j - N_{i,j}}{N_j - 1} \right)


로그순위 검정 통계량 Z는 모든 사건 발생 시점(j=1부터 J까지)에 걸쳐 각 그룹에서 관찰된 총 사건 수와 기대된 총 사건 수의 차이를 비교한다. 통계량은 다음과 같이 계산된다 (그룹 i=1 또는 2 중 하나에 대해 계산하며, 다른 그룹은 부호만 반대이다):

:Z = \frac {\sum_{j=1}^J (O_{i,j} - E_{i,j})} {\sqrt {\sum_{j=1}^J V_{i,j}}}

여기서 분자는 모든 시점에서 관찰된 사건 수와 기대 사건 수의 차이를 합한 것이고, 분모는 모든 시점에서의 분산을 합한 값의 제곱근이다.

중심 극한 정리에 따라, 사건 발생 시점의 수(J)가 충분히 크다면 이 Z 통계량의 분포는 평균 0, 분산 1의 표준 정규 분포(\mathcal N(0,1))에 가까워진다. 따라서 계산된 Z 값을 표준 정규 분포와 비교하여 귀무 가설을 기각할지 여부(즉, 두 그룹 간 생존 경험에 통계적으로 유의미한 차이가 있는지)를 판단할 수 있다. 경우에 따라서는 더 정확한 근사를 위해 피어슨 분포(Pearson type I 또는 II distribution)를 사용하기도 한다.[7]

3. 점근적 분포

두 그룹의 생존 함수가 동일하다는 귀무 가설 하에서, 로그 순위 통계량 Z는 표본 크기가 충분히 클 때 근사적으로 표준 정규 분포를 따른다. 이를 이용하여 가설 검정을 수행할 수 있다. 예를 들어, 유의 수준 \alpha인 단측 검정에서는 로그 순위 통계량 Z가 표준 정규 분포의 상위 \alpha 분위수인 z_\alpha보다 크면 (Z>z_\alpha) 귀무 가설을 기각한다.

만약 두 그룹 간의 실제 위험비가 \lambda이고, 총 피험자 수가 n이며, 각 그룹에 피험자가 50%씩 무작위 배정되고, 연구 기간 동안 사건이 발생할 확률이 d라고 가정하면, 로그 순위 통계량 Z는 평균이 (\log{\lambda}) \, \sqrt {\frac {n \, d} {4}} 이고 분산이 1인 정규 분포를 근사적으로 따른다.[4][9] 이 분포적 성질은 연구 설계 시 필요한 표본 크기를 계산하는 데 사용된다.

동일한 임상시험에서 서로 다른 두 시점(사건 발생 확률 d_1 \leq d_2)에서의 로그 순위 통계량을 각각 Z_1(먼저 측정한 값)과 Z_2라고 하자. 이 경우 Z_1Z_2는 평균이 각각 \log{\lambda} \, \sqrt {\frac {n \, d_1} {4}}\log{\lambda} \, \sqrt {\frac {n \, d_2} {4}}이고, 상관계수가 \sqrt {\frac {d_1} {d_2}}인 근사적인 이변량 정규 분포를 따른다. 임상시험 중간에 데이터를 여러 번 분석하는 경우(예: 데이터 모니터링 위원회의 활동), 전체적인 오류율(type I error rate)을 적절하게 유지하기 위해서는 이러한 통계량들의 동시 분포를 고려한 통계적 분석 방법이 필요하다.

3. 1. 표본 크기 계산

로그 순위 검정의 검정력(1-\beta)과 유의 수준(\alpha)을 미리 설정하고, 예상되는 위험비(hazard ratio, \lambda)를 바탕으로 필요한 표본 크기 n을 계산할 수 있다.

두 그룹의 생존 함수가 동일하다는 귀무 가설 하에서, 로그 순위 통계량 Z는 근사적으로 표준 정규 분포를 따른다. 유의 수준 \alpha인 단측 검정에서는 Z>z_\alpha일 때 귀무 가설을 기각하며, 여기서 z_\alpha는 표준 정규 분포의 상위 \alpha 분위수이다.

만약 두 그룹 간의 실제 위험비가 \lambda이고, 총 피험자 수가 n이며, 각 그룹에 피험자가 50%씩 무작위 배정되고, 연구 종료 시점까지 사건(예: 사망, 재발 등)이 발생할 것으로 예상되는 피험자의 비율을 d라고 가정하자 (이 경우 예상되는 총 사건 수는 nd가 된다). 이러한 조건에서 로그 순위 통계량 Z는 평균이 (\log{\lambda}) \, \sqrt {\frac {n \, d} {4}} 이고 분산이 1인 정규 분포를 근사적으로 따른다.[4][9]

따라서 유의 수준 \alpha와 검정력 1-\beta를 만족시키기 위해 필요한 총 표본 크기 n은 다음 공식으로 계산할 수 있다:

n = \frac {4 \, (z_\alpha + z_\beta)^2 } {d \, (\log{\lambda})^2}

여기서 z_\alphaz_\beta는 각각 표준 정규 분포의 상위 \alpha 및 상위 \beta 분위수이다.

4. 다른 통계량과의 관계

로그순위 통계량은 두 그룹을 비교하는 점수 검정으로 콕스 비례 위험 모형에서 파생될 수 있다. 따라서 해당 모형에서 파생된 우도비 검정 통계량과 점근적으로 동일하다. 또한, 로그순위 통계량은 비례 위험 대안을 가진 모든 분포군에 대한 우도비 검정 통계량과 점근적으로 동일하다. 예를 들어, 두 표본의 데이터가 지수 분포를 갖는 경우가 이에 해당한다.

만약 Z 가 로그순위 통계량이고, D 가 관찰된 사건의 수이며, \hat {\lambda} 가 위험률의 추정치라면, \log{\hat {\lambda}} \approx Z \, \sqrt{4/D} 의 관계가 성립한다. 이 관계는 세 가지 양 중 두 가지가 알려져 있을 때 (예: 발표된 논문에서) 세 번째 값을 추정해야 할 경우 유용하다.

로그순위 통계량은 관측값이 중도 절단되었을 때 사용할 수 있다는 특징이 있다. 데이터에 중도 절단된 관측값이 없는 경우에는 윌콕슨 순위합 검정이 더 적절한 방법일 수 있다.

로그순위 통계량은 사건이 발생하는 시간에 관계없이 모든 계산에 동일한 가중치를 부여한다. 이와 달리 페토 로그순위 검정 통계량은 관측값이 많을 때 초기 사건에 더 많은 가중치를 부여하는 차이가 있다.

5. 가정

로그순위 검정은 카플란-마이어 추정량과 동일한 가정을 기반으로 한다.[5][10] 구체적으로는 중도절단이 예후와 관련이 없어야 하고, 연구 참여 시점에 관계없이 생존 확률이 동일해야 하며, 사건은 특정 시점에 발생한다는 가정을 따른다.[5][10]

5. 1. 가정 위반 시 문제점

로그순위 검정은 카플란-마이어 추정량과 동일한 가정을 기반으로 한다.[5][10] 구체적인 가정은 다음과 같다.

  • 중도절단은 결과 예측(예후)과 관련이 없다.
  • 연구 시작 시점이나 나중에 참여한 사람이나 생존 확률은 동일하다.
  • 사건(예: 사망)은 특정 시간에 발생한다.


이러한 가정이 실제 데이터와 다를 때 문제가 발생할 수 있는데, 특히 비교하는 그룹 간에 가정을 만족하는 정도가 다를 때 문제가 심각해진다. 예를 들어, 특정 그룹에서 중도절단이 다른 그룹보다 더 자주 발생한다면, 검정 결과가 왜곡될 수 있다.[5][10]

6. 같이 보기


  • 생존 분석
  • 카플란-마이어 추정량
  • 위험비

참조

[1] 논문 Evaluation of survival data and two new rank order statistics arising in its consideration.
[2] 논문 Asymptotically Efficient Rank Invariant Test Procedures Blackwell Publishing
[3] 서적 Encyclopedia of Biostatistics Wiley Interscience
[4] 논문 The asymptotic properties of nonparametric tests for comparing survival distributions
[5] 논문 The logrank test
[6] 논문 Evaluation of survival data and two new rank order statistics arising in its consideration.
[7] 논문 Asymptotically Efficient Rank Invariant Test Procedures Blackwell Publishing
[8] 서적 Encyclopedia of Biostatistics Wiley Interscience
[9] 논문 The asymptotic properties of nonparametric tests for comparing survival distributions
[10] 논문 The logrank test
[11] 논문 The logrank test 2004-05-01
[12] 논문 Statistics review 12: Survival analysis 2004
[13] 서적 닥터 배의 술술 보건의학통계 2012



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com