중도절단
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
중도절단은 관찰 대상의 사건 발생 시간을 정확히 알 수 없고, 특정 시점까지만 관찰하거나, 사건 발생 여부만 아는 경우를 의미한다. 좌측, 구간, 우측 중도절단으로 구분되며, 제1형, 제2형, 무작위 중도절단 등의 유형이 있다. 중도절단된 데이터는 일반적인 통계 분석 방법을 적용하기 어려우므로, 생존 분석, 최대 우도 추정, 중도절단 회귀 등의 특수한 분석 기법을 사용한다. 역학, 신뢰성 공학 등 다양한 분야에서 활용되며, 특히 질병 발생 시간 분석이나 제품의 수명 예측 등에 적용된다.
더 읽어볼만한 페이지
| 중도절단 | |
|---|---|
| 개요 | |
| 정의 | 통계에서, 검열(또는 절단)은 개별 관찰에 대한 값의 일부만 알려진 데이터의 조건이다. |
| 설명 | 검열은 절단과 밀접하게 관련되어 있다. 검열은 데이터세트의 일부 값이 어떤 한계점을 넘어서는 것으로 알려져 있지만, 실제 값은 알려져 있지 않은 경우를 나타낸다. 절단은 어떤 한계점을 넘어서는 값이 데이터세트에 전혀 포함되지 않는 경우를 나타낸다. 예를 들어, 수명을 연구하는 경우, 일부 동물은 연구가 끝날 때까지 살아 있을 수 있다. 이러한 동물들의 수명은 검열된다. 다른 예로, 병원에 입원한 환자들은 퇴원하거나 사망한다. 환자가 퇴원하면 그들의 입원 기간은 검열된다. 검열은 데이터 분석에서 고려해야 할 중요한 사항이다. 검열된 데이터를 무시하면 분석 결과가 편향될 수 있다. |
| 유형 | |
| 오른쪽 검열 | 데이터 값의 일부가 어떤 값보다 크거나 같은 것으로 알려져 있지만, 정확한 값은 알려져 있지 않은 경우이다. |
| 왼쪽 검열 | 데이터 값의 일부가 어떤 값보다 작거나 같은 것으로 알려져 있지만, 정확한 값은 알려져 있지 않은 경우이다. |
| 간격 검열 | 데이터 값의 일부가 두 값 사이에 있는 것으로 알려져 있지만, 정확한 값은 알려져 있지 않은 경우이다. |
| 유형 1 검열 | 연구가 특정 시점에 종료될 때 발생하며, 해당 시점까지 사건을 경험하지 않은 모든 대상은 검열된다. |
| 유형 2 검열 | 특정 수의 사건이 발생한 후 연구가 종료될 때 발생한다. |
| 예시 | |
| 예시 1 | 암 환자를 대상으로 한 연구에서 환자가 1년 후에도 살아 있다면 해당 환자는 검열된다. 우리는 환자가 1년 이상 생존했다는 것을 알지만, 정확한 생존 시간은 모른다. |
| 예시 2 | HIV 환자를 대상으로 한 연구에서 환자가 연구 기간 동안 HIV에 걸리지 않았다면 해당 환자는 검열된다. |
| 통계적 추론 | |
| 생존 분석 | 검열된 데이터가 포함된 데이터를 분석하는 데 사용되는 통계적 방법이다. |
| Kaplan-Meier 추정량 | 생존 함수를 추정하는 데 사용되는 비모수적 통계량이다. |
| Cox 비례 위험 모델 | 생존 시간에 영향을 미치는 요인을 식별하는 데 사용되는 반모수적 통계 모델이다. |
2. 종류
중도절단은 데이터 값이 알려진 범위에 따라 여러 종류로 나뉜다.
- 좌측 중도절단 (Left Censoring): 데이터가 특정 값보다 아래에 있지만, 정확히 어떤 값인지는 알 수 없는 경우이다.
- 우측 중도절단 (Right Censoring): 데이터가 특정 값보다 위에 있지만, 정확히 어떤 값인지는 알 수 없는 경우이다.
- 구간 중도절단 (Interval Censoring): 데이터가 특정 구간 내에 존재한다는 사실만 알려져 있는 경우이다.
- 제1형 중도절단: 실험에 정해진 수의 대상이나 항목이 있고, 미리 정해진 시간에 실험을 종료하여 남은 대상은 모두 우측 중도절단되는 경우이다.
- 제2형 중도절단: 실험에 정해진 수의 대상이나 항목이 있고, 미리 정해진 수의 실패가 관찰되면 실험을 종료하는 경우에 발생하며, 남은 대상은 우측 중도절단된다.
- 무작위 중도절단: 각 대상이 실패 시간과 통계적 독립인 중도절단 시간을 갖는 경우를 의미한다. 관찰된 값은 중도절단 시간과 실패 시간 중 작은 값이다.
2. 1. 좌측 중도절단 (Left Censoring)
데이터가 특정 값보다 작지만, 정확히 얼마인지는 알 수 없는 경우이다. 예를 들어, 특정 질병의 발병 시점을 정확히 알 수 없고, 검진을 통해 특정 시점 이전에 발병했다는 사실만 확인된 경우가 해당된다.[1]좌측 중도절단된 데이터를 사용하는 추정 방법은 다양하며, 모든 추정 방법이 모든 데이터 집합에 적용 가능하거나 가장 신뢰할 수 있는 것은 아니다.[1]
시작 시간을 알 수 없는 구간을 ''좌측 중도절단''으로 분류하는 것은 흔한 오해이다. 이러한 경우, 시간 ''구간''에 대한 하한을 가지며, 따라서 (타임라인으로 볼 때 누락된 시작점이 알려진 구간의 왼쪽에 있다는 사실에도 불구하고) 데이터는 ''우측 중도절단''된다.[1]
2. 2. 우측 중도절단 (Right Censoring)
데이터가 특정 값보다 크지만, 정확히 얼마인지는 알 수 없는 경우이다. 예를 들어, 임상시험에서 환자의 생존 기간을 추적하던 중 연구가 종료되거나 환자가 추적 관찰에서 이탈하여 정확한 생존 기간을 알 수 없는 경우가 해당된다.[1] 한국의 암 등록 자료에서 흔히 관찰되는 유형이다.시간 구간 데이터와 관련된 흔한 오해는 시작 시간을 알 수 없는 구간을 ''좌측 중도절단''으로 분류하는 것이다. 이러한 경우, 우리는 시간 ''구간''에 대한 하한을 가지며, 따라서 (타임라인으로 볼 때 누락된 시작점이 알려진 구간의 왼쪽에 있다는 사실에도 불구하고) 데이터는 ''우측 중도절단''된다![8]
- ''제1형 중도절단''은 실험에 정해진 수의 대상이나 항목이 있고, 미리 정해진 시간에 실험을 종료하여 남은 대상은 모두 우측 중도절단되는 경우에 발생한다.
- ''제2형 중도절단''은 실험에 정해진 수의 대상이나 항목이 있고, 미리 정해진 수의 실패가 관찰되면 실험을 종료하는 경우에 발생하며, 남은 대상은 우측 중도절단된다.
- ''무작위'' (또는 ''비정보적'') ''중도절단''은 각 대상이 실패 시간과 통계적 독립인 중도절단 시간을 갖는 경우를 의미한다. 관찰된 값은 중도절단 시간과 실패 시간 중 작은 값이다; 실패 시간이 중도절단 시간보다 큰 대상은 우측 중도절단된다.
2. 3. 구간 중도절단 (Interval Censoring)
데이터가 특정 구간 내에 존재한다는 사실만 알려진 경우이다. 예를 들어, 정기적인 건강검진을 통해 특정 질병의 발생 여부를 확인하는 경우, 질병 발생 시점은 이전 검진 시점과 현재 검진 시점 사이에 존재한다는 것만 알 수 있다.[1][8]값 관찰에 후속 조치나 검사가 필요한 경우 구간 중도절단이 발생할 수 있다. 좌측 중도절단 및 우측 중도절단은 각각 구간의 시작점을 0으로, 끝점을 무한대로 하는 구간 중도절단의 특수한 경우이다.[1][8]
2. 4. 제1형, 제2형, 무작위 중도절단
제1형 중도절단 (Type I Censoring)은 실험에 정해진 수의 대상이 있고, 미리 정해진 시간에 실험을 종료하여 남은 대상은 모두 우측 중도절단되는 경우이다.[1]제2형 중도절단 (Type II Censoring)은 실험에 정해진 수의 대상이 있고, 미리 정해진 수의 실패가 관찰되면 실험을 종료하는 경우이며, 남은 대상은 우측 중도절단된다.[1]
무작위 (또는 비정보적) 중도절단 (Random or Non-informative Censoring)은 각 대상의 중도절단 시간이 실패 시간과 통계적 독립인 경우이다. 관찰된 값은 중도절단 시간과 실패 시간 중 작은 값이다. 실패 시간이 중도절단 시간보다 큰 대상은 우측 중도절단된다.[1]
3. 분석
중도절단된 데이터는 일반적인 통계 분석 방법을 그대로 적용하기 어렵다. 중도절단된 관측값을 제외하거나 임의의 값으로 대체하면 편향된 결과를 얻을 수 있기 때문이다. 따라서 중도절단을 고려한 특별한 분석 기법이 필요하다.
신뢰성 공학에서는 중도절단된 데이터를 다루기 위해 특수한 기법들을 사용한다. 예를 들어, 특정 고장 시간은 실제 고장으로, 중도절단된 데이터는 중도절단 유형과 알려진 간격 또는 한계값으로 코딩한다. 특수한 소프트웨어 프로그램(주로 신뢰성 지향)을 사용하여 요약 통계, 신뢰 구간 등에 대한 최대 우도 추정을 수행할 수 있다.[14]
이때 사용되는 가능도는 관측된 값의 확률 또는 확률 밀도를 예상되는 모델의 매개변수 함수로 나타낸 것이다.
지수 분포를 예로 들면, 위험률이 일정하다는 특징을 이용하여 가능도 함수를 간략하게 표현할 수 있고, 이를 통해 최대 우도 추정값을 계산할 수 있다. 이 과정에서 중도절단된 관측값은 분자에서만 고려된다는 점이 일반적인 지수 분포의 최대 우도 추정과의 차이점이다.
3. 1. 최대 우도 추정 (Maximum Likelihood Estimation)
신뢰성 공학에서는 중도절단된 데이터를 처리하기 위해 특수한 기술을 사용한다. 특정 고장 시간은 실제 고장으로 코딩되고, 중도절단된 데이터는 중도절단 유형과 알려진 간격 또는 한계에 대해 코딩된다. 특수 소프트웨어 프로그램(주로 신뢰성 지향)은 요약 통계, 신뢰 구간 등에 대한 최대 우도 추정을 수행할 수 있다.[7]가능도는 관찰된 것의 확률 또는 확률 밀도로, 가정된 모형의 매개변수의 함수로 간주된다. 중도절단된 데이터 포인트를 가능도에 통합하기 위해, 중도절단된 데이터 포인트는 밀도 또는 확률 질량 대신 모형의 매개변수의 함수인 중도절단된 데이터 포인트의 확률, 즉 CDF의 함수로 표현된다.
생존 시간 에 관심이 있다고 가정할 때, 모든 에 대해 를 관찰하지 못하는 경우가 있다. 대신 다음과 같은 값을 관찰한다.
- : 가 실제로 관찰되면 이고 이다.
- : 가 보다 길다는 것만 알 수 있으면 이고 이다.
일 때, 는 중도절단 시간이라고 불린다.[14]
중도절단 시간이 모두 알려진 상수인 경우, 가능도는 다음과 같다.
:
여기서 는 에서 평가된 확률 밀도 함수이고, 는 가 보다 클 확률로, 생존 함수라고 불린다.
위험 함수(사망의 즉각적인 힘)를 다음과 같이 정의하면 식을 단순화할 수 있다.
:
따라서
:
그러면
:
지수 분포의 경우, 위험률 가 일정하고 이므로, 식은 더욱 간단해진다.
:
여기서 이다.
이로부터 의 최대 우도 추정값(MLE)인 를 쉽게 계산할 수 있다.
:
:
이것을 0으로 설정하고 에 대해 풀면 다음을 얻는다.
:
동등하게, 고장까지의 평균 시간은 다음과 같다.
:
이는 지수 분포에 대한 표준 MLE와는 다르며, 중도절단된 관측치는 분자에만 고려된다.
3. 2. 중도절단 회귀 (Censored Regression)
중도절단 회귀 모형은 종속 변수가 중도절단된 경우 사용되는 회귀 분석 방법이다. 토빗 모형이 대표적인 예시이다.[6] 검열된 데이터를 처리하는 데 특수한 기술이 사용될 수 있다. 특정 고장 시간 테스트는 실제 고장으로 코딩된다. 검열된 데이터는 검열 유형과 알려진 간격 또는 한계에 대해 코딩된다. 특수 소프트웨어 프로그램 (종종 신뢰성 지향)은 요약 통계, 신뢰 구간 등에 대한 최대 우도 추정을 수행할 수 있다.4. 응용 분야
중도절단은 다양한 분야에서 활용되는 통계적 기법이다.
역학 분야에서는 다니엘 베르누이가 1766년에 천연두 이환율과 사망률 데이터를 분석하여 백신 접종의 효능을 입증하려는 시도를 했다. 이는 중도 절단 데이터를 포함하는 통계적 문제를 분석하려는 초기 시도 중 하나이다.[2] Quesenberry et al. (1989)은 카플란-마이어 추정량을 사용하여 중도 절단된 비용을 추정하였다.[3]
신뢰성 공학에서 신뢰성 시험은 일반적으로 특정 조건에서 제품을 시험하여 고장이 발생하기까지 걸리는 시간을 측정하는 방식으로 이루어진다. 작업자 오류, 장비 오작동 등으로 인해 고장이 계획대로 발생하지 않는 경우, 시험 결과는 원하는 고장 시간은 아니지만 종료 시간으로 사용할 수 있다. 엔지니어는 특정 시간 제한 또는 고장 횟수 이후에 다른 모든 시험을 종료하도록 시험 계획을 세우는 경우가 있다. 이러한 중단 시간은 우측 중도절단 데이터로 처리된다. 반복 시험에서 얻은 데이터 분석에는 고장난 제품의 고장 시간과 고장나지 않은 제품의 시험 종료 시간이 모두 포함된다.
4. 1. 역학 (Epidemiology)
다니엘 베르누이는 1766년에 천연두 이환율과 사망률 데이터를 분석하여 백신 접종의 효능을 입증하려는 시도를 했다. 이는 중도 절단 데이터를 포함하는 통계적 문제를 분석하려는 초기 시도 중 하나이다.[2] 카플란-마이어 추정량을 사용하여 중도 절단된 비용을 추정한 초기 논문은 Quesenberry et al. (1989)에 의해 발표되었다.[3] 그러나 이 접근 방식은 Lin et al.에 의해 유효하지 않은 것으로 밝혀졌다.[4] Lin et al.은 모든 환자가 시간에 따라 공통적인 결정론적 속도 함수로 비용을 누적하지 않는 한, 카플란-마이어 추정량을 이용한 접근 방식이 유효하지 않다고 보았다. 그들은 Lin 추정량으로 알려진 대체 추정 기법을 제안했다.[5]4. 2. 신뢰성 공학 (Reliability Engineering)
신뢰성 시험은 일반적으로 특정 조건에서 제품을 시험하여 고장이 발생하기까지 걸리는 시간을 측정하는 방식으로 이루어진다.- 작업자 오류, 장비 오작동, 시험 이상 등으로 인해 고장이 계획대로 발생하지 않는 경우가 있다. 이러한 경우, 시험 결과는 원하는 고장 시간은 아니지만 종료 시간으로 사용할 수 있으며, 사용해야 한다. 이러한 중도절단 데이터의 사용은 의도적이지 않지만 필요하다.
- 엔지니어는 특정 시간 제한 또는 고장 횟수 이후에 다른 모든 시험을 종료하도록 시험 계획을 세우는 경우가 있다. 이러한 중단 시간은 우측 중도절단 데이터로 처리된다. 이러한 중도절단 데이터의 사용은 의도적이다.
반복 시험에서 얻은 데이터 분석에는 고장난 제품의 고장 시간과 고장나지 않은 제품의 시험 종료 시간이 모두 포함된다.
참조
[1]
논문
Much Ado About Next to Nothing: Incorporating Nondetects in Science
[2]
논문
Essai d'une nouvelle analyse de la mortalité causée par la petite vérole
[3]
논문
A survival analysis of hospitalization among patients with acquired immunodeficiency syndrome
[4]
논문
Estimating medical costs from incomplete follow-up data
[5]
논문
Techniques for estimating health care costs with censored data: an overview for the health services researcher
[6]
논문
Estimation of relationships for limited dependent variables
http://cowles.yale.e[...]
[7]
Q
Q98961801
[8]
논문
Much Ado About Next to Nothing: Incorporating Nondetects in Science
[9]
논문
Essai d'une nouvelle analyse de la mortalité causée par la petite vérole
[10]
논문
A survival analysis of hospitalization among patients with acquired immunodeficiency syndrome
[11]
논문
Estimating medical costs from incomplete follow-up data
[12]
논문
Techniques for estimating health care costs with censored data: an overview for the health services researcher
[13]
논문
Estimation of relationships for limited dependent variables
http://cowles.yale.e[...]
[14]
Q
Q98961801
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com