교락
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
교락은 독립 변수가 종속 변수에 미치는 영향을 추정할 때, 두 변수 모두에 인과적으로 영향을 미치는 외생 변수의 영향을 억제해야 하는 상황을 의미한다. 교락 변수는 예상되는 원인과 결과 모두와 관련이 있으며, 인과 그래프와 백도어 기준을 통해 특정할 수 있다. 교락을 통제하는 것은 인과적 효과를 편향 없이 추정하기 위한 중요한 과정이며, 사례-대조군 연구, 코호트 연구, 층화, 무작위 대조 시험, 이중 눈가림, 다변량 분석 등의 방법을 사용한다. 교락을 완전히 제어할 수 없는 경우를 잔여 교락이라고 한다.
교락(confounding)은 어떤 독립 변수 ''X''가 종속 변수 ''Y''에 미치는 영향을 추정할 때, ''X''와 ''Y'' 모두에 인과적으로 영향을 미치는 외생 변수 ''Z''가 존재하면 ''X''와 ''Y''는 ''Z''에 의해 교락되었다고 한다.[11]
Confounding영어 변수는 예상되는 원인과 결과 모두와 관련이 있어야 한다. 교락 변수는 원인과 결과의 중간에 위치하지 않는다. A가 C의 원인으로 예상될 때, 교락 변수 B는 A를 원인으로 발생하지 않으며, B에 의해 항상 C가 발생하는 것도 아니다. 예를 들어, 여성인 것은 항상 흡연의 원인이 아니며, 흡연이 항상 암의 원인도 아니다. 따라서 여성인 것과 암에 걸리는 것의 인과 관계를 연구할 때에는, 예상되는 교락 변수로서 "흡연"을 고려해야 한다.[31] 또한, 두 개의 위험 그룹(예: 남성과 여성)이 있을 때, 교락 변수는 각 그룹에서 다른 보급률(예: 흡연율)을 나타낸다.
주디아 펄은 통계학적인 개념만으로는 교락 변수를 정의할 수 없으며, 인과적인 가정이 필요함을 제시했다.[31] 인과 그래프를 통해 인과적인 가정을 나타낼 때, 백도어(Backdoor) 기준을 이용하여 교락 변수의 집합을 특정할 수 있다. 백도어 기준은 선택된 변수 집합 ''Z''가 ''X''로 향하는 화살표를 포함하는 ''X''와 ''Y'' 사이의 모든 경로를 차단해야 한다는 것이다.[6] 이러한 집합은 "백도어 허용"이라고 하며, 단순히 ''X''와 ''Y''의 대리 변수일 뿐, 공통 원인이 아닌 변수를 포함할 수 있다.
교락을 통제하는 것은 'X'가 'Y'에 미치는 인과적 효과를 편향 없이 추정하기 위한 중요한 과정이다. 관찰 연구에서 교락 변수를 통제하기 위해 다양한 방법이 사용된다.
역학에서 "적응에 의한 교락"[20]은 관찰 연구의 주요 문제로 지적된다. 이는 예후 요인이 치료 결정에 영향을 미쳐 치료 효과 추정치를 왜곡시키는 현상이다. 무작위 할당으로 인해 무작위 시험은 적응에 의한 교락의 영향을 받지 않는다.
교락 변수를 적극적으로 제거하거나 제어하는 연구 설계 방법에는 여러 가지가 있다.[27]
2. 정의
수학적으로, 가상적인 개입 ''X'' = ''x'' 하에서 사건 ''Y'' = ''y''가 발생할 확률을 P(''y'' | do(''x''))로 나타낼 때, ''X''와 ''Y''가 교락되지 않는다는 것은 모든 ''x''와 ''y''에 대해 P(''y'' | do(''x'')) = P(''y'' | ''x'')가 성립함을 의미한다. 즉, ''X'' = ''x''를 관찰한 후의 조건부 확률과 동일해야 한다. 직관적으로, 이는 관찰된 ''X''와 ''Y'' 사이의 연관성이 ''x''가 무작위화된 통제된 실험에서 측정될 연관성과 동일할 때 ''X''와 ''Y''가 교락되지 않음을 의미한다.[12][5]
3. 교락 변수의 조건
4. 인과 그래프와 백도어 기준
예를 들어, 연구자가 환자의 선택에 따라 약물 사용(''X'')이 결정되는 모집단 데이터를 통해 약물 ''X''의 효과를 평가하려고 할 때, 데이터에서 성별(''Z'')이 환자의 약물 선택과 회복 가능성(''Y'')에 영향을 미치는 것으로 나타난다면, 성별 ''Z''는 ''X''와 ''Y'' 사이의 관계를 교란한다. 왜냐하면 ''Z''는 ''X''와 ''Y''의 원인이기 때문이다. 이 경우 백도어 조정 공식을 사용하면 다음과 같다.
:
이와 같이 의사는 관찰 연구를 통해 약물 투여의 예상 효과를 예측할 수 있다.
5. 교락의 통제
단일 교락 변수 'Z'가 있을 경우, "조정 공식"을 사용하여 'X'가 'Y'에 미치는 인과적 효과에 대한 편향되지 않은 추정치를 얻을 수 있다.[6]
여러 교란 변수가 있는 경우에도 동일한 조정 공식이 작동하지만, 이 경우 편향되지 않은 추정치를 보장하는 변수 집합 'Z'를 선택할 때 주의해야 한다. 변수를 적절하게 선택하기 위한 기준은 백도어 기준[6]이라고 하며, 선택된 집합 'Z'가 X로 향하는 화살표를 포함하는 'X'와 'Y' 사이의 모든 경로를 "차단"(또는 가로채기)해야 한다. 이러한 집합은 "백도어 허용"이라고 하며, 단순히 'X'와 'Y'의 대리 변수일 뿐, 공통 원인이 아닌 변수를 포함할 수 있다.
일반적으로, 교란은 백도어 조건을 만족하는 관찰된 공변량 집합이 있는 경우에만 조정에 의해 제어될 수 있다. 또한, 'Z'가 그러한 집합이면 위 식 (3)의 조정 공식이 유효하다.[9] 펄의 do-미적분은 를 추정할 수 있는 모든 가능한 조건을 제공하며, 반드시 조정을 통해서만 가능한 것은 아니다.[10]
6. 교락의 유형
교락 변수는 그 출처에 따라 다음과 같이 분류할 수 있다.7. 연구에서 교락을 피하는 방법
이러한 방법 외에도, 동료 검토와 연구 반복을 통해 교락 가능성을 줄일 수 있다. 동료 검토는 연구 설계와 분석의 약점을 파악하고, 연구 반복은 다른 조건이나 분석을 통해 결과의 견고성을 확인한다. 연구 환경을 자세히 특성화하고, 교란 가능성이 있는 환경 변수와 측정 변수 간의 관계를 분석하는 것도 교락을 줄이는 데 도움이 된다.[26]
하지만, 교락 변수를 완벽하게 통제하는 것은 불가능하며, 이를 '''잔여 교락'''이라고 한다. 따라서, 표본 크기가 충분히 크다면, 무작위 할당이 가장 좋은 방법이 될 수 있다. 무작위 할당은 알려진 교락 변수뿐만 아니라 알려지지 않은 교락 변수까지 모든 그룹에 고르게 분포시킬 가능성이 높기 때문이다.
7. 1. 사례-대조군 연구 (Case-control studies)
사례-대조군 연구는 교락 변수를 사례군과 대조군 모두에 동일하게 할당하는 연구 방법이다. 예를 들어, 심근 경색의 원인을 연구할 때 나이를 교락 변수로 생각한다면, 각 연령대의 심근 경색 환자와 건강한 사람을 짝지어 비교한다. 사례-대조군 연구에서 가장 흔하게 일치되는 변수는 나이와 성별이다.[27]
예시:만약 심근 경색의 원인을 연구하고, 나이가 교락 변수라고 가정한다면, 67세의 심근 경색 환자와 건강한 67세를 한 쌍으로 묶어 비교할 수 있다.
장점 및 단점:사례-대조군 연구는 대조군을 쉽게 찾을 수 있을 때만 가능하다는 단점이 있다. 예를 들어, 특정 질병의 원인을 찾으려는 연구에서, 1) 45세, 2) 아프리카계 미국인, 3) 알래스카 출신, 4) 열렬한 미식축구 선수, 5) 채식주의자, 6) 교육 분야 종사자라는 모든 조건을 만족하면서 해당 질병이 없는 대조군을 찾는 것은 매우 어려운 일이다.[27]
7. 2. 코호트 연구 (Cohort studies)
코호트 연구는 특정 교락 변수의 값이 동일한 집단(코호트) 내에서 다른 변수를 비교하는 방법이다. 예를 들어, 흡연이 폐암의 원인인지 연구할 때, 흡연 그룹과 비흡연 그룹을 추적 관찰하여 폐암 발생률을 비교한다.[33]
예를 들어, 연령과 성별이 교락 인자로 간주되는 경우, 40세에서 50세 사이의 남성만 심근 경색 위험을 평가하는 코호트 연구에 참여하게 된다. 이때, 신체적으로 활동적인 코호트와 비활동적인 코호트를 비교한다.
하지만 코호트 연구에는 단점이 있다. 입력 데이터의 과도한 제외는 연구자가 연구가 유용하다고 주장하는 유사한 상황에 있는 사람들의 집합을 너무 좁게 정의하여, 인과 관계가 실제로 적용되는 다른 사람들이 연구 권장 사항에서 혜택을 받을 기회를 잃게 될 수 있다. 마찬가지로, 연구 내에서 입력 데이터의 과도한 계층화는 주어진 층의 샘플 크기를 줄여 해당 층의 구성원만 관찰하여 도출된 일반화가 통계적 유의성이 없을 수 있다.[27]
7. 3. 층화 (Stratification)
층화는 잠재적 교락 변수에 따라 연구 대상을 여러 층으로 나누어 각 층 내에서 독립 변수와 종속 변수의 관계를 분석하는 방법이다.[33] 예를 들어, 심근 경색 연구에서 연령이 교락 변수일 수 있으므로, 데이터를 연령대별로 층화하여 분석할 수 있다. 다른 연령대(또는 연령 계층)에서 훨씬 다른 위험 비를 산출하는 경우 나이를 교락 변수로 간주해야 한다. 층화된 데이터를 다루는 통계 기법으로는 만텔-헨젤 방법 등이 있다.[33]
연구에서 교락 변수를 적극적으로 제거하거나 제어하는 방법에는 다음과 같은 것들이 있다.
이러한 방법들에는 각각 단점이 있다. 예를 들어, 사례-대조군 연구의 대상자(사례)가 특정 질병에 걸린 45세 알래스카 출신 흑인이고, 미식축구 선수이며, 채식주의자이고, 교육자로 일하는 사람이라고 가정해 보자. 이 경우 대조군으로 속성이 거의 같고 해당 질병에 걸리지 않았다는 점만 다른 사람을 찾아야 하지만, 이는 매우 어려운 작업이다.
7. 4. 무작위 대조 시험 (Randomized controlled trials)
변수 통제 참조
연구자가 환자의 선택에 따라 약물 사용이 결정되는 모집단 데이터를 통해 약물 ''X''의 효과를 평가한다고 가정해 보자. 데이터는 성별(''Z'')이 환자의 약물 선택과 회복 가능성(''Y'')에 영향을 미치는 것으로 나타난다. 이 시나리오에서, 성별 ''Z''는 ''X''와 Y 사이의 관계를 교란하는데, 그 이유는 ''Z''가 ''X''와 ''Y''의 원인이기 때문이다.[6]
일반적인 믿음과는 달리, 조정 집합 ''Z''에 공변량을 추가하면 편향이 발생할 수 있다.[7] 전형적인 반례는 ''Z''가 ''X''와 ''Y''의 공통 효과일 때 발생하며,[8] 이 경우 ''Z''는 교란 요인이 아니고(즉, 널 집합은 백도어 허용 가능) ''Z''에 대해 조정하면 "콜라이더 편향" 또는 "버크슨의 역설"으로 알려진 편향이 발생한다. 좋은 교란 요인이 아닌 통제 변수는 때때로 나쁜 통제라고 불린다.
분석에서 수행되는 비교의 유형과 수를 늘림으로써 교란 인자가 발생하고 그 효과가 나타날 가능성을 줄일 수 있다. 핵심 구성 요소의 측정 또는 조작이 교란된 경우(즉, 작동 또는 절차적 교란이 존재하는 경우) 하위 그룹 분석으로 분석 문제를 드러내지 못할 수 있다. 또한 비교 횟수를 늘리면 다중 비교와 같은 다른 문제가 발생할 수 있다.
동료 검토는 연구 수행 전 또는 분석 후 교란의 발생을 줄이는 데 도움이 될 수 있다. 동료 검토는 연구 설계 및 분석의 잠재적 약점을 식별하기 위해 해당 분야의 집단적 전문 지식에 의존하며, 여기에는 결과가 교란에 의존할 수 있는 방식이 포함된다. 마찬가지로, 복제는 대체 연구 조건 또는 대체 분석(예: 초기 연구에서 식별되지 않은 잠재적 교란 통제)에서 한 연구의 결과의 견고성을 테스트할 수 있다.
교란 효과는 여러 시간과 장소에서 발생하고 유사하게 작용할 가능성이 낮을 수 있다. 연구 부지를 선택할 때, 연구 부지의 환경을 상세하게 특성화하여 부지가 생태학적으로 유사하고 따라서 교란 변수가 있을 가능성이 낮도록 할 수 있다. 마지막으로, 분석을 교란할 수 있는 환경 변수와 측정된 매개변수 간의 관계를 연구할 수 있다. 그런 다음 환경 변수와 관련된 정보를 현장별 모델에 사용하여 실제 효과로 인한 잔차 분산을 식별할 수 있다.[26]
구현된 연구 설계 유형에 따라 교란 변수를 적극적으로 제외하거나 제어하기 위해 해당 설계를 수정하는 다양한 방법이 존재한다.[27]
이러한 모든 방법에는 단점이 있다.
# 교란으로 인한 잘못된 결과의 가능성에 대한 최상의 방어는 종종 계층화 노력을 포기하고 대신 전체적으로 충분히 큰 샘플에 대한 무작위 연구를 수행하여 모든 잠재적 교란 변수(알려지고 알려지지 않은)가 모든 연구 그룹에 우연히 분포되도록 하여 어떤 그룹에 포함/제외되는지 여부에 대한 이진 변수와 관련이 없도록 하는 것이다.
# 윤리적 고려 사항: 이중 눈가림 및 무작위 대조 시험에서 참가자는 가짜 치료를 받고 있음을 알지 못하며 효과적인 치료를 거부당할 수 있다.[28] 환자가 치료를 받고 있다는 이해하에 침습적 수술(실제 의료 위험이 있음)에 동의할 가능성이 있다. 이것은 윤리적 문제이지만, 상황에 대한 완전한 설명은 아니다. 현재 정기적으로 수행되고 있지만 실제 효과에 대한 구체적인 증거가 없는 수술의 경우, 그러한 수술을 계속하는 데 윤리적 문제가 있을 수 있다. 그러한 상황에서 많은 사람들이 수술의 실제 위험에 노출되지만 이러한 치료법은 눈에 띄는 이점을 제공하지 못할 수 있다. 가짜 수술 통제는 의료 과학이 수술 절차가 효과적인지 여부를 결정할 수 있도록 하는 방법이다. 의료 수술과 관련된 알려진 위험이 있다는 점을 감안할 때, 확인되지 않은 수술을 미래에 무한정 수행하는 것은 윤리적으로 의문이다.
7. 5. 이중 눈가림 (Double-blinding)
연구자와 연구 대상자 모두에게 어떤 처치를 받는지 알리지 않아 주관적인 편향을 줄이는 방법이다. 참가자가 치료를 받고 있는지 여부를 알지 못하게 함으로써 위약 효과는 대조군과 치료군에서 동일해야 한다. 관찰자가 어느 그룹에 속해있는지 알지 못하게 함으로써 연구자가 그룹을 다르게 대하거나 결과를 다르게 해석하는 데서 오는 편견을 막을 수 있다.[27]
이중 눈가림 연구에서는 참가자들이 자신이 실제로 치료를 받고 있는지, 아니면 가짜 치료를 받고 있는지 알 수 없으며, 효과적인 치료를 받지 못할 수도 있다는 윤리적 문제가 제기될 수 있다.[28]
7. 6. 다변량 분석 (Multivariate analysis)
다변량 분석은 알려진 교락 변수를 측정하고 이를 공변량으로 포함하여 교락을 제어하는 방법이다. 회귀 분석 등이 다변량 분석에 해당한다.[26] 다변량 분석은 계층화 방법보다 교락 변수의 강도에 대한 정보를 훨씬 적게 드러낸다. 예를 들어, 다변량 분석에서 항우울제를 제어할 때 TCA와 SSRI로 항우울제를 계층화하지 않으면, 이 두 종류의 항우울제가 심근 경색에 대해 서로 반대 효과를 가지며, 하나가 다른 것보다 훨씬 강하다는 사실을 간과하게 된다.[27]
8. 잔여 교락 (Residual confounding)
역학에서 교락을 완전히 제어할 수 없는 경우를 "잔여 교락"이라고 한다. 표본 크기가 충분히 크다면, 무작위화(무작위 할당)가 가장 좋은 방법일 수 있다. 이 경우, 알려진 것과 알려지지 않은 것을 포함한 모든 교락 변수가 모든 연구 대상군에 동일하게 분산될 가능성이 높아진다.[28]
참조
[1]
서적
Simpson's Paradox, Confounding, and Collapsibility In Causality: Models, Reasoning and Inference
Cambridge University Press
2009
[2]
논문
On the definition of a confounder
[3]
논문
Confounding and Collapsibility in Causal Inference
[4]
서적
Experimental and quasi-experimental designs for generalized causal inference
Houghton-Mifflin
[5]
간행물
"Aspects of Graphical Models Connected With Causality"
International Statistical Science Institute
1993
[6]
서적
Causal Diagrams and the Identification of Causal Effects In Causality: Models, Reasoning and Inference
Cambridge University Press
2009
[7]
웹사이트
A Crash Course in Good and Bad Controls
http://ftp.cs.ucla.e[...]
2022-03
[8]
논문
Should We Adjust for a Confounder if Empirical and Theoretical Criteria Yield Contradictory Results? A Simulation Study
[9]
서적
Causal Diagrams and the Identification of Causal Effects In Causality: Models, Reasoning and Inference
Cambridge University Press
2009
[10]
논문
Complete identification methods for the causal hierarchy
[11]
논문
History of the modern epidemiological concept of confounding
http://jech.bmj.com/[...]
[12]
논문
Confounding and Collapsibility in Causal Inference
[13]
문서
The design of experiments
1935
[14]
논문
The history of confounding
[15]
논문
Some statistical problems in research design
[16]
논문
Identifiability, exchangeability, and epidemiological confounding
[17]
문서
Statistical problems in agricultural experimentation (with discussion)
1935
[18]
논문
Estimating causal effects of treatments in randomized and nonrandomized studies
[19]
서적
Causality: Models, Reasoning and Inference
Cambridge University Press
2009
[20]
논문
Identifying Confounding by Indication through Blinded Prospective Review
[21]
서적
Conducting Research in Psychology
Wadsworth
[22]
서적
Applied Social Psychology: Understanding and managing social problems
Cambridge University Press
[23]
논문
Wine intake and diet in a random sample of 48763 Danish men and women
1999-01
[24]
논문
Confounding from smoking in occupational epidemiology
[25]
서적
An introduction to statistical learning: with applications in R
https://link.springe[...]
Springer
2021
[26]
문서
Handbook of Environmental Risk Assessment and Management
Wiley
2009
[27]
서적
Epidemiology in Medicine
https://archive.org/[...]
Lippincott Williams & Wilkins
[28]
논문
The Ethics of Placebo-Controlled Trials—A Middle Ground
2001-09-20
[29]
서적
Experimental and quasi-experimental designs for research
Rand McNally
[30]
서적
Principles and methods of social research
Lawrence Erlbaum Associates
[31]
서적
Causality: Models, Reasoning, and Inference
Cambridge University Press
2000
[32]
논문
The environment or disease: association or causation?
http://www.edwardtuf[...]
1965
[33]
서적
Epidemiology in Medicine
Lippincott Williams & Wilkins
1987
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com