도구 변수

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

도구 변수는 계량 경제학에서 사용되는 방법으로, 설명 변수와 오차항 간의 상관관계로 인해 발생하는 내생성 문제를 해결하여 인과 관계를 추정하는 데 사용된다. 1928년 필립 G. 라이트와 슈얼 라이트가 처음 제시했으며, 1945년 올라브 레이에르쇠가 '도구 변수'라는 이름을 붙였다. 주디아 펄은 반사실과 그래프 기준을 사용하여 도구 변수에 대한 형식적인 정의를 제시했다. 도구 변수 방법은 선형 회귀 모형을 기반으로 하며, 도구 변수는 설명 변수와 상관관계가 있어야 하고 오차항과는 상관관계가 없어야 한다. 2단계 최소제곱법(2SLS)이 널리 사용되며, 일반화된 적률법(GMM)도 활용된다. 도구 변수 선택은 핵심 과제이며, 관련성과 외생성 조건을 모두 만족해야 한다. 도구 변수 방법은 흡연과 건강, 대학 튜터 프로그램과 GPA의 관계 등 다양한 분야에 활용된다. 하지만 약한 도구 변수 문제, 외생성 가정 위반, 제한된 일반화 가능성, 해석의 어려움 등의 한계점과 비판이 존재한다.

도구 변수

도구 변수 추정

이미지 준비중입니다.

도구 변수 추정 방법의 예시.

개요

유형	통계학
하위 분야	계량 경제학
관련 항목	내생성, 최소 자승법, 모멘트 방법

상세 정보

목적	다른 변수와 상관관계가 있는 설명 변수가 있는 모델에서 인과적 효과를 추정
가정	"도구 변수"와 내생적 설명 변수 사이에 상관 관계가 존재해야 함. "배제 제한": 도구 변수는 결과 변수에 직접적인 영향을 미치지 않아야 함.
추정 방법	2단계 최소 자승법, 제한된 정보 최대 우도

추가 정보

장점	내생성 문제를 해결할 수 있음. 관찰된 데이터에서 인과 관계를 추론할 수 있음.
단점	적절한 도구 변수를 찾기 어려움. 약한 도구 변수는 편향된 결과를 초래할 수 있음. 가정의 타당성을 확인하기 어려움.

📚 더 읽어볼만한 페이지

회귀분석 - 회귀 분석
회귀 분석은 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링하고 분석하는 통계적 기법으로, 최소 제곱법 개발 이후 골턴의 연구로 '회귀' 용어가 도입되어 다양한 분야에서 예측 및 인과 관계 분석에 활용된다.
회귀분석 - 로지스틱 회귀
로지스틱 회귀는 범주형 종속 변수를 다루는 회귀 분석 기법으로, 특히 이항 종속 변수에 널리 사용되며, 오즈에 로짓 변환을 적용하여 결과값이 0과 1 사이의 값을 가지도록 하는 일반화 선형 모형의 특수한 경우이다.
통계학 - 확률
확률은 사건의 가능성을 수치화한 개념으로, 도박에서 시작되어 수학적으로 발전했으며, 다양한 해석과 요소, 응용 분야를 가지며 양자역학, 사회 현상 등에도 적용된다.
통계학 - 사분위수
사분위수는 정렬된 데이터를 4등분하는 세 개의 값으로 데이터 분포 요약 및 이상치 탐지에 활용되며, 제1사분위수(Q₁)는 하위 25%, 제2사분위수(Q₂ 또는 중앙값)는 하위 50%, 제3사분위수(Q₃)는 하위 75%를 나타낸다.

1. 개요
2. 역사
3. 이론적 배경
- 3.1. 2단계 최소제곱법 (2SLS)
4. 도구 변수의 정의
- 4.1. 적절한 도구 변수 선택
5. 도구 변수 방법의 활용 예시
6. 한계점 및 비판
7. 추가 논의

2. 역사

도구 변수(Instrumental Variable, IV) 방법은 1928년 필립 G. 라이트와 그의 아들 슈얼 라이트가 함께 쓴 책 『동물성 및 식물성 기름에 대한 관세(The Tariff on Animal and Vegetable Oils)』에서 동시 방정식 모형의 맥락에서 처음 소개되었다. 필립 라이트는 1900년대 초 미국 내 식물성 및 동물성 기름의 생산, 운송, 판매에 대한 분석으로 잘 알려져 있다.

라이트는 미국의 가격과 판매량 데이터를 이용해 버터의 수요와 공급 곡선을 추정하고자 했다. 그는 가격과 수요량 또는 공급량 사이의 관계를 분석하면 수요 또는 공급 곡선을 얻을 수 있다고 생각했다. 하지만 실제 관찰된 데이터는 단순히 수요나 공급 곡선 위의 점들이 아니라, 다양한 시장 상황 속에서 형성된 복잡한 점들의 분포였다. 이 때문에 데이터만으로는 수요나 공급 곡선을 명확히 파악하기 어려웠다.

문제의 핵심은 가격이 수요와 공급 양쪽에 모두 영향을 미친다는 점이었다. 이로 인해 관찰된 데이터만으로는 수요나 공급 중 어느 한쪽의 영향만을 분리하여 분석하기 어려웠다. 라이트는 이 문제를 해결하기 위해, 수요 또는 공급 중 하나에만 상관관계가 있고 다른 하나와는 상관관계가 없는 변수, 즉 '도구 변수'가 필요하다고 정확히 파악했다.

고심 끝에 라이트는 특정 지역의 강수량을 도구 변수로 사용하기로 결정했다. 그는 강수량이 풀의 생산량, 우유 생산량, 그리고 최종적으로 버터 공급량에는 영향을 미치지만, 버터에 대한 수요에는 직접적인 영향을 주지 않는다고 판단했다. 이를 통해 그는 가격과 공급량 사이의 관계를 분석하는 회귀 방정식에 강수량을 도구 변수로 사용하여 공급 곡선을 추정할 수 있었다.

이후 1945년, 올라브 레이에르쇠는 자신의 박사 학위 논문에서 변수 오류 모형(errors-in-variables models)의 맥락에서 동일한 기법을 적용하며 '도구 변수(instrumental variable)'라는 이름을 공식적으로 부여했다.

도구 변수에 대한 보다 엄밀하고 형식적인 정의는 2000년에 주디아 펄에 의해 반사실적(counterfactual) 개념과 그래프 이론을 이용하여 제시되었다. 앙그리스트와 크루거(2001)는 도구 변수 기법의 역사와 활용에 대한 포괄적인 연구를 발표했으며, 계량경제학에서의 인과 관계 추론 개념과 도구 변수 및 다른 방법들과의 관계는 헥먼(2008)에 의해 깊이 있게 논의되었다.

3. 이론적 배경

어떤 변수 X(설명 변수)가 다른 변수 Y(종속 변수)에 미치는 인과적 효과를 추정할 때, X에 영향을 주면서도 오직 그 영향을 통해서만 Y에 영향을 미치는 제3의 변수 Z를 도구 변수(Instrumental Variable, IV)라고 부른다.

예를 들어, 흡연(X)이 건강(Y)에 미치는 영향을 알아보고 싶다고 가정해 보자. 단순히 흡연자와 비흡연자의 건강 상태를 비교하는 것은 잘못된 결론으로 이어질 수 있다. 왜냐하면 우울증과 같은 다른 요인이 흡연과 건강 모두에 영향을 줄 수도 있고, 반대로 건강 상태가 흡연 여부에 영향을 줄 수도 있기 때문이다. 이런 상황에서 연구자는 담배에 부과되는 세율(Z)을 도구 변수로 사용할 수 있다. 세율은 담배 가격에 영향을 미쳐 흡연 여부(X)에 영향을 주지만, 흡연이라는 경로를 통하지 않고는 건강(Y) 자체에 직접적인 영향을 주지는 않는다고 가정할 수 있기 때문이다. 만약 세율 변화와 건강 상태 변화 사이에 상관관계가 발견된다면, 이는 흡연이 건강에 인과적인 영향을 미친다는 증거로 해석될 수 있다.

도구 변수의 개념은 필립 그린 라이트가 1928년 그의 저서에서 처음 사용했으며, 1945년 올라브 레이에르쇠가 변수 오류 모형에 적용하며 '도구 변수'라는 이름을 붙였다. 라이트는 버터의 수요와 공급 곡선을 추정하려 했으나, 관찰된 가격과 거래량 데이터만으로는 수요 곡선과 공급 곡선을 분리하기 어렵다는 문제에 직면했다. 가격은 수요와 공급 모두에 영향을 미치기 때문이다. 라이트는 오랜 고민 끝에 지역 강수량을 도구 변수로 사용했다. 강수량은 목초 생산량과 우유 생산량을 통해 버터 공급(X)에는 영향을 미치지만, 버터 수요(Y) 자체에는 직접적인 영향을 주지 않는다고 판단했기 때문이다. 이를 통해 그는 공급 곡선을 추정할 수 있었다.

도구 변수에 대한 현대적인 형식적 정의는 2000년 주디아 펄에 의해 제시되었고, 조슈아 앙그리스트와 앨런 크루거는 2001년 도구 변수 기법의 역사와 사용을 정리했다. 제임스 헥먼은 2008년 계량경제학에서의 인과관계 개념과 도구 변수 방법의 관계를 논의했다.

도구 변수 방법은 주로 선형 회귀 맥락에서 논의된다. 다음과 같은 선형 모형을 가정해 보자.

: $Y = X \beta + U$

여기서 $Y$ 는 종속 변수 벡터, $X$ 는 설명 변수 행렬, $\beta$ 는 추정하고자 하는 계수 벡터, $U$ 는 오차항 벡터이다. 만약 설명 변수 $X$ 와 오차항 $U$ 사이에 상관관계가 존재한다면( $\operatorname{cov}(X,U) \neq 0$ ), 즉 내생성 문제가 있다면, 일반적인 최소제곱법(OLS) 추정량 $\widehat{\beta}_\mathrm{OLS} = (X^\mathrm T X)^{-1} X^\mathrm T Y$ 는 $\beta$ 에 대한 편향되고 일치하지 않는 추정치를 제공한다. OLS는 단순히 $X$ 와 잔차( $\widehat{U}$ ) 간의 표본 상관관계를 0으로 만드는 $\widehat{\beta}$ 를 찾을 뿐, 실제 인과 효과 $\beta$ 를 추정하지 못할 수 있다.

단일 변수 모형 $y=\alpha + \beta x + u$ 를 생각해보면, OLS 추정량은 $\widehat{\beta}_\mathrm{OLS} = \frac{\operatorname{cov}(x,y)}{\operatorname{var}(x)}$ 이다. 이를 전개하면 다음과 같다.

: $\begin{align}\widehat{\beta}_\mathrm{OLS} & = \frac{\operatorname{cov}(x,y)}{\operatorname{var}(x)} = \frac{\operatorname{cov}(x,\alpha + \beta x + u)}{\operatorname{var}(x)} \\[6pt]& = \frac{\operatorname{cov}(x, \alpha +\beta x)}{\operatorname{var}(x)} +\frac{\operatorname{cov}(x,u)}{\operatorname{var}(x)}= \beta + \frac{\operatorname{cov}(x,u)}{\operatorname{var}(x)}\end{align}$

만약 $\operatorname{cov}(x,u) \neq 0$ 이라면, OLS 추정량은 실제 $\beta$ 와 달라지게 된다.

도구 변수 $Z$ 는 이러한 문제를 해결하기 위해 사용된다. 좋은 도구 변수는 다음 두 가지 핵심 조건을 만족해야 한다.
1. 관련성(Relevance): 도구 변수 $Z$ 는 내생 설명 변수 $X$ 와 상관관계가 있어야 한다 ( $\operatorname{cov}(Z,X) \neq 0$ ).
2. 외생성(Exogeneity) 또는 배제 제약(Exclusion Restriction): 도구 변수 $Z$ 는 오차항 $U$ 와 상관관계가 없어야 한다 ( $\operatorname{cov}(Z,U) = 0$ ). 즉, $Z$ 는 $X$ 를 통하지 않고서는 $Y$ 에 직접적인 영향을 주지 않아야 한다.

이 조건들을 만족하는 도구 변수 $Z$ 가 존재할 때, 도구 변수 추정량(IV estimator)을 사용하여 $\beta$ 의 일치 추정량을 얻을 수 있다. 가장 기본적인 IV 추정량은 다음과 같다.

: $\widehat{\beta}_\mathrm{IV} = (Z^\mathrm T X)^{-1} Z^\mathrm T y$

데이터 생성 과정에서 실제로 $\operatorname{E}[Z^\mathrm T U] = 0$ (표본에서는 $Z^\mathrm T e \approx 0$ ) 이 성립한다면, 표본 크기가 커짐에 따라 이 추정량은 실제 $\beta$ 로 수렴한다.

: $\widehat{\beta}_\mathrm{IV} = (Z^\mathrm T X)^{-1} Z^\mathrm T y = (Z^\mathrm T X)^{-1} Z^\mathrm T (X \beta + U) = \beta + (Z^\mathrm T X)^{-1} Z^\mathrm T U \xrightarrow{p} \beta$

사용 가능한 도구 변수의 개수( $M$ )가 내생 설명 변수의 개수( $K$ )보다 많은 경우를 과잉 식별(over-identification)이라고 한다. 이 경우 일반화된 적률법(GMM)을 사용하여 효율적인 추정치를 얻을 수 있다. GMM 추정량은 다음과 같다.

: $\widehat{\beta}_\mathrm{GMM} = (X^\mathrm T P_Z X)^{-1}X^\mathrm T P_Z y,$

여기서 $P_Z = Z(Z^\mathrm T Z)^{-1}Z^\mathrm T$ 는 도구 변수 $Z$ 에 대한 사영 행렬이다. 도구 변수의 개수와 내생 변수의 개수가 같은 경우(정확히 식별, $M=K$ ), GMM 추정량은 위의 IV 추정량과 동일해진다. 반대로 도구 변수의 개수가 부족한 경우( $m, 과소 식별)에는 \beta 를 유일하게 식별할 수 없다.$

주디아 펄은 도구 변수의 개념을 비선형 모형과 인과 그래프 모형으로 확장했다. 펄의 그래픽 정의에 따르면, 도구 변수 $Z$ 는 다음 조건을 만족해야 한다.
1. $X$ 에서 $Y$ 로 가는 경로를 제외했을 때, $Z$ 와 $Y$ 는 그래프 상에서 분리된다 ( $(Z \perp\!\!\!\perp Y)_{G_{\overline{X}}}$ ).
2. $Z$ 와 $X$ 는 그래프 상에서 분리되지 않는다 ( $(Z \not\!\!{\perp\!\!\!\perp} X)_G$ ).

반사실적(counterfactual) 정의로는 다음과 같다.
1. $X$ 의 값을 $x$ 로 고정했을 때의 잠재적 결과 $Y_x$ 는 $Z$ 와 독립이다 ( $(Z \perp\!\!\!\perp Y_x)$ ).
2. $Z$ 와 $X$ 는 독립이 아니다 ( $(Z \not\!\!{\perp\!\!\!\perp} X)$ ).

이러한 정의들은 모형의 함수 형태에 의존하지 않으며, 오차항이 비가산적인 경우나 다중 방정식 시스템에도 적용될 수 있다. 핵심은 도구 변수가 설명 변수( $X$ )에는 영향을 미치지만, 설명 변수를 거치지 않고는 종속 변수( $Y$ )에 영향을 미치는 다른 요인(오차항 $U$ )과는 독립적이어야 한다는 것이다.

3.1. 2단계 최소제곱법 (2SLS)

도구 변수 추정치를 계산하는 데 사용할 수 있는 한 가지 계산 방법은 2단계 최소제곱법(2SLS 또는 TSLS)이다. 이름에서 알 수 있듯이 두 단계로 나누어 계산한다.

=== 1단계 ===
관심 있는 회귀식에 포함된 내생 변수 각각을, 해당 회귀식의 외생 변수와 도구 변수(외생 변수이지만 원래 회귀식에는 포함되지 않는 변수)를 모두 포함한 모든 외생 변수 Z에 대해 회귀 분석을 실행한다.

: $X = Z \delta + \text{오차}$

여기서 X는 원래 회귀식의 설명 변수 행렬(내생 변수와 외생 변수 포함)이고, Z는 도구 변수와 원래 회귀식의 외생 변수를 포함한 모든 외생 변수의 행렬이다. 이 회귀 분석을 통해 설명 변수 X의 예측값 $\widehat{X}$ 를 얻는다.

: $\widehat{\delta}=(Z^\mathrm{T} Z)^{-1}Z^\mathrm{T}X$
: $\widehat{X}= Z\widehat{\delta} = Z(Z^\mathrm{T} Z)^{-1}Z^\mathrm{T}X = P_Z X$

여기서 $P_Z = Z(Z^\mathrm{T} Z)^{-1}Z^\mathrm{T}$ 는 사영 행렬이다. 이 1단계 회귀의 목적은 원래 설명 변수 X 중에서 도구 변수 Z와 상관관계가 있는 부분만을 분리해내는 것이다.

=== 2단계 ===
원래의 관심 회귀식을 추정하되, 1단계에서 문제가 되었던 내생 설명 변수 대신 1단계에서 얻은 예측값 $\widehat{X}$ 를 사용한다.

: $Y = \widehat X \beta + \mathrm{잡음}$

이 2단계 회귀 분석을 통해 얻는 $\beta$ 의 추정량 $\beta_\text{2SLS}$ 는 다음과 같다.

: $\beta_\text{2SLS} = \left(\widehat X^\mathrm{T}\widehat X\right)^{-1}\widehat X^\mathrm{T}Y = \left(X^\mathrm{T}P_Z X\right)^{-1} X^\mathrm{T}P_ZY$

이 2SLS 추정량은 일반화 모멘트법(GMM) 추정량과 수치적으로 동일하다. 즉, 도구 변수의 개수(Z의 열 개수)가 추정하려는 계수(X의 열 개수, 상수항 제외)와 정확히 같을 때(정확히 식별된 경우)나 더 많을 때(과잉 식별된 경우) GMM 추정량은 위 2SLS 추정량과 같은 형태가 된다.

2SLS 방법은 선형 모형에서 유효하다. 만약 내생 변수가 범주형 변수(예: 0 또는 1 값을 갖는 더미 변수)일 경우, 1단계에서 OLS 대신 프로빗 모형 등 다른 방법을 사용하고 2단계에서 OLS를 사용하는 경우가 있는데, 이는 계량경제학 문헌에서 '금지된 회귀'(forbidden regression)로 알려져 있으며, 특별한 경우를 제외하고는 일치성을 보장하지 않아 일반적으로 사용해서는 안 된다. 또한, 2SLS 추정량의 표준 오차를 올바르게 계산하기 위해서는 2단계 회귀의 잔차 제곱합에 약간의 수정이 필요하다는 점에 유의해야 한다.

4. 도구 변수의 정의

어떤 변수 X(설명 변수)가 다른 변수 Y(종속 변수)에 미치는 인과적 효과를 추정할 때, 관찰되지 않은 요인들로 인해 설명 변수와 오차항 간에 상관관계가 존재하면 일반적인 OLS 추정은 편향될 수 있다. 도구 변수(Instrumental Variable, IV)는 이러한 내생성(endogeneity) 문제를 해결하기 위해 사용되는 제3의 변수 Z를 의미한다. 비공식적으로 도구 변수는 설명 변수 X에는 영향을 미치지만, X를 통하는 경로 외에는 종속 변수 Y에 직접적인 영향을 주지 않는 변수이다.

예를 들어, 흡연(X)이 건강(Y)에 미치는 영향을 분석할 때, 개인의 건강 관리 습관이나 스트레스 수준과 같은 관찰되지 않는 요인이 흡연과 건강 모두에 영향을 미칠 수 있다. 이 경우 흡연과 건강 사이의 단순 상관관계는 인과 관계를 나타내지 못한다. 연구자는 담배 제품에 대한 세율(Z)을 도구 변수로 활용할 수 있다. 세율은 흡연 결정(X)에는 영향을 주지만, 흡연이라는 경로를 제외하고는 건강(Y)에 직접적인 영향을 미치지 않는다고 가정할 수 있다. 만약 세율(Z)과 건강(Y) 사이에 통계적 연관성이 발견된다면, 이는 흡연(X)이 건강(Y)에 인과적 영향을 미친다는 증거로 해석될 수 있다.

도구 변수 방법론의 초기 아이디어는 1928년 필립 G. 라이트와 그의 아들 슈얼 라이트가 공저한 저서 The Tariff on Animal and Vegetable Oils에서 동시 방정식 모형의 맥락에서 제시되었다. 라이트는 버터의 수요와 공급 곡선을 추정하고자 했으나, 가격 변수가 수요와 공급 모두에 영향을 미치기 때문에 관찰 데이터만으로는 각 곡선을 식별하기 어렵다는 문제를 인식했다. 그는 지역 강수량이 버터 공급(풀 생산, 우유 생산을 통해)에는 영향을 주지만 버터 수요에는 직접적인 영향을 미치지 않는다는 점에 착안하여 강수량을 도구 변수로 사용했다. 이후 1945년, 올라브 레이에르쇠는 변수 오류 모형(errors-in-variables models)의 맥락에서 동일한 기법을 적용하며 '도구 변수'라는 용어를 공식적으로 사용했다.

계량경제학, 특히 선형 회귀 모델 $Y = X \beta + U$ (여기서 $U$ 는 오차항)에서 도구 변수 $Z$ 는 전통적으로 다음 두 가지 핵심 조건을 만족하는 변수로 정의된다.
1. 관련성 (Relevance): 도구 변수 $Z$ 는 내생 설명 변수 $X$ 와 상관관계가 있어야 한다 ( $\operatorname{cov}(Z,X) \neq 0$ ).
2. 외생성 (Exogeneity) / 제외 제약 (Exclusion Restriction): 도구 변수 $Z$ 는 오차항 $U$ 와 상관관계가 없어야 한다 ( $\operatorname{cov}(Z,U) = 0$ ). 이는 $Z$ 가 $X$ 를 통하지 않고는 $Y$ 에 직접적인 영향을 미치지 않음을 의미한다.

만약 설명 변수 $X$ 가 오차항 $U$ 와 상관관계를 가지면 ( $\operatorname{cov}(X,U) \neq 0$ ), OLS 추정량 $\widehat{\beta}$ 는 $\beta + \frac{\operatorname{cov}(X,U)}{\operatorname{var}(X)}$ 로 편향되어 참된 인과 효과 $\beta$ 를 일관되게 추정하지 못한다. 도구 변수 기법은 위 두 조건을 만족하는 $Z$ 를 이용하여 $X$ 와 $U$ 의 상관관계 문제를 우회하고 $\beta$ 를 일관되게 추정하는 방법을 제공한다.

주디아 펄은 2000년에 인과 그래프와 반사실적(counterfactual) 개념을 이용하여 도구 변수에 대한 더 일반적이고 형식적인 정의를 제시했다. 이 정의는 선형 모델뿐만 아니라 비선형 모델과 비모수적(nonparametric) 상황에도 적용될 수 있다. 펄의 정의에 따르면, 도구 변수는 특정 그래픽 기준(d-분리) 또는 반사실적 독립성 조건을 만족해야 한다. 이러한 조건들은 근본적으로 전통적인 정의의 관련성, 외생성, 제외 제약 조건을 포함하며, 인과적 추론의 관점에서 도구 변수의 역할을 명확히 한다.

* 그래프 정의: $(Z \perp\!\!\!\perp Y)_{G_{\overline{X}}}$ 이고 $(Z \not\!\!{\perp\!\!\!\perp} X)_G$ 이다.
* 반사실적 정의: $(Z \perp\!\!\!\perp Y_x)$ 이고 $(Z \not\!\!{\perp\!\!\!\perp} X)$ 이다.

(여기서 $\perp\!\!\!\perp$ 는 조건부 독립 또는 독립, $G_{\overline{X}}$ 는 특정 그래프 조작, $Y_x$ 는 잠재적 결과를 나타낸다. 자세한 설명은 하위 섹션 참조.)

만약 추가적인 공변량 W가 있다면, 위의 정의들은 W를 조건으로 했을 때 Z가 해당 기준을 만족하는 것으로 수정된다. 펄의 정의는 도구 변수가 단순히 통계적 연관성을 넘어 인과 구조 내에서 특정 역할을 수행해야 함을 강조한다.

구조 방정식의 형태가 알려지지 않은 비모수적 상황에서는 도구 변수를 이용해도 평균 인과 효과(Average Causal Effect, ACE)를 점 추정(point estimate)하기는 어려울 수 있다. 그러나 Balke와 Pearl (1997)은 ACE에 대한 유의미한 경계(bound)를 유도할 수 있음을 보였다. 또한, 설명 변수 $X$ 가 이산적인 경우, 관찰된 데이터가 도구 변수 가정을 만족하는지 검증할 수 있는 "도구 부등식(instrumental inequality)" $\max_x \sum_y [\max_z \Pr(y,x\mid z)]\leq 1$ 이 존재한다.

도구 변수 기법의 역사, 적용, 그리고 인과 추론과의 관계에 대한 더 깊이 있는 논의는 앙그리스트와 크루거(2001) 및 헥먼(2008) 등의 연구에서 찾아볼 수 있다.

4.1. 적절한 도구 변수 선택

도구 변수(Instrumental Variable, IV)는 관심 있는 설명 변수 X와 관련성이 있으면서(relevance), 설명 변수 X를 통하지 않고는 종속 변수 Y에 영향을 주지 않는, 즉 오차항 U와 상관관계가 없는(외생성, exogeneity) 제3의 변수 Z를 말한다. 적절한 도구 변수를 찾는 것은 도구 변수 추정법의 성공에 매우 중요하다. 주디아 펄은 도구 변수의 조건을 다음과 같이 형식적으로 정의했다.

* 그래프 정의: $(Z \perp\!\!\!\perp Y)_{G_{\overline{X}}}$ 이고 $(Z \not\!\!{\perp\!\!\!\perp} X)_G$ 이다. 여기서 $\perp\!\!\!\perp$ 는 베이즈 네트워크에서의 d-분리(d-separation)를 의미하며, $G_{\overline{X}}$ 는 X로 들어오는 모든 화살표가 제거된 그래프이다.
* 반사실적(Counterfactual) 정의: $(Z \perp\!\!\!\perp Y_x)$ 이고 $(Z \not\!\!{\perp\!\!\!\perp} X)$ 이다. 여기서 $Y_x$ 는 설명 변수 X가 특정 값 x를 가졌을 때 종속 변수 Y가 취했을 잠재적 결과(potential outcome)를 의미한다.

이러한 정의에 따라, 좋은 도구 변수 Z는 다음 핵심 조건들을 만족해야 한다.
# 관심의 대상이 되는 방정식은 변수 간의 인과 관계를 나타내는 구조적(structural) 방정식이어야 한다.
# 오차항 U는 X의 값이 고정되었을 때 Y에 영향을 미치는 모든 외생적 요인들을 포함한다.
# 도구 변수 Z는 이러한 오차항 U와 통계적으로 독립적이어야 한다 (외생성 조건).
# 도구 변수 Z는 설명 변수 X를 통하지 않고서는 종속 변수 Y에 직접적인 영향을 미치지 않아야 한다 (제외 제약 조건).
# 도구 변수 Z는 설명 변수 X와 통계적으로 관련이 있어야 한다 (관련성 조건).

이 조건들, 특히 오차항 U와의 독립성(외생성)은 U 자체가 관찰되지 않기 때문에 데이터를 통해 직접 검증하기 어렵다. 따라서 도구 변수의 타당성은 주로 이론적 배경과 데이터 생성 과정에 대한 이해에 기반하여 판단해야 한다. 인과 그래프(Causal Graph)는 변수들 간의 인과 관계 구조를 시각적으로 표현하여, 특정 변수가 도구 변수의 조건을 만족하는지, 특히 외생성 및 제외 제약 조건을 만족하는지 체계적으로 판단하는 데 유용한 도구이다.

예를 들어, 대학의 튜터링 프로그램 참여(X)가 학생의 GPA(Y)에 미치는 영향을 추정하고자 할 때, 학생의 학습 동기나 능력과 같은 관찰되지 않는 요인(U)이 튜터링 참여와 GPA 모두에 영향을 미칠 수 있다(혼란, confounding). 이때, 학생들을 기숙사에 무작위로 배정한다면, 튜터링 장소까지의 '기숙사 근접성(Proximity)'(Z)을 도구 변수로 고려해 볼 수 있다.

그림 1: '도서관 이용 시간'을 통제하면 '근접성'은 도구 변수가 될 수 있다.

그림 2: G_{\overline{X}} 그래프. '근접성'이 도구 변수인지 판단하는 데 사용된다. — 그림 2: $G_{\overline{X}}$ 그래프. '근접성'이 도구 변수인지 판단하는 데 사용된다.

그림 3: '도서관 이용 시간'이 콜라이더일 경우, 이를 통제하면 '근접성'은 도구 변수가 될 수 없다.

그림 4: '도서관 이용 시간'이 GPA에 영향을 주지 않으면, 이를 통제하지 않아야 '근접성'이 도구 변수가 된다.

* 만약 튜터링 프로그램이 대학 도서관에서 진행되고, '근접성'이 학생들이 '도서관 이용 시간(Library Hours)'을 늘리게 하여 GPA를 향상시킨다면(그림 1), '근접성'은 제외 제약 조건을 위반하므로 그 자체로는 좋은 도구 변수가 아니다. 하지만 '도서관 이용 시간'이라는 변수를 통제(control)하면, '근접성' → '도서관 이용 시간' → 'GPA' 경로가 차단되어 '근접성'은 (조건부) 도구 변수가 될 수 있다(그림 2 참고).
* 만약 학생의 '타고난 능력(Ability)'과 같은 관찰되지 않는 요인이 '도서관 이용 시간'과 'GPA' 모두에 영향을 미친다면(그림 3), '도서관 이용 시간'은 '근접성' → '도서관 이용 시간' ← '능력' 경로에서 콜라이더(collider)가 된다. 이 경우 '도서관 이용 시간'을 통제하면 오히려 '근접성'과 '능력' 사이의 연관성이 생기고, '능력'은 GPA와도 관련 있으므로 '근접성'과 'GPA' 사이에 새로운 경로가 열리게 된다. 따라서 '근접성'은 도구 변수로 사용할 수 없다.
* 만약 '도서관 이용 시간' 자체가 실제로는 GPA에 영향을 미치지 않는다면(그림 4), '도서관 이용 시간'을 통제하는 것은 불필요하며 오히려 편향을 유발할 수 있다. 이 경우에는 '도서관 이용 시간'을 통제하지 않아야 '근접성'을 도구 변수로 사용할 수 있다.

이처럼 인과 그래프는 변수 간의 복잡한 관계를 명확히 하고, 특정 변수가 주어진 조건 하에서 도구 변수의 요건(특히 외생성 및 제외 제약)을 만족하는지 논리적으로 판단하는 데 도움을 준다.

한편, 도구 변수의 '관련성 조건'이 약하게 만족되는 경우, 즉 도구 변수 Z가 내생 설명 변수 X와 약하게 상관되어 있을 때 "약한 도구 변수(weak instruments)" 문제가 발생한다. 이는 1단계 회귀(

X = Z \delta + \text{오차}

)에서 Z가 X의 변동을 잘 설명하지 못하는 상황을 의미한다. 약한 도구 변수를 사용하면 2단계 최소 자승법(2SLS) 추정량의 편향(bias)이 커지고 표준 오차가 부정확해져 신뢰할 수 없는 결과를 얻을 수 있다.

도구 변수의 강도는 1단계 회귀 분석에서 제외된 도구 변수들(excluded instruments)의 유의성을 검정하는 F 통계량으로 평가할 수 있다. 일반적으로 내생 설명 변수가 하나일 때, 이 F 통계량이 10보다 크면 도구 변수가 충분히 강하다고 판단하는 경험적 규칙(rule of thumb)이 널리 사용된다.

5. 도구 변수 방법의 활용 예시

도구 변수(Instrumental Variable, IV) 방법은 어떤 변수 X가 다른 변수 Y에 미치는 인과적 효과를 추정하고자 할 때 사용된다. 단순히 X와 Y의 상관관계만으로는 인과 관계를 단정하기 어려운데, 이는 관찰되지 않은 다른 요인(U, 혼란 변수)이 X와 Y 모두에 영향을 미치거나, Y가 X에 영향을 미치는 역인과관계가 존재할 수 있기 때문이다. 이때 도구 변수 Z는 X에는 영향을 주지만 Y에는 오직 X를 통해서만 영향을 미치는 제3의 변수를 의미한다. 즉, 도구 변수는 X와 관련이 있어야 하고(관련성 조건), Y에 직접적인 영향을 주지 않아야 하며 U와도 관련이 없어야 한다(제외 제약 조건).

=== 흡연과 건강 ===
흡연(X)이 전반적인 건강(Y)에 미치는 인과적 효과를 추정하는 경우를 생각해 보자. 흡연과 건강 악화 사이에 상관관계가 있더라도, 이것이 반드시 흡연이 건강 악화의 원인임을 의미하지는 않는다. 예를 들어, 우울증과 같은 다른 요인이 흡연과 건강 모두에 영향을 미칠 수도 있고, 건강 상태가 흡연 여부에 영향을 줄 수도 있다. 일반 인구를 대상으로 흡연 여부를 통제하는 실험을 수행하는 것은 윤리적, 현실적으로 어렵다.

이런 상황에서 연구자는 담뱃세(Z)를 도구 변수로 활용할 수 있다. 담뱃세는 담배 가격에 영향을 미쳐 사람들의 흡연량(X)에 영향을 줄 수 있다. 이때 핵심 가정은 담뱃세가 오직 흡연 행태 변화를 통해서만 건강(Y)에 영향을 미치며, 그 외 다른 경로로는 건강에 직접적인 영향을 주지 않는다는 것이다(제외 제약). 만약 연구 결과 담뱃세율 변화와 사람들의 건강 상태 변화 사이에 통계적으로 유의미한 관계가 나타난다면, 이는 흡연이 건강에 인과적인 영향을 미친다는 증거로 해석될 수 있다.

=== 대학 튜터링 프로그램과 학점 ===
대학생 대상 튜터링 프로그램(X) 참여가 GPA(Y)에 미치는 영향을 분석하는 경우를 생각해 보자. 단순히 튜터링 참여 학생과 비참여 학생의 GPA를 비교하는 것은 잘못된 결론으로 이어질 수 있다. 튜터링에 참여하는 학생들은 원래부터 성적에 더 관심이 많거나, 반대로 학업에 어려움을 겪고 있을 수 있기 때문이다. 이러한 요인들은 튜터링 참여 여부와 GPA 모두에 영향을 미치는 혼란 변수로 작용한다.

만약 학생들이 기숙사에 무작위로 배정된다면, 학생의 기숙사와 튜터링 프로그램이 열리는 장소 간의 거리(Z)를 도구 변수로 고려해 볼 수 있다. 거리가 가까울수록 튜터링 프로그램 참여(X) 가능성이 높아질 수 있고, 기숙사 배정이 무작위라면 거리가 학생의 GPA(Y)에 직접적인 영향을 미치지는 않을 것이라고 가정할 수 있다.

그림 1: 도서관 이용 시간(Library Hours)을 통제할 때, 기숙사와의 거리(Proximity)는 튜터링 프로그램(Tutoring Program) 참여가 GPA에 미치는 영향을 분석하기 위한 유효한 도구 변수가 될 수 있다.

그림 2: 도구 변수의 유효성을 판단하기 위한 그래프(G_{\overline{X}}). 튜터링 프로그램 참여(X)로 들어오는 화살표가 제거된 상태에서 거리(Z)와 GPA(Y) 사이에 경로가 있는지 확인한다. — 그림 2: 도구 변수의 유효성을 판단하기 위한 그래프( $G_{\overline{X}}$ ). 튜터링 프로그램 참여(X)로 들어오는 화살표가 제거된 상태에서 거리(Z)와 GPA(Y) 사이에 경로가 있는지 확인한다.

그림 3: 학생의 타고난 능력(Ability)과 같은 관찰되지 않는 요인이 도서관 이용 시간과 GPA 모두에 영향을 미치는 경우, 도서관 이용 시간을 통제하면 거리가 유효한 도구 변수가 되지 못할 수 있다.

그림 4: 만약 도서관 이용 시간이 GPA에 직접적인 영향을 주지 않는다면, 도서관 이용 시간을 통제하지 않을 때 거리가 유효한 도구 변수가 될 수 있다.

하지만 도구 변수를 사용할 때는 가정이 현실에 부합하는지 신중하게 검토해야 한다. 예를 들어, 튜터링 프로그램이 대학 도서관에서 열린다고 가정해 보자 (그림 1). 이 경우, 기숙사와의 거리가 가까운 학생은 튜터링 참여와 별개로 도서관 이용 시간이 늘어나 GPA가 향상될 수 있다. 즉, 거리(Z)가 도서관 이용 시간을 통해 GPA(Y)에 직접 영향을 미치는 경로(Z → 도서관 이용 시간 → Y)가 생겨 제외 제약 조건이 깨질 수 있다. 이 문제를 해결하기 위해 도서관 이용 시간을 통계 분석에서 통제 변수로 포함하면, 거리를 다시 유효한 도구 변수로 사용할 수 있다 (그림 2).

그러나 상황은 더 복잡해질 수 있다. 만약 학생의 '타고난 학습 능력'과 같은 관찰되지 않는 요인이 도서관 이용 시간과 GPA 모두에 영향을 미친다면 (그림 3), 도서관 이용 시간을 통제하는 것이 오히려 새로운 편향을 만들 수 있다. 이 경우 거리는 유효한 도구 변수가 되지 못한다. 반대로, 만약 도서관 이용 시간이 실제로는 GPA에 영향을 미치지 않는다면 (예: 도서관에서 공부하지 않는 학생은 다른 곳에서 공부하므로 총 공부 시간은 비슷하다면, 그림 4), 도서관 이용 시간을 통제하지 않아야 거리를 유효한 도구 변수로 사용할 수 있다. 이처럼 도구 변수의 타당성은 연구 설계와 맥락에 대한 깊은 이해를 바탕으로 판단해야 한다.

=== 필립 라이트의 버터 수요와 공급 연구 ===
도구 변수 방법의 초기 활용 사례 중 하나는 필립 그린 라이트가 1928년 그의 아들 슈얼 라이트와 함께 쓴 저서 The Tariff on Animal and Vegetable Oils에서 찾아볼 수 있다. 라이트는 당시 미국의 버터 가격(X)과 판매량 데이터를 이용해 버터의 수요 곡선과 공급 곡선을 추정하고자 했다. 하지만 시장 가격은 수요와 공급 모두에 영향을 미치기 때문에, 관찰된 가격과 거래량 데이터만으로는 수요 곡선과 공급 곡선을 분리하여 추정하기 어려웠다.

라이트는 이 문제를 해결하기 위해 지역별 강수량(Z)을 도구 변수로 사용했다. 그는 강수량이 목초 생산량과 우유 생산량에 영향을 미쳐 최종적으로 버터 공급(Y)에는 영향을 주지만, 소비자의 버터 수요에는 직접적인 영향을 미치지 않는다고 판단했다. 즉, 강수량은 공급 곡선에는 영향을 주지만 수요 곡선에는 영향을 주지 않는 외생적인 변수라고 가정한 것이다. 이를 통해 라이트는 공급 곡선을 식별하고 추정할 수 있었다. 이 연구는 도구 변수의 개념을 동시 방정식 모형 문제에 적용한 선구적인 시도로 평가받는다.

이러한 예시들처럼 도구 변수 방법은 경제학, 사회학, 정치학, 의학 등 다양한 분야에서 인과 관계 추론을 위한 중요한 분석 도구로 활용되고 있다. 특히 정책 효과를 평가하거나 사회 현상의 원인을 규명하는 연구에서 그 유용성이 크다. 다만, 적절한 도구 변수를 찾고 그 타당성을 입증하는 것은 연구의 성공에 있어 매우 중요한 과제이다.

6. 한계점 및 비판

도구 변수 추정 방법은 유용하지만 몇 가지 중요한 한계점과 비판이 존재한다.

약한 도구 변수 문제

도구 변수가 내생 변수와 약하게 상관되어 있을 때 발생하는 문제이다. Bound, Jaeger, Baker (1995)는 1단계 회귀에서 내생 변수를 제대로 예측하지 못하는 "약한" 도구 변수를 선택할 때 문제가 생긴다고 지적했다. 도구 변수가 약하면 내생 변수에 대한 예측력이 떨어지고, 예측된 값의 변동성이 작아진다. 이는 결국 2단계 회귀에서 관심 있는 변수의 효과를 정확하게 추정하기 어렵게 만든다. 약한 도구 변수는 추정량의 점근적 분산을 크게 만들고, 작은 표본에서는 편향을 유발할 수 있다.

예를 들어, 흡연이 건강에 미치는 영향을 분석할 때 담배세를 도구 변수로 사용한다고 가정하자. 만약 담배세 인상이 사람들의 흡연 행동에 거의 영향을 미치지 못한다면(즉, 흡연율 변화가 미미하다면), 담배세는 약한 도구 변수가 된다. 이 경우 담배세 변화는 흡연의 건강 효과에 대한 유의미한 정보를 제공하기 어렵다.

도구 변수의 강도는 내생 변수와 도구 변수 모두 관측 가능하므로 직접 평가할 수 있다. 일반적으로 내생 설명 변수가 하나일 때, 1단계 회귀에서 도구 변수의 유의성을 검정하는 F-통계량 값이 10보다 커야 한다는 경험적인 규칙이 사용된다.

외생성 가정 위반

도구 변수 추정의 핵심 가정은 도구 변수가 오차항과 상관관계가 없어야 한다는 외생성 가정이다. 만약 도구 변수가 오차항과 상관관계를 가진다면, 즉 외생성 가정이 위반되면 도구 변수 추정량은 일치성을 잃게 되어 편향된 결과를 낳는다.

앞선 흡연과 건강 예시에서, 만약 담배세가 높은 지역이 동시에 주민들의 건강 의식 수준도 높아서 흡연 외의 다른 요인으로 건강 상태가 더 좋다면, 담배세는 오차항(건강에 영향을 미치는 관찰되지 않은 요인들)과 상관관계를 가지게 된다. 이 경우 담배세는 유효한 도구 변수가 아니며, 이를 사용한 분석은 흡연의 효과를 잘못 추정할 수 있다.

외생성 가정은 정확히 식별된 모형(내생 변수 수와 도구 변수 수가 같은 경우)에서는 통계적으로 검증할 수 없다. 하지만 과잉 식별된 모형(도구 변수 수가 내생 변수 수보다 많은 경우)에서는 외생성 가정을 검증할 수 있는 방법이 있다. 가장 널리 사용되는 검정은 사간-한센 검정(Sargan–Hansen test)이다. 이 검정은 도구 변수가 외생적이라면 회귀 분석의 잔차가 도구 변수를 포함한 외생 변수들과 상관관계가 없어야 한다는 원리에 기반한다. 검정 통계량( $TR^2$ , 결정 계수에 관측치 수를 곱한 값)은 외생성 가정이 참이라는 귀무가설 하에서 점근적으로 카이제곱 분포를 따른다.

유한 표본 문제

도구 변수 추정량은 주로 점근적으로 바람직한 성질(예: 일치성)을 갖는 것으로 알려져 있다. 하지만 실제 분석에서 사용하는 데이터의 크기는 유한하므로, 유한 표본에서의 성질이 중요할 수 있다. 도구 변수가 외생성 가정을 만족하고 약하지 않더라도, 유한 표본에서는 추정량의 편향이 클 수 있으며, 가설 검정에 사용되는 검정 통계량의 분포가 이론적인 점근 분포와 달라 유의성 판단에 오류가 발생할 수 있다. 특히, 정확히 식별된 모형의 경우 유한 표본 추정량의 모멘트가 존재하지 않을 수 있어, 편향의 정도를 평가하는 것 자체가 어려울 수 있다.

제한된 일반화 가능성 및 해석의 어려움

선형 모형과 달리 비선형 모형에서는 도구 변수를 사용하더라도 관심 있는 변수의 평균적인 인과 효과(Average Causal Effect, ACE)를 정확히 식별하는 것이 어려울 수 있다. 다만 Balke와 Pearl (1997)은 ACE 값의 범위(경계)를 추정하는 방법을 제시하여, 효과의 부호나 크기에 대한 정보를 얻을 수 있음을 보였다.

또한, 선형 모형에서는 도구 변수의 타당성(외생성)을 데이터만으로 검증할 방법이 없지만, 내생 변수 $X$ 가 이산적인 경우에는 Pearl (2000)이 제시한 "도구적 부등식"(instrumental inequality)을 통해 도구 변수 가정의 타당성을 일부 검증할 수 있다.
: $\max_x \sum_y [\max_z \Pr(y,x\mid z)]\leq 1.$

7. 추가 논의

=== 비모수적 분석 ===
구조 방정식의 형태가 알려져 있지 않은 경우에도 도구 변수 $Z$ 는 다음 방정식을 통해 정의될 수 있다.

: $x = g(z,u) \,$
: $y = f(x,u) \,$

여기서 $f$ 와 $g$ 는 임의의 함수이고, $Z$ 는 오차항 $U$ 와 독립적이다. 하지만 선형 모형과 달리, $Z, X, Y$ 의 측정값만으로는 $X$ 가 $Y$ 에 미치는 평균 인과 효과(ACE, Average Causal Effect)를 식별할 수 없다.

: $\text{ACE} = \Pr(y\mid \text{do}(x)) = \operatorname{E}_u[f(x,u)].$

Balke와 Pearl (1997)은 ACE에 대한 엄격한 경계를 유도했으며, 이를 통해 ACE의 부호와 크기에 대한 귀중한 정보를 얻을 수 있음을 보였다.

선형 분석에서는 $Z$ 가 $(X,Y)$ 쌍에 대한 도구 변수라는 가설을 반증할 수 있는 검정이 없다. 그러나 $X$ 가 이산적인 경우에는 그렇지 않다. Pearl (2000)은 모든 함수 $f$ 와 $g$ 에 대해, $Z$ 가 위의 두 방정식을 만족할 때마다 "도구 부등식(instrumental inequality)"이라고 하는 다음 제약 조건이 반드시 성립해야 함을 보였다.

: $\max_x \sum_y [\max_z \Pr(y,x\mid z)]\leq 1.$

=== 해석: 지역 평균 처치 효과 (LATE) ===
도구 변수 분석은 관심 있는 인과 효과가 모든 관찰 대상에게 동일하다는 가정, 즉 $\beta$ 가 상수라는 가정을 전제로 하는 경우가 많다. 하지만 실제로는 서로 다른 대상이 '처치' $x$ 의 변화에 다르게 반응할 수 있다. 이러한 가능성을 고려하면, $x$ 변화가 $y$ 에 미치는 평균 효과는 특정 하위 집단에서의 효과와 다를 수 있다. 예를 들어, 직업 훈련 프로그램의 평균 효과는 실제로 훈련을 받는 사람들과 그렇지 않은 사람들 사이에서 크게 다를 수 있다. 이러한 이유로 도구 변수 방법은 행동 반응에 대한 암묵적인 가정, 또는 처치 반응과 처치받을 가능성 사이의 상관관계에 대한 가정을 사용한다.

표준적인 도구 변수 추정량은 모집단 전체의 평균 처치 효과(ATE, Average Treatment Effect)가 아닌, 지역 평균 처치 효과(LATE, Local Average Treatment Effect)를 복구하는 경우가 많다. Imbens와 Angrist (1994)는 선형 도구 변수 추정량이 약한 조건 하에서 LATE의 가중 평균으로 해석될 수 있음을 보였다. 여기서 가중치는 내생 변수의 도구 변수 변화에 대한 탄력성에 따라 달라진다. 즉, 도구 변수의 변화에 영향을 받는 하위 집단(compliers)에 대해서만 효과가 나타나며, 도구 변화에 가장 민감하게 반응하는 하위 집단이 도구 변수 추정량의 크기에 가장 큰 영향을 미친다는 것을 의미한다.

예를 들어, 연구자가 토지 부여 대학(토지 공여 대학)의 존재 여부를 소득 회귀 분석에서 대학 교육에 대한 도구 변수로 사용한다고 가정해보자. 이 경우 연구자는 대학이 있으면 학위를 얻지만 대학이 없으면 학위를 얻지 않을 하위 집단에서 대학 교육이 소득에 미치는 효과를 식별하게 된다. 이 접근 방식은 추가적인 가정이 없다면, 지역 대학의 존재 여부와 관계없이 항상 또는 결코 대학 학위를 받지 않을 사람들(always-takers, never-takers) 사이에서 대학 교육의 효과에 대해서는 아무것도 알려주지 못한다.

=== 과잉 식별 제약 검정 ===
도구 변수가 관심 방정식의 오차항과 상관관계가 없다는 핵심 가정(외생성 가정)은 모형이 정확히 식별(exactly identified, 도구 변수의 수 = 내생 변수의 수)된 경우에는 검증할 수 없다. 그러나 모형이 과잉 식별(overidentified, 도구 변수의 수 > 내생 변수의 수)된 경우에는 이 가정을 검증하는 데 사용할 수 있는 정보가 있다.

이러한 과잉 식별 제약(overidentifying restrictions)에 대한 가장 일반적인 검정 방법은 Sargan–Hansen 검정이다. 이 검정은 도구 변수가 실제로 외생적이라면, 회귀 분석에서 얻어진 잔차(residuals)가 외생 변수(도구 변수 포함) 집합과 상관관계가 없어야 한다는 원리에 기반한다. Sargan-Hansen 검정 통계량은 잔차를 외생 변수 집합에 대해 OLS 회귀를 수행하여 얻은 $TR^2$ (관측치 수 $T$ 에 결정 계수 $R^2$ 를 곱한 값)로 계산할 수 있다. 이 통계량은 "오차항이 모든 도구 변수와 상관관계가 없다"는 귀무 가설 하에서 점근적으로 자유도가 $m - k$ (여기서 $m$ 은 도구 변수의 수, $k$ 는 내생 설명 변수의 수)인 카이제곱 분포를 따른다.

=== 도구 변수 강도 평가 ===
내생적인 설명 변수와 도구 변수는 모두 관측 가능한 변수이므로, 도구 변수가 내생 변수를 설명하는 정도, 즉 도구 변수의 강도(strength)를 직접 평가할 수 있다. 내생 설명 변수가 하나인 경우, 1단계 회귀(first-stage regression, 내생 변수를 도구 변수와 다른 외생 변수로 설명하는 회귀)에서 제외된 도구 변수들(excluded instruments)이 통계적으로 유의한지를 확인하는 것이 일반적이다. 자주 사용되는 경험적인 규칙 중 하나는, 1단계 회귀에서 제외된 도구 변수들이 내생 변수에 영향을 미치지 못한다는 귀무 가설에 대한 F 검정 통계량이 10보다 큰지 확인하는 것이다. F 통계량이 10보다 작으면 도구 변수가 약하다(weak instrument)고 판단하며, 이는 도구 변수 추정량의 편향(bias)을 증가시키고 추론의 정확성을 떨어뜨릴 수 있다.