工具变量如何通向因果效应
在日常生活中,我们经常会遇到这样的问题:某种行为是否会导致某种结果?例如,吸烟是否会导致肺癌?参加工作培训是否会提高就业率?这些问题的答案并不总是显而易见,因为很多时候,行为和结果之间可能存在其他隐藏的混淆因素。工具变量(Instrumental Variables, IV)是当混淆因素不可观测时,识别因果效应的一种解决方案。
假设我们有以下变量:
- $T$:处理变量(例如,是否接受某种治疗)
- $Y$:结果变量(例如,健康状况)
- $U$:混淆因素(例如,个人健康习惯)
- $Z$:工具变量(例如,是否被建议接受治疗)
工具变量 $Z$ 必须满足下列三个假设:
- 相关性假设(Relevance Assumption): $Z$ 对 $T$ 存在因果效应
- 排他限制(Exclusion Restriction): $Z$ 对 $Y$ 的所有因果效应都必须经过中介 $T$
$Z$ causal effects on $Y$ is fully mediated by $T$.
This assumption is known as the exclusion restriction because it excludes $Z$ from the structural equation for $Y$ and from any other structural equations that would make causal association flow from $Z$ to $Y$ without going through $T$.
- 工具变量无混淆(Instrumental Unconfoundedness): $Z$ 到 $Y$ 之间没有后门路径
与 Unconfoundedness 的假设相同,其弱假设版本 Conditional unconfoundedness 同样适用于工具变量。
Binary Linear Setting
当处理变量($T$)和工具变量($Z$)均为为二元分布(binary)时,假设结果变量($Y$)是关于处理变量($T$)的线性函数:
$$ Y:=\delta T+\alpha_u U $$其中,$\delta$ 即为我们感兴趣的因果效应,即平均处理效应(Average Treatment Effect, ATE)。
考虑工具变量($Z$)和 $Y$ 的统计关联(association)在 $Z$ 为 $0$ 或 $1$ 时的差异,有
$$ \begin{aligned} \Bbb{E}[Y|Z=1]&-\Bbb{E}[Y|Z=0]= \Bbb{E}[\delta T+\alpha_u U|Z=1]-\Bbb{E}[\delta T+\alpha_u U|Z=0]\\\ &=\delta\left(\Bbb{E}[T|Z=1]-\Bbb{E}[T|Z=0]\right) + \alpha_u\left(\Bbb{E}[U|Z=1]-\Bbb{E}[U|Z=0]\right) \end{aligned} $$根据 Unconfoundedness 假设,$Z$ 和 $U$ 之间相互独立
$$ \begin{aligned} &\delta\left(\Bbb{E}[T|Z=1]-\Bbb{E}[T|Z=0]\right) + \alpha_u\left(\Bbb{E}[U|Z=1]-\Bbb{E}[U|Z=0]\right)\\\ =&\delta\left(\Bbb{E}[T|Z=1]-\Bbb{E}[T|Z=0]\right) + \alpha_u\left(\Bbb{E}[U]-\Bbb{E}[U]\right)\\\ =&\delta\left(\Bbb{E}[T|Z=1]-\Bbb{E}[T|Z=0]\right) \end{aligned} $$由此可得 Wald estimand,
$$ \delta=\frac{\Bbb{E}[Y|Z=1]-\Bbb{E}[Y|Z=0]}{\Bbb{E}[T|Z=1]-\Bbb{E}[T|Z=0]} $$所以 Wald estimator 为:
$$ \hat\delta=\frac{\frac{1}{n_1}\sum_{i:z_i=1}Y_i-\frac{1}{n_0}\sum_{i:z_i=0}Y_i}{\frac{1}{n_1}\sum_{i:z_i=1}T_i-\frac{1}{n_0}\sum_{i:z_i=0}T_i} $$因果效应的为路径系数的乘积
如图,工具变量 $Z$ 到 $T$ 的因果效应,用路径系数 $\alpha_z$ 表示其因果关联(causal association),$\delta$ 同理。
混淆因素的存在,使 $T$ 到 $Y$ 的因果路径上存在无法关闭的后门路径,其因果关联不等于统计关联(total association),即
$$ \delta\neq\Bbb{E}[Y|T=1]-\Bbb{E}[Y|T=0] $$。在结构方程均为线性的条件下,$Z$ 到 $Y$ 的因果效应可以表示为有向路径(directed path)上的系数乘积,即 $\alpha_z\delta$。
通过 $\Bbb{E}[Y|Z=1]-\Bbb{E}[Y|Z=0]$,我们能够估计 $Z$ 到 $Y$ 的统计关联(total association),
由工 $Z$ 到 $Y$ 之间不存在后门路径,其统计关联等价于因果效应,故路径系数的乘积为:
$$ \alpha_z\delta = \Bbb{E}[Y|Z=1]-\Bbb{E}[Y|Z=0]\tag{1} $$其中,
$$ \alpha_z = \Bbb{E}[T|Z=1]-\Bbb{E}[T|Z=0]\tag{2} $$进行估计,
根据 $(1)$ 和 $(2)$,我们感兴趣的 $T$ 到 $Y$ 的因果效应为
$$ \delta=\frac{\alpha_z\delta}{\alpha_z} $$,同 wald estimand。
Continuous Linear Setting
$Z$ 和 $Y$ 的协方差可以表示为 $\rm{Cov}(Y,Z)=\Bbb{E}[YZ]-\Bbb{E}[Y]\Bbb{E}[Z]$
根据线性假设,
$$ \begin{aligned} \rm{Cov}(Y,Z)&=\Bbb{E}[YZ]-\Bbb{E}[Y]\Bbb{E}[Z]\\\ &=\Bbb{E}[(\delta T+\alpha_u U)Z]-\Bbb{E}[\delta T+\alpha_u U]\Bbb{E}[Z]\\\ &=\delta\Bbb{E}[TZ]+\alpha_u\Bbb{E}[UZ]-\delta\Bbb{E}[T]\Bbb{E}[Z]-\alpha_u\Bbb{E}[U]\Bbb{E}[Z]\\\ &=\delta(\Bbb{E}[TZ]-\Bbb{E}[T]\Bbb{E}[Z])+\alpha_u(\Bbb{E}[UZ]-\Bbb{E}[U]\Bbb{E}[Z])\\\ &=\delta\rm{Cov(T,Z)}+\alpha_u\rm{Cov}(U,Z) \end{aligned} $$其中 $\rm{Cov}(U,Z)=0$,故有
$$ \delta=\frac{\rm{Cov}(Y,Z)}{\rm{Cov}(T,Z)} $$二阶最小平方估计
Two-stage least squares estimator (2SLS)
- Linearly regress $T$ on $Z$ to estimate $\Bbb{E}[T | Z]$. This gives us the projection of $T$ onto $Z:\hat T$.
- Linearly regress $Y$ on $\hat T$ to estimate $\Bbb{E}[Y | \hat T]$. Obtain our estimate $\hat\delta$ as the fitted coefficient in front of $\hat T$.
$Z$ 对 $T$ 线性回归得 $\hat T$,用 $\hat T$ 替代 $T$ 重建原来的因果图。
从数据生成机制的角度,$\hat{T}$ 不是关于 $U$ 的函数。
由于 $\hat T$ 与 $U$ 无关,可以视为在因果图上删除 $U \to \hat T$ 的边,从而阻断了 $\hat T$ 到 $Y$ 的后门路径。