<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Causal-Inference on TouchingFish.top</title><link>https://touchingfish.top/categories/causal-inference/</link><description>Recent content in Causal-Inference on TouchingFish.top</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Mon, 27 Jun 2022 00:00:00 +0000</lastBuildDate><atom:link href="https://touchingfish.top/categories/causal-inference/index.xml" rel="self" type="application/rss+xml"/><item><title>当混淆因素隐匿于幕后</title><link>https://touchingfish.top/2022/unobserved-confounding/</link><pubDate>Mon, 27 Jun 2022 00:00:00 +0000</pubDate><guid>https://touchingfish.top/2022/unobserved-confounding/</guid><description>&lt;h2 id="基本问题"&gt;基本问题&lt;/h2&gt;
&lt;p&gt;所谓混淆因素，指的是与处理（treatment）及结果（outcome）皆有联系之变量。若不予控制，易致偏差，令我们所得结论非因果关系之实，乃混淆所致之假象。然而，倘若混淆因素不可观测（unobserved confounding），我们又该如何在未知中求解因果？&lt;/p&gt;
&lt;p&gt;&lt;img src="UnobservedConfound.svg" alt=""&gt;&lt;/p&gt;
&lt;h2 id="界限估计"&gt;界限估计&lt;/h2&gt;
&lt;p&gt;当我们不能妄断“unconfoundedness”的条件成立，则需要借助弱假设，推导出因果效应的区间（interval）估计。这类方法一般依赖部分识别（partial identification）之思想，亦即在无法完全排除混淆时，通过宽泛但合理的假设，限定因果效应的可能范围。&lt;/p&gt;
&lt;p&gt;如 Bounding methods 并不假设完全无混淆（unconfoundedness），而是假设混淆的影响在某特定范围内。借此，我们可以得出一个因果效应的上下界，而非唯一值之估计。这种思路可以在不严苛的假设之下，仍提供有意义的推断。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;“The Law of Decreasing Credibility: the credibility of inference decreases with the strength of the assumptions maintained.”&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h3 id="no-assumptions-bound"&gt;No-Assumptions Bound&lt;/h3&gt;
&lt;p&gt;对二元（binary）之个体处理效应（ITE）而言，其最大值和最小值为&lt;/p&gt;
$$
-1 \leq Y_i(1)-Y_i(0) \leq 1 \qquad \text{if } \forall t,0 \leq Y(t) \leq 1
$$&lt;p&gt;故平均处理效应（ATE）之区间长度也都在 $2$ 之内。&lt;/p&gt;
&lt;p&gt;在无需任何假设的条件下，较之 ITE，ATE 的区间长度可减半，即 ATE 将落于长度为 $1$ 的区间内。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;ASSUMPTION&lt;/strong&gt; Bounder Potential Outcomes&lt;/p&gt;
$$
\forall t,a \leq Y(t) \leq b
$$&lt;p&gt;根据该假设，易得&lt;/p&gt;
$$
\begin{aligned}
a-b \leq Y_i(1)-Y_i(0) \leq b-a
\\\
a-b \leq \Bbb{E}[Y_i(1)-Y_i(0)] \leq b-a
\end{aligned}
$$&lt;p&gt;ITE 的区间长度为 $(b-a)-(a-b)=2(b-a)$.&lt;/p&gt;</description></item><item><title>衡量因果推论之稳定性</title><link>https://touchingfish.top/2022/sensitivity-analysis/</link><pubDate>Wed, 27 Apr 2022 00:00:00 +0000</pubDate><guid>https://touchingfish.top/2022/sensitivity-analysis/</guid><description>&lt;p&gt;敏感性分析（sensitivity analysis）乃衡量因果推论之稳定性所用。当研究中存有不可观测混淆因素时，结论或受此影响而失真，敏感性分析可助吾等评估此种未知因素对估计因果效应之干扰程度。今撰此小文，略述其要义。&lt;/p&gt;
&lt;h2 id="基本原理"&gt;基本原理&lt;/h2&gt;
&lt;p&gt;敏感性分析旨在通过设定不同假想情境，量化未观测混淆之潜在影响。其核心在于引入两个参数：一为混淆因素对处理（treatment）的影响，二为混淆因素对结果（outcome）的影响。通过调整此等参数之值，吾辈可模拟不同程度之混淆，并观察因果效应估计之变化。&lt;/p&gt;
&lt;p&gt;若吾等发现某结论在较大范围之参数变动中仍保持稳健，则可对所得推断更有信心；反之，若结论在微小假设变化下便剧烈波动，则应审慎看待，或重新考虑所用之假设。&lt;/p&gt;
&lt;p&gt;举例而言，在一个线性模型中，考虑可观测的共因 $W$，和不可观测的共因 $U$：&lt;/p&gt;
$$
\begin{aligned}
T &amp;:= \alpha_w W + \alpha_u U\\\
Y &amp;:= \beta_w W + \beta_u U + \delta T
\end{aligned}
$$&lt;p&gt;其中，$\alpha_u$ 乃是混淆因素 $U$ 对处理 $T$ 的影响， $\beta_u$ 则为混淆因素 $U$ 对结果 $Y$ 的影响，$T$ 对 $Y$ 之因果效应表示为 $\delta$。&lt;/p&gt;
&lt;p&gt;由调整公式得&lt;/p&gt;
$$
\Bbb{E}[Y(1)-Y(0)]=\Bbb{E}_{W,U}\big[\Bbb{E}[Y|T=1,W,U]-\Bbb{E}[Y|T=0,W,U]\big]=\delta
$$&lt;p&gt;因 $U$ 不可观测，故我们只能对 $W$ 进行调整，混淆因素所致之偏差为 $\frac{\beta_u}{\alpha_u}$。&lt;/p&gt;
$$
\Bbb{E}_{W}\big[\Bbb{E}[Y|T=1,W]-\Bbb{E}[Y|T=0,W]\big]-\Bbb{E}_{W,U}\big[\Bbb{E}[Y|T=1,W,U]-\Bbb{E}[Y|T=0,W,U]\big]=\frac{\beta_u}{\alpha_u}
$$&lt;h2 id="证明"&gt;证明&lt;/h2&gt;
&lt;p&gt;据 $Y$ 与 $T$ 之结构方程，可推出 $\implies U=\frac{T-\alpha_w W}{\alpha_u}$，故有&lt;/p&gt;
$$
\begin{aligned}
\Bbb{E}_W\big[\Bbb{E}[Y|T=t,W]\big]
&amp;=\Bbb{E}_W\big[\Bbb{E}[\beta_w W + \beta_u U + \delta T|T=t,W]\big]
\\\
&amp;=\Bbb{E}_W\left[\beta_w W + \beta_u \Bbb{E}[U|T=t,W] + \delta t\right]
\\\
&amp;=\Bbb{E}_W\left[\beta_w W + \beta_u \left(\frac{t-\alpha_w W}{\alpha_u}\right) + \delta t\right]
\\\
&amp;=\Bbb{E}_W\left[\beta_w W + \frac{\beta_u}{\alpha_u}t - \frac{\beta_u\alpha_w}{\alpha_u}W + \delta t\right]
\\\
&amp;=\beta_w\Bbb{E}[W]+\frac{\beta_u}{\alpha_u}t - \frac{\beta_u\alpha_w}{\alpha_u}\Bbb{E}[W] + \delta t
\\\
&amp;=\left(\beta_w - \frac{\beta_u\alpha_w}{\alpha_u}\right)\Bbb{E}[W]+\left(\delta+\frac{\beta_u}{\alpha_u}\right) t
\end{aligned}
$$&lt;p&gt;若我们对 $W$ 进行调整时，根据上式来估计 ATE&lt;/p&gt;</description></item><item><title>孟德尔随机化的原理</title><link>https://touchingfish.top/2022/mendelian-randomization/</link><pubDate>Sun, 24 Apr 2022 00:00:00 +0000</pubDate><guid>https://touchingfish.top/2022/mendelian-randomization/</guid><description>&lt;p&gt;手冲咖啡的香气弥漫在狭小的房间里。&lt;/p&gt;
&lt;p&gt;窗外下着雨，和往常一样。我端着第二杯아아（冰美式简称，아이스 아메리카노，ice americano —— 一个无聊的冷知识），坐在电脑前，屏幕上是那篇用孟德尔随机化（Mendelian Randomization, MR）研究喝咖啡和抑郁症关系的论文&lt;sup id="fnref:1"&gt;&lt;a href="#fn:1" class="footnote-ref" role="doc-noteref"&gt;1&lt;/a&gt;&lt;/sup&gt;。结论是：没关系。&lt;/p&gt;
&lt;p&gt;喝咖啡续命这件事，看来只是续命。&lt;/p&gt;
&lt;p&gt;这个结果令人有点失落。毕竟每天两杯美式，总想骗自己说这是在预防抑郁。&lt;/p&gt;
&lt;p&gt;去年的经济学奖把因果推论的地位又提升了一档，前几天刚啃完IV（Instrumental Variable, 工具变量法），再看这篇文章，清楚了许多，心境也已经不一样了。&lt;/p&gt;
&lt;h2 id="从一个问题开始"&gt;从一个问题开始&lt;/h2&gt;
&lt;p&gt;咖啡和抑郁没有关系。这句话本身没问题。&lt;/p&gt;
&lt;p&gt;问题在于：怎么证明？&lt;/p&gt;
&lt;p&gt;最直接的方法是比较喝咖啡的人和不喝咖啡的人，看谁的抑郁风险更高。&lt;/p&gt;
&lt;p&gt;但喝咖啡的人和不喝咖啡的人，能直接比较吗？恐怕不能。喝咖啡的人可能本来就生活规律、社交广泛、压力较小——这些因素本身就降低抑郁风险。你怎么知道是咖啡有用，还是这些混淆因素在作祟？&lt;/p&gt;
&lt;p&gt;随机对照试验（RCT）可以解决。但你不能把人随机分组，一组命令喝咖啡，一组禁止喝，然后跟踪十年看谁先抑郁。伦理上说不通，时间上也等不起。&lt;/p&gt;
&lt;p&gt;所以观察性研究只能告诉你&amp;quot;喝咖啡的人抑郁风险更低&amp;quot;，永远不能告诉你&amp;quot;喝咖啡能降低抑郁风险&amp;quot;。&lt;/p&gt;
&lt;p&gt;因果推论在这里碰壁了。&lt;/p&gt;
&lt;h2 id="工具变量登场"&gt;工具变量登场&lt;/h2&gt;
&lt;p&gt;这时候，计量经济学的老朋友出现了：工具变量。&lt;/p&gt;
&lt;p&gt;一个变量 $Z$ 要成为好的工具变量，需要满足三个条件：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;相关性&lt;/strong&gt;：$Z$ 必须和自变量 $T$ 相关&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;排他性&lt;/strong&gt;：$Z$ 只能通过 $T$ 影响因变量 $Y$，不能有别的途径&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;无混淆&lt;/strong&gt;：$Z$ 和混淆因素无关&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;用人话说：$Z$ 要能影响 $T$，但只能通过 $T$ 来影响 $Y$，不能自己偷偷影响 $Y$，也不能和影响 $Y$ 的其他因素有关联。&lt;/p&gt;
&lt;p&gt;举例：烟草税 $Z$ 作为工具变量，研究吸烟 $T$ 对肺癌 $Y$ 的影响。&lt;/p&gt;
&lt;p&gt;烟草税影响吸烟行为（相关性）。烟草税和个人生活习惯可能无关（无混淆）。烟草税只能通过改变吸烟行为来影响肺癌，不能自己直接导致肺癌（排他性）。&lt;/p&gt;
&lt;p&gt;满足这三个条件，工具变量就帮你绕开了混淆问题。&lt;/p&gt;
&lt;p&gt;怎么用？二阶最小二乘法（2SLS）：&lt;/p&gt;
&lt;p&gt;第一阶，用 $Z$ 预测 $T$：&lt;/p&gt;
$$T = \pi_0 + \pi_1 Z + u$$&lt;p&gt;第二阶，用预测值 $\hat{T}$ 回归 $Y$：&lt;/p&gt;</description></item><item><title>精准刻画的智慧（局部效应）</title><link>https://touchingfish.top/2022/local-average-treatment-effect/</link><pubDate>Fri, 22 Apr 2022 00:00:00 +0000</pubDate><guid>https://touchingfish.top/2022/local-average-treatment-effect/</guid><description>&lt;p&gt;局部平均处理效应（Local Average Treatment Effect, LATE）是解决工具变量（instrumental variables, IV）分析中“异质性”问题的重要概念，尤其在处理效应并非全体受试者均一致之时，LATE 能准确捕捉那些响应工具变量之人群的因果效应。其所估计者，并非总体平均处理效应，而是仅针对那些遵从工具变量之个体（即“遵从者”）的平均处理效应。&lt;/p&gt;
&lt;h2 id="样本的分层"&gt;样本的分层&lt;/h2&gt;
&lt;p&gt;如果将医生的处方作为工具变量 $Z$，是否遵从处方服用药物为 $T$，则可以将样本分为“遵从者”（Compliers）与“非遵从者”（Defiers）组，并对这两组个体之潜在结果进行比较。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;样本分层记号&lt;/strong&gt;：借鉴潜在结果的表示，我们用
&lt;/p&gt;
$$
\begin{aligned}
T(1) \triangleq T(Z=1)\\\
T(0) \triangleq T(Z=0)
\end{aligned}
$$&lt;p&gt;
来表示对 $Z$ 进行干预时获得的处理 $T$，所有样本可以分为以下 4 种类型：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Compliers: $T(1)=1$ and $T(0)=0$&lt;/li&gt;
&lt;li&gt;Always-takers: $T(1)=1$ and $T(0)=1$&lt;/li&gt;
&lt;li&gt;Never-takers: $T(1)=0$ and $T(0)=0$&lt;/li&gt;
&lt;li&gt;Defiers: $T(1)=0$ and $T(0)=1$&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;其中，遵从者与非遵从者是否接受处理完全取决于工具变量。&lt;/p&gt;
&lt;p&gt;而 Always-takers 和 Never-takers 是否接受处理则与工具变量无关。例如，根据自己意愿，而不按处方用药者。&lt;/p&gt;
&lt;p&gt;后者之因果图中不存在 $Z \to T$ 的边，故对 Always-takers 和 Never-takers 而言，$Z$ 对 $Y$ 之因果效应为 $0$。&lt;/p&gt;
&lt;p&gt;&lt;img src="LATE.svg" alt=""&gt;&lt;/p&gt;
&lt;p&gt;根据是否被要求接受处理($Z=1 \quad \text{or} \quad Z=0$)，以及是否接受处理($T=1 \quad \text{or} \quad T=0$) 进行分层时，共有4种组合：&lt;/p&gt;</description></item><item><title>BEF研究中的因果假设争论</title><link>https://touchingfish.top/2022/scm-is-a-causal-hypothesis/</link><pubDate>Sun, 03 Apr 2022 00:00:00 +0000</pubDate><guid>https://touchingfish.top/2022/scm-is-a-causal-hypothesis/</guid><description>&lt;h2 id="引言"&gt;引言&lt;/h2&gt;
&lt;blockquote&gt;
&lt;p&gt;a specific SCM is a causal hypothesis. Fitting to data gives you feedback about your hypothesis (and more). It represents a workflow that can lead to stunning advances. It&amp;rsquo;s not a magical box that you put your data into, shake, and watch all causal relationships fall out.&lt;/p&gt;
&lt;p&gt;— Don Schoolmaster, 05 Feb 2023&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;生物多样性-生态系统功能（Biodiversity-Ecosystem Function, BEF）研究是生态学中最具争议的领域之一。自1990年代以来，大量研究表明物种多样性与生态系统功能之间存在正相关关系。然而，这种相关性是否代表因果关系，一直是激烈辩论的焦点。&lt;/p&gt;
&lt;p&gt;2020年，Schoolmaster、Zirbel和Cronin（SZC）在《Ecology》发表了一篇论文，运用图形因果模型（Graphical Causal Model）重新审视BEF研究中的因果假设。随后，Grace、Loreau和Schmid（GLS）在2021年发表评论文章批评SZC的模型，SZC则在2022年发表回复。这场学术争论不仅涉及BEF研究的核心问题，更触及因果推论方法论的根本。&lt;/p&gt;
&lt;h2 id="标准因果模型的问题"&gt;标准因果模型的问题&lt;/h2&gt;
&lt;h3 id="传统bef研究的因果假设"&gt;传统BEF研究的因果假设&lt;/h3&gt;
&lt;p&gt;传统BEF研究隐含的因果模型可以表示为：&lt;/p&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;E → B → Q → F
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;其中：&lt;/p&gt;</description></item><item><title>工具变量如何通向因果效应</title><link>https://touchingfish.top/2022/instrumental-variables/</link><pubDate>Mon, 28 Mar 2022 00:00:00 +0000</pubDate><guid>https://touchingfish.top/2022/instrumental-variables/</guid><description>&lt;p&gt;在日常生活中，我们经常会遇到这样的问题：某种行为是否会导致某种结果？例如，吸烟是否会导致肺癌？参加工作培训是否会提高就业率？这些问题的答案并不总是显而易见，因为很多时候，行为和结果之间可能存在其他隐藏的混淆因素。工具变量（Instrumental Variables, IV）是当混淆因素不可观测时，识别因果效应的一种解决方案。&lt;/p&gt;
&lt;p&gt;假设我们有以下变量：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;$T$：处理变量（例如，是否接受某种治疗）&lt;/li&gt;
&lt;li&gt;$Y$：结果变量（例如，健康状况）&lt;/li&gt;
&lt;li&gt;$U$：混淆因素（例如，个人健康习惯）&lt;/li&gt;
&lt;li&gt;$Z$：工具变量（例如，是否被建议接受治疗）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;工具变量 $Z$ 必须满足下列三个假设:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;相关性假设（Relevance Assumption）: $Z$ 对 $T$ 存在因果效应&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;排他限制（Exclusion Restriction）: $Z$ 对 $Y$ 的所有因果效应都必须经过中介 $T$&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;blockquote&gt;
&lt;p&gt;$Z$ causal effects on $Y$ is fully mediated by $T$.&lt;/p&gt;
&lt;p&gt;This assumption is known as the exclusion restriction because it excludes $Z$ from the structural equation for $Y$ and from any other structural equations that would make causal association flow from $Z$ to $Y$ without going through $T$.&lt;/p&gt;</description></item><item><title>利用时间信息探寻因果</title><link>https://touchingfish.top/2022/difference-in-differences/</link><pubDate>Fri, 25 Mar 2022 00:00:00 +0000</pubDate><guid>https://touchingfish.top/2022/difference-in-differences/</guid><description>&lt;p&gt;评估政策或者事件的影响，常以历史数据为镜。然而，历史数据错综复杂，要从中识别出真实的因果效应（treatment effect）实非易事。双重差分法（Difference in Differences, DiD）的核心思想在于：比较同一组个体在政策实施前后之变化，并与另一组未受政策影响的个体在相同时段的变化进行对比。若从两组数据间观测到显著差异，便可以认为这一变化是由政策所引起。&lt;/p&gt;
&lt;h2 id="基础知识回顾"&gt;基础知识回顾&lt;/h2&gt;
&lt;h3 id="关键假设"&gt;关键假设&lt;/h3&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;无混淆假设（Unconfoundedness Assumption）&lt;/strong&gt;
&lt;/p&gt;
$$
 \big(Y(1),Y(0)\big) \perp\!\!\!\perp T
 $$&lt;p&gt;
即处理状态 $T$ 与潜在结果 $Y(1)$ 和 $Y(0)$ 相互独立。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;一致性假设（Consistency Assumption）&lt;/strong&gt;
&lt;/p&gt;
$$
 \mathbb{E}[Y(1)|T=1] = \mathbb{E}[Y|T=1]
 $$&lt;p&gt;
即在接受处理的组别中，观测到的结果 $Y$ 可以代表潜在结果 $Y(1)$。&lt;/p&gt;
&lt;p&gt;在上述假设下，可识别平均处理效应（ATE, Average Treatment Effect）：
&lt;/p&gt;
$$
 \mathbb{E}[Y(1) - Y(0)] = \mathbb{E}[Y|T=1] - \mathbb{E}[Y|T=0]
 $$&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;针对处理组的平均处理效应（ATT, Average Treatment Effect on Treated）&lt;/strong&gt;
&lt;/p&gt;
$$
 \mathbb{E}[Y(1) - Y(0)|T=1]
 $$&lt;/li&gt;
&lt;/ol&gt;
&lt;h3 id="引入时间维度"&gt;引入时间维度&lt;/h3&gt;
&lt;p&gt;引入时间维度，是为了在&lt;strong&gt;不依赖于无混淆假设&lt;/strong&gt; 下进行因果效应的识别。用 $Y_{\tau}(t)$ 表示时间为 $\tau$ 时处理为 $t$ 的潜在结果，那么 ATT 可以表示为：&lt;/p&gt;
$$
 \mathbb{E}[Y_1(1) - Y_1(0)|T=1]
 $$&lt;h2 id="识别策略"&gt;识别策略&lt;/h2&gt;
&lt;h3 id="假设"&gt;假设&lt;/h3&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;时间一致性假设（Consistency Assumption Extended to Time）&lt;/strong&gt;
&lt;/p&gt;</description></item><item><title>贝叶斯网络：因果图模型的前身</title><link>https://touchingfish.top/2022/bayesian-network/</link><pubDate>Mon, 20 Dec 2021 00:00:00 +0000</pubDate><guid>https://touchingfish.top/2022/bayesian-network/</guid><description>&lt;p&gt;贝叶斯网络（Bayesian Network），作为一种图形化模型，早在20世纪末便广为流传，其主要用以描述随机变量之间的条件独立性与概率分布关系。它以有向无环图（Directed Acyclic Graph, DAG）为基础，将复杂的概率系统分解为易于处理的子结构。&lt;/p&gt;
&lt;p&gt;在这一框架下，每个节点代表一个随机变量，每条有向边则表示变量间的条件依赖。例如，在贝叶斯网络中，若变量 $X$ 指向 $Y$，这仅表示给定 $X$ 的条件下，$Y$ 的概率分布被决定。&lt;/p&gt;
&lt;h2 id="条件独立性的理论基础"&gt;条件独立性的理论基础&lt;/h2&gt;
&lt;p&gt;考虑我们将要进行建模的分布为 $P(x_1,x_2,\dots,x_n)$，根据链式法则（chain rule），对其进行分解：&lt;/p&gt;
$$
\begin{aligned}
P(x_1,x_2,\dots,x_n)&amp;=P(x_n|x_{n-1},\dots,x_1)P(x_{n-1}|x_{n-2},\dots,x_1)\cdots P(x_2|x_1)P(x_1)\\&amp;=P(x_1)\prod_iP(x_i|x_{i-1},\dots,x_1)
\end{aligned}
$$&lt;p&gt;假设 $x_i$ 均为二元变量（binary），其中 $i=1,2,3,\dots,n$。当考虑 $3$ 个变量时（$n=3$），需要建模的因子 $P(x_3|x_2,x_1)$ 有 $4$ 个参数（parameters）：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;$x_1$&lt;/th&gt;
 &lt;th&gt;$x_2$&lt;/th&gt;
 &lt;th&gt;$P(x_3\|x_2,x_1)$&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;0&lt;/td&gt;
 &lt;td&gt;0&lt;/td&gt;
 &lt;td&gt;$a_1$&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;0&lt;/td&gt;
 &lt;td&gt;1&lt;/td&gt;
 &lt;td&gt;$a_2$&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;1&lt;/td&gt;
 &lt;td&gt;0&lt;/td&gt;
 &lt;td&gt;$a_3$&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;1&lt;/td&gt;
 &lt;td&gt;1&lt;/td&gt;
 &lt;td&gt;$a_4$&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;当考虑 $4$ 个变量时（$n=4$），参数为 $8$ 个。&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;$x_1$&lt;/th&gt;
 &lt;th&gt;$x_2$&lt;/th&gt;
 &lt;th&gt;$x_3$&lt;/th&gt;
 &lt;th&gt;$P(x_4\|x_3,x_2,x_1)$&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;0&lt;/td&gt;
 &lt;td&gt;0&lt;/td&gt;
 &lt;td&gt;0&lt;/td&gt;
 &lt;td&gt;$a_1$&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;0&lt;/td&gt;
 &lt;td&gt;0&lt;/td&gt;
 &lt;td&gt;1&lt;/td&gt;
 &lt;td&gt;$a_2$&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;0&lt;/td&gt;
 &lt;td&gt;1&lt;/td&gt;
 &lt;td&gt;1&lt;/td&gt;
 &lt;td&gt;$a_3$&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;0&lt;/td&gt;
 &lt;td&gt;1&lt;/td&gt;
 &lt;td&gt;0&lt;/td&gt;
 &lt;td&gt;$a_4$&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;1&lt;/td&gt;
 &lt;td&gt;1&lt;/td&gt;
 &lt;td&gt;1&lt;/td&gt;
 &lt;td&gt;$a_5$&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;1&lt;/td&gt;
 &lt;td&gt;1&lt;/td&gt;
 &lt;td&gt;0&lt;/td&gt;
 &lt;td&gt;$a_6$&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;1&lt;/td&gt;
 &lt;td&gt;0&lt;/td&gt;
 &lt;td&gt;0&lt;/td&gt;
 &lt;td&gt;$a_7$&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;1&lt;/td&gt;
 &lt;td&gt;0&lt;/td&gt;
 &lt;td&gt;1&lt;/td&gt;
 &lt;td&gt;$a_8$&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;也就是说，对 $P(x_n|x_{n-1},\dots,x_1)$ 进行建模必要的参数为 $2^{n-1}$ 个，随着 $n$ 的增加呈指数型增长。&lt;/p&gt;</description></item><item><title>结构性的因果关系表征（因果图）</title><link>https://touchingfish.top/2022/structural-causal-model/</link><pubDate>Sat, 20 Nov 2021 00:00:00 +0000</pubDate><guid>https://touchingfish.top/2022/structural-causal-model/</guid><description>&lt;p&gt;传统的因果推断（causal inference）多依赖于回归模型与假设检验，着重于处理数据中变量间的关联性，而忽视了因果关系的结构性。因果图模型的引入，则为我们提供了一种全新的视角，可谓因果推断领域的一大颠覆。&lt;/p&gt;
&lt;h2 id="结构方程"&gt;结构方程&lt;/h2&gt;
&lt;p&gt;相比传统回归分析的变量间关联，结构因果模型强调因果关系的显性表达，为我们提供了更多的信息。例如，$M$ 是一个结构因果模型（structural causal model），其中 $V=\{Z,X,Y\}$ 是研究中所讨论因果关系的变量，称为内生变量（endogenous variables），$U=\{U_z.U_x,U_y\}$ 是外生变量（exogenous variables），代表研究中没有被明确建模的扰动（disturbances）。&lt;/p&gt;
&lt;p&gt;函数 $F=\{f_z,f_x.f_y\}$ 称为结构方程（structural equations），每个函数表示对应的内生变量的数据生成机制，即对应的内生变量的值由其他变量的值所决定的因果过程。&lt;/p&gt;
$$
M=\begin{cases}
Z \leftarrow f_z(U_z)\\
X \leftarrow f_x(Z,U_x)\\
Y \leftarrow f_y(X,Z,U_y)\\
U \sim P(U)
\end{cases}
$$&lt;p&gt;$P(U)$ 表示外生变量相关联的概率分布，在本例中，假设外生变量是相互独立的。结构因果模型 $M$ 表示内生变量的联合分布 $P(V)$，称作观测分布（observational distribution）。&lt;/p&gt;
&lt;h2 id="有向无环图"&gt;有向无环图&lt;/h2&gt;
&lt;p&gt;每一个结构因果模型 $M$ 有一个对应的因果图 $G$，直观地刻画了各个变量之间的因果关系，每个节点表示模型 $M$ 中的一个变量（Variables，$V$），图中每一条边都表示变量之间的因果效应，箭头 $V_i \to V_j$ 说明变量 $V_i$ 是变量 $V_j$ 的直接原因（$V_i$ 出现在 $V_j$ 的结构方程中），表现为一个有向无环图（directed acyclic graph, DAG）。&lt;/p&gt;
&lt;p&gt;&lt;img src="SCM.svg" alt=""&gt;&lt;/p&gt;
&lt;p&gt;通常情况下，因果图不会将外生变量明确地表示出来。如果外生变量非独立，即同时存在结构方程 $f_{v_i}$ 和 $f_{v_j}$ 中时，可以用虚线的双向箭头 $V_i \dashleftarrow\dashrightarrow V_j$ 表示。&lt;/p&gt;
&lt;h2 id="do-算子"&gt;&lt;em&gt;do&lt;/em&gt; 算子&lt;/h2&gt;
&lt;p&gt;关于因果关系的讨论中，Fisher 的随机化试验是实验性研究的黄金标准，而是否能够进行操纵（manipulability）被认为是讨论因果关系的先决条件，并形成了“无操纵不因果”（“no causation without manipulation”）的观念。&lt;/p&gt;</description></item><item><title>潜在结果框架（因果推论的基石）</title><link>https://touchingfish.top/2021/potential-outcome/</link><pubDate>Wed, 17 Nov 2021 00:00:00 +0000</pubDate><guid>https://touchingfish.top/2021/potential-outcome/</guid><description>&lt;p&gt;在 Neyman-Rubin 因果模型（或称“潜在结果框架”，Potential Outcome）中，所谓因果推论，实际上是估计“因果效应”（causal effect）。&lt;/p&gt;
&lt;h2 id="何谓因果效应"&gt;何谓因果效应&lt;/h2&gt;
&lt;p&gt;Rubin 给出一个直观的例子：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;Intuitively, &amp;hellip;&lt;/p&gt;
&lt;p&gt;&amp;ldquo;If an hour ago I had taken two aspirins instead of just a glass of water, my headache would now be gone,&amp;rdquo; or &amp;ldquo;Because an hour ago I took two aspirins instead of just a glass of water, my headache is now gone.&amp;rdquo;&lt;/p&gt;
&lt;p&gt;“如果一个小时前我服用了两个阿司匹林而不是一杯水，我的头痛现在就会消失”，或者“因为一个小时前我服用了两个阿司匹林而不是一杯水，我的头痛现在消失了”&lt;/p&gt;
&lt;p&gt;&amp;hellip;&lt;/p&gt;
&lt;p&gt;Now define the causal effect of the $E$ versus $C$ treatment on $Y$ for a particular trial (i.e., a particular unit and associated
times $t_1$, $t_2$) as follows:&lt;/p&gt;</description></item></channel></rss>