读《为什么:关于因果关系的新科学》

吴诗涛 2022-01-25 [读后感]

朱迪亚·珀尔 (美), 达纳·麦肯齐 (美), PEARL J, 等. 为什么: 关于因果关系的新科学[M]. 中信出版集团.

导言:思维胜于数据

一个更宏伟的目标是,一旦我们真正理解了因果思维背后的逻辑,我们就可以在现代计算机上模拟它,进而创造出一个“人工科学家”。这个智能机器人将为我们发现未知的现象,解开悬而未决的科学之谜,设计新的实验,并不断从环境中提取更多的因果知识

数据远非万能。数据可以告诉你服药的病人比不服药的病人康复得更快,却不能告诉你原因何在

因果关系演算法由两种语言组成:其一为因果图(causal diagrams),用以表达我们已知的事物,其二为类似代数的符号语言,用以表达我们想知道的事物

注意$P(L \mid D)$与$P(L \mid do \ (D))$完全不同。观察到(seeing)和进行干预(doing)有本质的区别,它解释了我们不认为气压计读数下降是风暴来临的原因。观察到气压计读数下降意味着风暴来临的概率增加了,但人为迫使气压计读数下降对风暴来临的概率并不会产生影响

因果革命最重要的成果之一就是解释了如何在不实际实施干预的情况下预测干预的效果

“反事实的算法化”正是因果革命另一项宝贵的成果

你无法回答一个你提不出来的问题,你也无法提出一个你的语言不能描述的问题

数据本身不具备表述因果关系的能力

对任何人工智能来说,反事实问题都是最具挑战性的问题。这类问题也是推动人类认知力和想象力发展的核心,其中前者使我成为人类,后者使科学成为可能

因果模型所具备而数据挖掘和深度学习所缺乏的另一个优势就是适应性

如果能用一句话来概括本书的内容,那就是“你比你的数据更聪明”

第一章 因果关系之梯

因果关系的学习者必须熟练掌握至少三种不同层级的认知能力:观察能力(seeing)、行动能力(doing)和想象能力(imagining)

第一层级是观察能力,具体而言是指发现环境中的规律的能力。在认知革命发生之前,这种能力为许多动物和早期人类所共有。第二层级是行动能力,涉及预测对环境进行刻意改变后的结果,并根据预测结果选择行为方案以催生出自己期待的结果。只有少数五种表现出了具备此种能力的特征。对工具的使用(前提是使用是有意图的,而不是偶然的或者模仿前人)就可以视作达到第二层级的标志。然而,即使是工具的使用者也不一定掌握有关工具的“理论”,工具理论能够告诉他们为什么这种工具有效,以及如果工具无效该怎么做。为掌握这种理论,你需要登上想象力这一层级。第三层级至关重要,它让我们为发起农业领域和科学领域的更深层次的革命做好了准备,使得我们人类对于地球的改造能力发生了骤变

强人工智能这一目标是制造出拥有类人智能的机器,让它们能与人类交流并指导人类的探索方向。而深度学习只是让机器具备了高超的能力,而非智能。这种差异是巨大的,原因就在于后者缺少现实模型

无论数据集有多大或者神经网络有多深,只要使用的是被动收集的数据,我们就无法回答有关干预的问题

预测干预结果的一种非常直接的方法是在严格控制的条件下进行实验

没有因果模型,我们就不能从第一层级(关联)登上第二层级(干预)。这就是深度学习系统(只要它们只使用了第一层级的数据而没有利用因果模型)永远无法回答干预问题的原因,干预行动据其本意就是要打破机器训练的环境规则

反事实与数据之间存在着一种特别棘手的关系,因为数据顾名思义就是事实。数据无法告诉我们在反事实或虚构的世界里会发生什么,在反事实世界里,观察到的数据被直截了当地否定了。然而,人类的思维却能可靠地、重复地进行这种寻求背后解释的推断

因果关系之梯第三层级的典型问题是:“假如我当时做了……会怎样?”和“为什么?”两者都涉及观察到的世界与反事实世界的比较

如果我们希望计算机能理解因果关系,我们就必须教会它如何打破规则,让它懂得“观察到某事件”和“使某事件发生”之间的区别。我们需要告诉计算机:“无论何时,如果你想使某事发生,那就删除指向该事的所有箭头,之后继续根据逻辑规则进行分析,就好像那些箭头从未出现过一样。“ 拯救概率提高这一概念的正确方法是借助$do$算子来定义:如果$P(Y \mid do \ (X)) > P(Y)$,那么我们就可以说$X$导致了$Y$。由于干预是第二层级的概念,因此这个定义能够体现概率提高的因果解释,也可以让我们借助因果图进行概率推算。换言之,当研究者询问是否$P(X \mid do \ (X)) >P(Y)$时,如果我们手头有因果图和数据,我们就能够在算法上条理清晰地回答他的问题,从而在概率提高的意义上判断$X$是否为$Y$的一个因

概率能将我们对静态世界的信念进行编码,而因果论则告诉我们,当世界被改变时,无论改变是通过干预还是通过想象实现的,概率是否会发生改变以及如何改变

第二章 从海盗到豚鼠:因果推断的起源

对于向均值回归这一现象,因和果是没有区别的

斜率完全不涉及因果信息。一个变量可能是另一个变量的因,或者它们都是第三个变量的果,而对于预测目标变量的值这一目的而言,这些并不重要

相关性总是能够反映出两个变量间相互可预测的程度

在论文的一个脚注里,他写道:“严格说来,‘归因于’应当读作‘与……相关’。”这句话为他之后的几代科学家设定了一个表述模式:虽然在心里想的是“归因于”,但在论文写作时要把它说成“与……相关”

虽然我们不需要知道各个变量之间的所有因果关系,仅利用部分信息也能够得出一些结论,但赖特非常清楚地指出了这一点:没有因果假设,就不可能得出因果结论。这与我们第一章的结论相呼应:只使用从因果关系之梯第一层级的数据,你是不可能回答属于因果关系之梯第二层级的问题的

在对尼尔斯批评文章的回应中,他写道:“作者(赖特本人)从未提出过这一荒谬的主张,即路径系数理论为因果关系的推导提供了通式。作者希望强调的是,将相关关系的知识与因果关系的知识相结合以获得某些结果的做法,与尼尔斯所暗示的从隐含的相关关系推导因果关系不是一回事。” 最可靠的知识就是由自己亲手构建的知识

因果分析绝不只是针对数据的分析;在因果分析中,我们必须将我们对数据生成过程的理解体现出来,并据此得出初始数据不包含的内容。但有一点费舍尔说得没错:一旦你从统计学中删除因果关系,那么剩下的就只有数据约简了

赖特完全清楚他是在捍卫科学方法和数据解释的本质。在今天,我也想给大数据、无模型分析方法的爱好者提出同样的建议。当然,我们可以尽可能地梳理出数据所能提供的信息,但我们要问的是,这样做究竟能给我们带来多大的帮助。它永远无法让我们超越因果关系之梯的第一层级,也永远无法回答“各种因的相对重要性”这种简单的问题。让我们重复一遍伽利略的那句话:“但它仍在动!” 赖特认为:“路径分析这种灵活的方法与为尽可能避免偏离客观性而设计的刻板的描述统计方法有很大的区别。”这句话是什么意思?首先,赖特想说的是,路径分析的应用应该以研究者对因果过程的个人理解为基础,这种理解就反映在其所绘制的因果图或路径图中。它不能被简化为一个机械性的程序,就像统计手册里列出的那些操作方法一样。对于赖特来说,绘制路径图不是一种统计学实践,而是一种遗传学、经济学、心理学实践或其他诸领域的研究者在自己的专业领域所进行的一种实践

与相关性分析和大多数主流统计学不同,因果分析要求研究者做出主观判断。研究者必须绘制出一个因果图,其反映的是他对于某个研究课题所涉及的因果过程拓扑结构的定性判断,或者更理想的是,他所属的专业领域的研究者对于该研究课题的共识。为了确保客观性,他反而必须放弃传统的客观性教条。在因果关系方面,睿智的主观性比任何客观性都更能阐明我们所处的这个真实世界

贝叶斯分析的原型是这样的:先验判断+新的证据→经过修正的判断

贝叶斯统计为我们提供了一种将观察到的证据与我们已有的相关知识(或主观判断)结合起来以获得修正后的判断的客观方法.

第三章 从证据到因:当贝叶斯牧师遇见福尔摩斯先生

贝叶斯网络与因果图之间的关系很简单:因果图就是一个贝叶斯网络,其中每个箭头都表示一个直接的因果关系,或者至少表明了存在某个因果关系的可能性。反过来,并非所有的贝叶斯网络都是因果关系网络,而在很多实际应用中这一点并不重要。但是,一旦你想问关于贝叶斯网络的第二层级或第三层级的问题,你就必须认真对待因果论,一丝不苟地画出因果图

在何种情况下,某个假设才会越过绝不可能的界限抵达不大可能,甚至变为可能或确凿无疑呢? 如果我们知道因,那我们很容易就能估计出果的概率,这是一个前向概率(forward probability)。而它的反面,也就是贝叶斯时代的“逆概率”推理,则难度要大得多。贝叶斯没有解释为什么它很困难,他认为这一点不言而喻,但他向我们证明了逆概率推理是可行的,并展示了如何操作

数据对于因果不对称是完全不敏感的,因此应该能为我们提供一种解决逆概率难题的方法

贝叶斯法则:$P(S \mid T)P(T)=P(T \mid S)P(S)$

我们还可以将贝叶斯法则看作一种方法,用以更新我们对某一特定假设的信念。理解这一点非常重要,因为人类对未来事件的信念大多取决于该事件或类似事件在过去发生的频率

在形式上,贝叶斯法则只是贝叶斯给出的条件概率定义的一个初等推论。但在认识论上,它远远超出了初等概念的范畴。事实上,它作为一种规范性规则,能够应用于根据证据更新信念这一重要操作。换言之,我们不仅应该把贝叶斯法则看作“条件概率”这一新概念的便捷定义,而且应该将其视作一个实证性的指称,其忠实地表达了“假设我知道”这句短语。这句话断定,人们在观察到$T$之后对$S$的信念度,永远不会低于人们在观察到T之前对“$S$且$T$”的信念度。此外,它还暗示了证据T越出乎意料,即$P(T)$越小,人们就越应相信它的因$S$存在或发生。$(\mbox{D的更新概率})=P(D \mid T)=\mbox{似然比} \times (\mbox{D的先验概率})$。似然比(likelihood ratio)由$P(T \mid D)/P(T)$给定

任何人工智能都必须建立在模拟我们所知道的人类神经信息处理过程的基础上,并且不确定性下的机器推理必须借助类似的信息传递的体系结构来构建。但是,这些信息具体指的是什么呢?这个问题花了我好几个月才弄明白。我终于认识到,信息是一个方向上的条件概率和另一个方向上的似然比

接收信息的节点会根据信息传递的方向,以两种不同的方式处理信息。如果信息是从父节点传递到子节点的,则子节点将使用条件概率更新它的信念,如同我们在茶室例子中见到的那样。如果信息是从子节点传递到父节点的,则父节点将通过用自己的初始信念乘以一个似然比的计算得到更新信念,如乳房X光检查的例子所示。将这两条规则反复应用于网络中的每个节点的做法就被称为信念传播

三种基本类型或形式的接合(junction):

  1. $A \rightarrow B \rightarrow C$:“链”接合或中介接合
    • 在科学中,人们常常将$B$视为某种机制,或“中介物”,它将$A$的效应传递给$C$
    • 中介物$B$“屏蔽”(screen off)了从$A$到$C$的信息或从$C$到$A$的信息
    • 条件独立性1赋予了机器关注相关信息而忽略其他信息的自由。在日常思考中,我们每个人都需要这种许可,否则我们会把很多时间花在寻找虚假的信号之上
  2. $A \leftarrow B \rightarrow C$:“叉”接合
    • $B$通常被视作$A$和$C$的共因(common cause)或混杂因子(confounder)。混杂因子会使$A$和$C$在统计学上发生关联,即使它们之间并没有直接的因果关系
  3. $A \rightarrow B \leftarrow C$:“对撞”(collider)接合

图示以定性的方式描述了变量间的关系,但如果你想要定量的答案,你就需要定量的输入。在贝叶斯网络中,我们必须具体给出在给定了“父节点”的条件下每个节点的条件概率。(请记住,一个节点的父节点是指向它的所有节点。)这类概率就是前向概率,$P(\mbox{证据} \mid \mbox{假设})$

人们通常会对网络中的连接进行筛选,只保留那些最重要的连接,让网络保持一个相对“稀疏”的状态。在贝叶斯网络的发展过程中,其中一项技术成果就是开发出了一种方法让我们可以利用网络结构的稀疏性实现合理的计算时间

贝叶斯网络的透明性使它有别于机器学习的其他模型,后者多倾向于制造高深莫测的“黑箱”。在贝叶斯网络中,你可以一个节点接一个节点地追踪,了解每一个新的证据是如何以及为何改变了整个网络中各个连接的信念的

因果推断科学的一个目标就是创建更顺畅的人机接口,比如将调查人员的直觉也纳入信念传播的计算过程

当我们开始谈论观察性研究与试验性研究的对比时,我们就离开了人工智能领域相对平静的水域,进入了波涛汹涌的统计学水域,这些汹涌的波涛正是由统计学与因果关系令人不快的恩断义绝激起的

第四章 混杂和去混杂:或者,消灭潜伏变量

当一个变量同时影响到选择接受处理的对象以及试验结果时,混杂偏倚(confounding bias)就产生了。

控制可以带来专一性和精确感……但有时,你控制的东西过多了,以至于在某些时候,你最终控制了你真正想要测量的东西

如果你在因果图中确定了去混因子(deconfounder)的充分集,收集了它们的数据,并对它们进行了适当的统计调整,那么你就有权说你已经计算出了那个因果效应$X \rightarrow Y$(当然,前提是你可以从科学的角度清楚地阐释并捍卫你的因果图)

因果图使分析重心从混杂因子向去混因子的转变成为可能。前者引发了问题,后者则解决了问题。这两组因子可能存在部分重叠,但并非必须重叠。如果我们收集到了去混因子充分集的数据,那么即使我们忽略了一部分甚至所有的混杂因子也无关紧要了

掌握既定结论背后的假设比试图用随机对照试验来规避这些假设更有价值. 费舍尔意识到,得到对正确问题的不确定答案比得到对错误问题的高度确定的答案要好得多。如果你向自然精灵提出了一个错误的问题,那么你就永远不会得到你想知道的答案。如果你提出了正确的问题,那么偶尔得到一个错的答案就完全不成问题了。你可以估计出答案的不确定性,因为这种不确定性来自随机化的过程(这一过程是已知的)而不是土壤各个方面的特性(这一点是未知的)

随机化实际上带来了两个好处。第一,它消除了混杂偏倚(它向大自然提出了正确的问题)。第二,它使研究者能够量化不确定性

对人类受试者进行临床试验时,研究者必须不遗余力地向病人和主试隐瞒处理信息(该试验操作被称为双盲试验),其原因正在于此

我们观察到的是给定处理效应的条件概率$P(Y\mid X)$,我们要问自然的问题是$X$和$Y$之间的因果关系,该因果关系可以通过干预概率$P(Y\mid do\ (X))$获得。如此一来,混杂就可以简单地定义为导致$P(Y\mid X) \neq P(Y\mid do\ (X))$,即两个概率出现差异的所有因素

历史上,“混杂”的概念演变围绕着两个相关概念展开——不可比性和潜伏的第三变量。这两个概念都很“抵制”形式化

格林兰和罗宾斯开始从潜在结果的角度表述他们对混杂的定义。他们把研究中的目标总体分成4种类型:注定的、因果的、预防的和免疫的。这种说法比较含蓄,打个比方,我们可以把处理$X$当作接种流感疫苗,将结果$Y$当作得流感。“注定的”群体类型是指疫苗对其不起作用的那些人,他们无论是否接种疫苗都会患上流感。“因果的”群体(可能在现实中并不存在)是指因为接种疫苗而患上流感的那些人。“预防的”群体由接种了疫苗从而预防了流感的人组成。也就是说,如果没有接种疫苗,他们就会得流感,如果接种了疫苗,他们就不会得流感。最后,“免疫的”群体指在任何情况下都不会得流感的那些人

信息传递是双向的,既在因果方向传递,也在非因果方向传递

事实上,非因果路径恰恰是混杂的根源。大家应该还记得我将混杂定义为任何使$P(Y\mid do\ (X))$不同于$P(YX)$的因素。$do$算子会清除指向$X$的所有箭头,这样它就可以防止有关$X$的任何信息在非因果方向流动。随机化处理具有相同的效果。如果我们选择合适的变量进行统计调整,那么这种统计调整也具有相同的效果

控制一个变量的后代节点(或替代物)就如同“部分地”控制变量本身。控制一个中介物的某个后代节点意味着部分地关闭了信息管道;控制一个对撞变量的某个后代节点则意味着部分地打开了信息管道

为了去除$X$和$Y$中的混杂,我们只需要阻断它们之间的每个非因果路径,而不去阻断或干扰所有的因果路径就可以了。更确切地说,我们将后门路径(back-door path)定义为所有$X$和$Y$之间以指向$X$的箭头为开始的路径;如果我们阻断了所有的后门路径(因为这些路径允许$X$和$Y$之间的伪相关信息在管道中流通),则我们就完成了对$X$和$Y$的去混杂。如果我们试图通过控制某一组变量$Z$来实现这一点,那么我们还需要确保$Z$的任何成员都不是$X$的后代,否则我们就可能部分或完全地关闭这条$X$与$Y$之间的因果路径

$M$偏倚指出了传统方法的错误所在。仅仅因为某个变量与$X$和$Y$都相关就将变量(如$B$)视为混杂因子是错误的。要重申的是,如果我们不控制$B$,则$X$和$Y$就是未被混杂影响的。只有当你控制了$B$时,$B$才会变成混杂因子!请注意,如果你同时还控制了$A$或$C$,那么控制$B$就没什么问题。因为控制对撞因子$B$打开了“管道”,而控制$A$或$C$会再次关闭它

第五章 烟雾缭绕的争论:消除迷雾,澄清事实

时间序列数据对于因果关系的证明是一种非常糟糕的证据

“剂量—响应效应”(dose-response effect):如果物质$A$会导致生物反应$B$,则通常而言(但不是百分之百),更大剂量的$A$会导致更强的反应$B$

可以说,统计学家的工作就是质疑,他们是科学的良心。但是,合理的怀疑论与不合理的怀疑论是有区别的

芝加哥库克郡医院的理查德·戴维在这篇文章中写道:“在当今社会中占支配地位的群体往往会通过辩称其所支配的群体本身就基因低劣来维护自己的立场,在这种社会背景下,研究者很难保持中立。在追求‘纯粹的科学’的过程中,一位出于善意的研究者很可能会被看作或者在事实上用他的研究维护和巩固了他所憎恶的某种社会秩序。”

第六章 大量的悖论!

获得信息的方式和信息本身一样重要

贝叶斯分析的一个普遍主题:任何通过了威胁其有效性的测试的假设,其可能性都会变得更大。威胁越大,幸存下来的假设的可能性就越大

要想真正解决一个悖论,我们应该首先解释为什么我们会把它看成一个悖论

辛普森悖论所引发的困惑是出于错误地将因果原则应用于解释统计比例

任何声称能够解决悖论(特别是那些经过几十年仍未得到解决的悖论)的方法都应该符合一些基本标准

  1. 正如我上面讨论蒙提·霍尔悖论时说的那样,它应该能够解释为什么悖论会令人困惑或让人拒绝相信
  2. 它应该能够确定悖论可能出现的场景类别
  3. 它应该能够告诉我们,在哪些情况下悖论不可能发生(如果确实存在这种情况的话)
  4. 当悖论真的发生,而我们必须在两个看似合理但矛盾的陈述中做出选择时,它应该能够告诉我们哪个说法是正确的

辛普森逆转是一个纯粹的数字事实:在合并样本时,两个或多个不同的样本关于某一特定事件的相对频率出现反转

假设无论事件$C$是否发生,某个行动都会增加某一结果的可能性,则该行动也将在我们不知道$C$是否发生的情况下增加这个结果的可能性,条件是该行动不改变$C$的概率

正确的决定取决于因果叙述,而非数据

第七章 超越统计调整:征服干预之峰

混杂因子是导致我们混淆“观察”与“干预”的主要障碍。在用“路径阻断”工具和后门标准消除这一障碍后,我们就能精确而系统地绘制出登上干预之峰的路线图。对于攀岩新手来说,最安全的路线是后门调整和由此衍生的诸多同源路线,它们有些可以归于“前门调整”名下,有些则可以归于“工具变量”名下

简言之,回归系数有时可以体现因果效应,有时则无法体现,而其中的差异无法仅依靠数据来说明。我们还需要具备另外两个条件才能赋予$r_{YX.Z}$以因果合法性。第一个条件是,我们所绘制的相应的因果图应该能够合理地解释现实情况;第二个条件是,我们需要据其进行统计调整的变量$Z$应该满足后门标准

基于回归的统计调整只适用于线性模型,这涉及一个非常重要的建模假设。一方面,一旦使用线性模型,我们就失去了为非线性的相互作用建模的能力,比如处理$X$对$Y$的效应取决于$Z$的不同水平这种情况。而另一方面,即使我们不知道因果图中箭头背后的函数是什么,后门调整仍然是有效的。只不过在这种所谓的非参数问题中,我们需要使用其他的数据外推法来对付维度灾难

在不引入$do$算子的前提下表示$P(\mbox{癌症}\mid do\ (\mbox{吸烟}))$就被称作前门调整。它不同于后门调整的地方是,我们需要调整两个变量(吸烟和焦油积沉)而不是一个变量,并且这些变量处于从吸烟到癌症的前门路径,而不是后门路径

$X$代表“吸烟”,$Y$代表“癌症”,$Z$代表“焦油沉积”,$U$(在此例中显然没有出现在公式中)代表不可观测的变量,即“吸烟基因” 前门调整公式:$$P(Y\mid do\ (X))=\sum_zP(Z=z,X)\sum_xP(Y\mid X=x,Z=z)P(X=x) \tag{7.1}$$ 后门调整公式:$$P(Y\mid do\ (X))=\sum_zP(Y\mid X, Z=z)P(Z=z)\tag{7.2}$$

事实上,因果图的一个主要优势就是让假设变得透明,以供专家和决策者探讨和辩论

前门调整之所以是一个强大工具的原因所在:它允许我们控制混杂因子,并且这些混杂因子可以是我们无法观测(如“动机”)甚至无法命名的。也正是出于同样的原因,随机对照试验被认为是估计因果效应的“黄金标准”。前门估计所做的事与随机对照试验大体类似,并且还有一个额外的优点,即它的研究对象可以存在于自然的生活环境而非实验室的人造环境

前门调整公式和后门调整公式的最终目标是根据$P(Y\mid X,A,B,Z,\dots)$此类不涉及$do$算子的数据估算干预的效果,即$P(Y\mid do\ (X))$。如果我们成功消除了计算过程中的$do$概率,那么我们就可以利用观测数据来估计因果效应,这样一来,我们就从因果关系之梯的第一层级踏上了第二层级

规则1:如果我们观察到变量$W$与$Y$无关(其前提可能是以其他变量$Z$为条件),那么$Y$的概率分布就不会随$W$​而改变

$$ P(Y \mid do \ (X),Z,W)=P(Y \mid do\ (X),Z) $$ 上述等式成立的条件是,在我们删除了指向$X$的所有箭头后,变量集$Z$会阻断所有从$W$到$Y$的路径

规则2:如果变量集$Z$阻断了从$X$到$Y$的所有后门路径,那么以$Z$为条件(对$Z$进行变量控制),则$do\ (X)$等同于$see \ (X)$。因此,如果$Z$满足后门标准,这种变换就可以写作: $$ P(Y\mid do\ (X),Z)=P(Y\mid X, Z) $$ 换言之,这个等式的意思是,在控制了一个充分的去混因子集之后,留下的相关性就是真正的因果效应

规则3:如果从$X$到$Y$没有因果路径,我们就可以将$do\ (X)$从$P(Y\mid do\ (X))$中移除。即,如果不存在只包含前向箭头的从$X$到$Y$的路径,则: $$ P(Y\mid do\ (X),Z)=P(Y) $$ 这个规则可以这样解释:如果我们实施的干预行动$(do)$不会影响$Y$,那么$Y$的概率分布就不会改变

注意,每条规则都附带一个简单的句法解释。规则1允许增加或删除某个观察结果。规则2允许用观察替换干预,或者反过来。规则3允许删除或添加干预。所有这些操作都必须在适当的条件下进行,并且必须在关于特定情况的因果图中得到证实

这一对于完备性的证明告诉我们,如果我们在规则1到3中找不到根据数据估计$P(Y\mid do\ (X))$的方法,那么对于这个问题,解决方案就是不存在的。在此情况下,我们就能意识到除了进行随机对照试验,我们别无选择。它还能告诉我们,对于某个特定的问题,什么样的额外假设或试验可以使因果效应从不可估计变为可估计

由于$Z$和$X$之间不存在混杂,因此$Z$对$X$的因果效应($a$)可以根据$r_{XZ}$估计出来,其中$r_{XZ}$是$X$在$Z$上的回归线的斜率。同样,变量$Z$和$Y$的关系也未被混杂,因为路径$Z\rightarrow X \leftarrow U \rightarrow Y$被$X$处的对撞阻断了。因此$Z$在$Y$上的回归线斜率($r_{ZY}$)就等于直接路径$Z\rightarrow X \rightarrow Y$的因果效应,即路径系数的乘积:$ab$。因此,我们就有了两个方程:$ab=r_{ZY}$和$a=r_{ZX}$。用第一个方程除以第二个,我们就得到了$X$对$Y$的因果效应:$b=r_{ZY}/r_{ZX}$

如何估计治疗效果。首先,让我们来看最坏的情况:所有的未履行者即便遵从指令吃了药其身体状况也不会得到改善。所谓最好的情况是指,所有的未履行者倘若遵从指令吃了药,则他们的身体状况都会得到改善

同斯诺的例子一样,引入一个随机化的工具变量总是有益的。因为一旦经过了随机化处理,就不会有因果箭头指向它了。因此,基因就是一个完美的工具变量

在做任何干预研究之前,我们都需要问,我们实际操作的变量(低密度脂蛋白的终生水平)是否与我们认为自己正在操作的变量(低密度脂蛋白的当前水平)相同。这正是我们先前提到过的“对自然的巧妙询问”的一种体现

第八章 反事实:探索关于假如的世界

在《人性论》中,休谟否认了任何两个对象具有使一个为因,另一个为果的内在特质或“能力”的可能性。在他看来,因果关系完全是人类自身记忆和经验的产物。“因此我们记得曾见过我们称之为‘火焰’的事物,记得曾感受过我们称之为‘热’的事物。”他写道,“我们还会回想起在过去所有的经历中它们的恒常联结。就这样,我们称一个为因,另一个为果,并从一个的存在推断出另一个的存在。”这个定义现在也被称为因果关系的“规律性”(regularity)定义

反事实定义也解释了为什么我们不会认为鸡鸣是日出的因。因为我们知道,如果公鸡某天生病了,或任性地拒绝打鸣,太阳仍会照常升起

比较而言,规律性是可以观察到的,而反事实只能凭想象生成

1973年,离经叛道的哲学家大卫·刘易斯在他的书《反事实》(Counterfactuals)中呼吁学界放弃规律性定义,而应该将“A导致B”解释为“假如没有A,则B就不会发生”。刘易斯问道:“为什么我们不从表面意义上看待反事实,将其看作对实际情况的其他可能性的一种表述呢?” 正如我们从因果关系之梯中学到的,没有哪种纯粹基于数据的方法(第一层级)可以回答反事实的问题(第三层级)

即使是标准的数据缺失问题也需要借助因果建模来解决

将中介物误认作混杂因子是因果推断中最致命的错误之一,很可能导致极为荒谬的错误结果。混淆因子要求统计调整,而中介物禁止统计调整

下面,我们来说明如何利用因果图来判断(条件的)可忽略性。以一组匹配变量$Z$为条件,要确定对于结果$Y$来说$X$是否可忽略,我们只需要测试$Z$是否阻断了$X$和$Y$之间的所有后门路径,同时,$Z$的成员都不是$X$的后代即可

随着时间的推移,经济学家逐渐遗忘了这样一个事实:创建这一模型的先驱,经济学家特里夫·哈维默和社会学家奥蒂斯·达德利·邓肯提出该模型的初衷是让研究者用它来表示因果关系。经济学家们开始将结构方程与回归直线相混淆,从而只保留了形式而剥离了实质

除了简称中间的字母不同外,结构方程模型($\mbox{SEMs}$)与结构因果模型($\mbox{SCMs}$)的另一个重要区别是,结构因果模型中的因果关系不一定是线性的。结构因果模型分析所用到的方法对非线性函数、线性函数和离散变量、连续变量同样有效

必要性概率($\mbox{PN}$, probability ofnecessity):$P(Y_{X=0}=0\mid X=1,Y=1)$

充分性概率($\mbox{PS}$,probability of sufficiency):$P(Y_{X=1}=1)\mid X=0,Y=0)$

任何以$PS$为度量标准的研究都在一个很短的时间内就为证明因果关系设定了一个很高的门槛

虽然我们永远不能去走森林中的所有岔路,但在很多情况下,我们都能够带着某种程度的自信说,我们知道每个岔路会通向哪里

毫无疑问,在当今的科学界,反事实方法最受欢迎的一种应用形式就是“中介分析”(mediation analysis)。奇怪的是,很多人,尤其是那些惯于使用经典中介分析技术的人,都没有意识到他们正在谈论的问题是一个反事实效应

中介分析的目的是将直接效应(未通过中介物介异)从间接效应(通过中介物介导)中解析出来,其重要性显而易见

结构因果模型

$$ \begin{align} S=&65000+2500\times EX +5000\times ED +U_s \tag{8.2} \ EX=&10-4\times ED+U_{EX} \tag{8.3} \end{align} $$

现在让我们演示一下如何从结构模型中推导反事实。假如爱丽丝有大学学历,为了估计她的工资水平,我们需要执行以下3个步骤:

  1. **(外展)**利用关于爱丽丝和其他员工的数据来估计爱丽丝的特质因子(idiosyncratic factors):$U_S(\mbox{爱丽丝})$和$U_{EX}(\mbox{爱丽丝})$
  2. **(干预)**利用$do$算子改变模型,以反映我们提出的反事实假设,在这个案例中即,假如爱丽丝有大学学位:$ED(\mbox{爱丽丝})=1$
  3. **(预测)**利用修改后的模型及有关外生变量(exogenous variables)的更新信息$U_S(\mbox{爱丽丝})$和$U_{EX}(\mbox{爱丽丝})$和$ED(\mbox{爱丽丝})$来估算爱丽丝的工资水平。新的工资水平就等于$S_{ED=1}(\mbox{爱丽丝})$

我们得到的结果,$S_{1}(\mbox{爱丽丝})=76000$美元,就是对爱丽丝潜在工资的一个有效估计;所谓有效是指,如果模型假设是有效的,那么潜在结果与估计值将会重合

上述步骤1至3被概括为“因果推断第一定律”:$Y_x(u)=Y_{M_x}(u)$

第一定律是说,潜在结果$Y_x(u)$可通过下述方法来推断:建构模型$M_x$(确保删除所有指向$X$的箭头),并计算结果$Y(u)$。因果关系之梯第二层级和第三层级中的所有可估量都由此产生

第九章 中介:寻找隐藏的作用机制

寻找作用机制对于科学研究和日常生活而言都至关重要,因为在情况改变时,不同的作用机制会要求我们采取不同的行动

偏倚是一个不稳定的统计概念,如果用不同的方法切分数据,偏倚就可能会消失。而作为一种因果概念,歧视反映的是现实,因而必须保持稳定

我特别想要强调的正是这一在过去几年中反复出现的错误——以中介物为条件(对中介物进行变量控制),而不是保持中介物恒定(设其为常量)。我称其为中介谬误(mediation fallacy)。诚然,如果中介物和结果之间没有混杂,则这个错误并无实际危害。然而,如果确有混杂,那么这一错误完全可以反转分析结果,正如克鲁斯卡尔的虚构数据例子所展示的那样。它将误导调查人员得出错误的结论,即在事实上存在歧视的情况时,宣称歧视并不存在

处理$X$,结果$Y$,中介物$M$

“受控直接效应”($\mbox{CDE}$,controlled direct effect): $$ \mbox{CDE}(0)=P(Y=1\mid do \ (X=1),do \ (M=0))-P(Y=1\mid do\ (X=0),do \ (M=0)) \tag{9.1} $$ $\mbox{CDE}(0)$表示我们迫使中介物取值为$0$

“自然直接效应”($\mbox{NDE},$natural direct effect): $$ \mbox{NDE}=P(Y_{M=M_0}=1\mid do\ (X=1))-P(Y_{M=M_0}=1\mid do\ (X=0)) \tag{9.2} $$ 在此例中,$\mbox{NDE}$代表的是如果一个女生将她的性别报告为“男性”,即$do(X=1)$,其申请自己想去的院系($M=M_0$)的录取概率

自然间接效应($\mbox{NIE}$,natural indirect effect): $$ \mbox{NIE}=P(Y_{M=M_1}=1\mid do\ (X=0))-P(Y_{M=M_0}=1\mid do\ (X=0)) \tag{9.3} $$

以下定义在线性因果模型中自动成立,且无须调用反事实;在涉及变量间的相互作用(有时也被称作“调节作用”)的模型中行不通: $$ \mbox{总效应}=\mbox{直接效应}+\mbox{间接效应} \tag{9.4} $$

一般来说,如果从$X$到$Y$有一个以上的间接路径,我们就需要通过计算沿途所有路径系数的乘积来评估每一路径的间接效应,然后再通过累加所有间接因果路径的效应得到总的间接效应。而$X$对$Y$的总效就应该是直接效应和间接效应的总和

相加性原则的“自然效应”版本,只不过它其实是一个相减性原则! $$ \mbox{总效应}(X=0\rightarrow X=1)=\mbox{NDE}(X=0\rightarrow X=1)-\mbox{NIE}(X=1 \rightarrow X=0) $$

步骤是数学的,意义是因果的。事实上,深入挖掘这个问题你将发现:在线性模型之外,间接效应对回归分析来说就不再有意义了,其仅剩的意义就是代数步骤的结果(“路径系数的乘积”)。一旦撤走步骤本身,它们就会像一艘没有锚的小船一样随波逐流

保持$X$恒定,并将$M$增加到$X$增加$1$个单位的情况下$M$所能达到的量,则我们所看到的$Y$的增量就是$X$对$Y$的间接效应

就像“皇帝的新装”中那个小男孩一样,我们正需要一个刨根问底的学生,以勇气与天真粉碎我们对科学共识的盲目崇拜

变量之间没有混杂,$M$是处理$X$和结果$Y$之间的中介物,则自然间接效应为: $$ \mbox{NIE}=\sum_m\left[ P(M=m\mid X=1)-P(M=m\mid X=0)\right]\times P(Y=1\mid X=0,M=m) \tag{9.5} $$ 对这一方程的解释颇具启发性。中括号内的表达式代表$X$对$M$的影响,乘号后的表达式代表$M$对$Y$的影响(当$X=0$时)。由此,我们就揭示了系数乘积规则的起源,并展示了两个非线性效应的乘积具体应当如何计算。另外还需注意的是,与方程9.3不同,方程9.5没有下标和$do$算子,因此其结果可以直接根据第一层级的数据估计出来

中介分析特别适用于评估副作用的影响

在全基因组关联研究这个概念名称中,“关联”这个词很重要。其说明了这种方法不能证明因果关系,只是在给定的样本中确定与某种疾病相关的基因。这种方法是数据驱动的,不是假设驱动的,而这一特性给因果推断带来了麻烦

在未来,能够检测基因与行为、基因与环境间的相互作用的因果模型,必将成为流行病学家的一个重要工具

第十章 大数据,人工智能和大问题

科学家本应是最关心“为什么”的人,但由于他们长期束缚于统计学的工作氛围,其提问“为什么”的正当权利被剥夺了。当然,无论如何,科学家还是会提出关于“为什么”的问题,但每当他们想用数学分析来解决这一问题时,他们就不得不将这一问题转化为一个关于关联的伪问题

某些领域存在着一种对数据的近乎宗教性的信仰。这些领域的研究者坚信,只要我们在数据挖掘方面拥有足够多的智慧和技巧,我们就可以通过数据本身找到这些问题的答案。然而,本书的读者已经明白,这种信仰是盲目的,很可能受到了对数据分析的大规模宣传炒作的误导。我刚刚问的问题都是因果问题,而因果问题从来不能单靠数据来回答。它们要求我们建构关于数据生成过程的模型,或者至少要建构关于该过程的某些方面的模型。当你看到一篇论文或一项研究是以模型盲的方式分析数据的时候,你就能确定其研究结果最多不过是对数据的总结或转换,而不可能包含对数据的合理解释

对于探索我们感兴趣的关联模式,并据此提出更精确的解释性问题,数据挖掘很可能是关键的第一步

就总体而言,我们目前尚未掌握任何系统性的办法来解决这一“可迁移性”问题

在简单的情况中,我们用直觉就可以判断出这些结果是合理的,但当图表变得更加复杂时,我们就需要一种形式化的方法来辅助我们做出判断。对此,$do$演算提供了一种确定可迁移性的一般标准。该规则非常简单:如果你可以执行一系列有效的$do$演算(运用第七章中的规则),将目标效应的表达式转换为一个新的表达式,其中任何涉及$S$的因子都不包含$do$算子,则这一估计值就是可迁移的。其遵循的逻辑很简单:任何此类因子都可以从现有数据中估计出来,且不受差异因子$S$的影响

可以说,我们对深度学习的理解完全是经验主义的,没有任何保证。AlphaGo团队并没有在一开始就预测到,这个程序会在5年的时间内击败人类最好的围棋棋手。他们只是想试验一下,而AlphaGo出人意料地成功了

如同柏拉图那个关于洞穴中的囚徒的著名隐喻,深度学习系统探索的是洞穴壁上的那些阴影,学习的是准确预测阴影的活动。深度学习系统不能理解它观察到的阴影仅仅是三维物体的空间运动在二维平面上的投影,而强人工智能必须具备这种理解力

总之,我认为,能够给思维机器带来智能体效益的软件包至少包括3个组成部分:关于世界的因果模型;关于自身软件的因果模型,无论这个模型有多浅显;以及一个内存,用于记录其心理意图对外部事件的反应方式

这种会思考的机器将成为人类的良师益友,而这正是人工智能送给人类的第一份,也是最好的一份礼物


  1. 换句话说,$P(\mbox{火灾,警报} \mid \mbox{烟雾})=P(\mbox{火灾} \mid \mbox{烟雾})P(\mbox{警报} \mid \mbox{烟雾})$。请注意,独立性只是概率测度的一种性质,而不是事件本身的性质。——译者注 ↩︎