为什么：关于因果关系的新科学

[status:: Done]
[format:: kindle]

Back to my BookList

Comments

一半理论一半扯闲篇的一本因果科学入门书。
Pearl提出了有三个层级的因果模型：

第一层：关联
第二层：干预
第三层：反事实

Highlights

具有讽刺意味的是，对因果关系理论的需求正是在统计学产生的那一刻浮出水面的。事实上，现代统计学的创立正源自因果问题——高尔顿和皮尔逊提出了一个关于遗传的因果问题，并独具匠心地尝试用跨代数据来解答它。遗憾的是，这一努力失败了，他们没有停下来问为什么，反而声称这些问题是禁区，转而去发展另一项刚刚兴起、不涉及因果关系的事业——统计学。

因果关系演算法由两种语言组成：其一为因果图（causal diagrams），用以表达我们已知的事物，其二为类似代数的符号语言，用以表达我们想知道的事物。

注意P（L|D）与P（L|do（D））完全不同。观察到（seeing）和进行干预（doing）有本质的区别，它解释了我们不认为气压计读数下降是风暴来临的原因。观察到气压计读数下降意味着风暴来临的概率增加了，但人为迫使气压计读数下降对风暴来临的概率并不会产生影响。

反事实是道德行为和科学思想的基石。回溯自己过去的行为以及设想其他可能情景的能力是自由意志和社会责任的基础。反事实的算法化使“思维机器”（thinking machine）习得这种人类特有的能力，并掌握这种目前仍为人类所独有的思考世界的方式成为可能。

因果推断引擎是一种问题处理机器，它接收三种不同的输入——假设、问题和数据，并能够产生三种输出。

我在机器学习方面的研究经历告诉我，因果关系的学习者必须熟练掌握至少三种不同层级的认知能力：观察能力（seeing）、行动能力（doing）和想象能力（imagining）。

无论数据集有多大或者神经网络有多深，只要使用的是被动收集的数据，我们就无法回答有关干预的问题。

一个足够强大的、准确的因果模型可以让我们利用第一层级（关联）的数据来回答第二层级（干预）的问题。

反事实与数据之间存在着一种特别棘手的关系，因为数据顾名思义就是事实。数据无法告诉我们在反事实或虚构的世界里会发生什么，在反事实世界里，观察到的事实被直截了当地否定了。

从想象的反事实中，我们获得的独特优势是灵活性、反省能力和改善过去行为的能力，更重要的一点是对过去和现在的行为承担责任的意愿。

如果我们希望计算机能理解因果关系，我们就必须教会它如何打破规则，让它懂得“观察到某事件”和“使某事件发生”之间的区别。

任何试图用看似简单的第一层级的概念去“定义”因果关系的做法都必定会失败。这就是我在本书中不去定义因果关系的原因：定义追求约简，而约简迫使我们不得不降至较低的层级。

拯救概率提高这一概念的正确方法是借助do算子来定义：如果P（Y|do（X））>P（Y），那么我们就可以说X导致了Y。

在此，我想说明的主要观点是：概率能将我们对静态世界的信念进行编码，而因果论则告诉我们，当世界被改变时，无论改变是通过干预还是通过想象实现的，概率是否会发生改变以及如何改变。

这种稳定性现在被称为哈代—温伯格平衡，是1908年由戈弗雷·哈罗德·哈代和威廉·温伯格在其研究中提出的，他们为这一现象给出了一个令人满意的数学解释。是的，他们借助的工具是另一个因果模型——孟德尔遗传理论。

“辉格史观”（Whig history）就是一个针对此种做法的批判性术语，用于嘲弄事后诸葛亮式的历史写作风格——只关注成功的理论和实验，而对失败的实验和陷入僵局的理论发展几乎只字不提。

更概括地说，皮尔逊属于一个名为实证主义的哲学学派，该学派认为宇宙是人类思想的产物，而科学只是对这些思想的描述。因此，因果关系被解释为一个发生在人类大脑之外的世界中的客观过程，不具有任何科学意义。

相比之下，赖特的研究重点，以及本书的讨论重点，则是用数学语言表达看似合理的因果知识，将其与经验数据相结合，回答具有实际价值的因果问题。

路径分析在经济学和社会学中有着不同的命运轨迹，但两者最终都走向了对赖特思想的背叛。社会学家将路径分析改名为结构方程建模（structural equation modeling, 简称SEM），在经济学领域，路径分析的代数部分演变为联立方程模型（simultaneous equation models，没有简称）。

贝叶斯网络与因果图之间的关系很简单：因果图就是一个贝叶斯网络，其中每个箭头都表示一个直接的因果关系，或者至少表明了存在某个因果关系的可能性。反过来，并非所有的贝叶斯网络都是因果关系网络，而在很多实际应用中这一点并不重要。

在介绍完只包含一个连接的两节点网络后，我们的下一步自然是引入包含两个连接的三节点网络，我称此种网络为“接合”（junction）。这是所有贝叶斯网络（以及因果网络）的构建模块。接合有三种基本类型或形式，借助这些基本形式，我们就可以在网络中表征出所有的箭头模式。

A→B→C。这种接合形式是被称为“链”接合或中介接合的最简单的表现形式。
A←B→C。这种接合形式被称为“叉”接合，B通常被视作A和C的共因（common cause）或混杂因子（confounder）。
A→B←C。这是最让人着迷的一种接合形式，被称作“对撞”（collider）接合。

我们将在第七章了解到，这把钥匙叫作d分离（d-separation，也叫分隔定理），其涉及所有这三种基本接合形式。这个概念能够告诉我们，对于模型中任何给定的路径模式，我们应该期望在数据中看到怎样的概率依存模式。

为了加以强调，我现在重复一下这些规则：（a）在链接合A→B→C中，控制B可防止有关A的信息流向C或有关C的信息流向A。（b）同样，在叉接合或混杂接合A←B→C中，控制B可以防止有关A的信息流向C，或有关C的信息流向A。（c）最后，在对撞接合A→B←C中，信息流通规则与前两种是完全相反的。变量A和C原本是独立的，所以关于A的信息不能告诉你任何关于C的信息。但是，如果你控制了B，由于辩解效应的存在，信息就会开始在“管道”中流通。我们还必须牢记另一条基本规则：（d）控制一个变量的后代节点（或替代物）就如同“部分地”控制变量本身。控制一个中介物的某个后代节点意味着部分地关闭了信息管道；控制一个对撞变量的某个后代节点则意味着部分地打开了信息管道。

我们将后门路径（back-door path）定义为所有X和Y之间以指向X的箭头为开始的路径；如果我们阻断了所有的后门路径（因为这些路径允许X和Y之间的伪相关信息在管道中流通），则我们就完成了对X和Y的去混杂。

医生们称此类结论为“剂量—响应效应”（dose-response effect）：如果物质A会导致生物反应B，则通常而言（但不是百分之百），更大剂量的A会导致更强的反应B。

在最纯粹、最本质的意义上，我们观察到的相关就是一种错觉，甚至可能是一种自欺欺人：我们选择哪些事件进入数据集同时忽略另一些事件的做法给我们自己带来了错觉。重要的是要认识到，我们并非总能意识到自己做出了这个选择，这就是为什么对撞偏倚总是能轻易欺骗那些粗心的人。

辛普森逆转是一个纯粹的数字事实：在合并样本时，两个或多个不同的样本关于某一特定事件的相对频率出现反转。

辛普森悖论提醒我们，在某些情况下，至少存在一个统计趋势（无论是来自聚合数据、分层数据还是同时来自两者）无法代表真正的因果效应。

如果你确信自己已掌握了变量的一个充分集（我们称之为去混因子）的数据可以用来阻断干预和结果之间的所有后门路径，那么你就可以使用此方法。为了做到这一点，我们首先需要估计去混因子在每个“水平”或数据分层中产生的效应，并据此测算出干预的平均因果效应。然后，我们需要计算这些层的因果效应的加权平均值，为此我们需要对每个层都按其在总体中的分布频率进行加权。

简言之，回归系数有时可以体现因果效应，有时则无法体现，而其中的差异无法仅依靠数据来说明。我们还需要具备另外两个条件才能赋予rYX.Z以因果合法性。第一个条件是，我们所绘制的相应的因果图应该能够合理地解释现实情况；第二个条件是，我们需要据其进行统计调整的变量Z应该满足后门标准。

通过这些步骤，工具变量就神奇地许可了我们执行与前门调整相同的处理：在无法控制混杂因子或收集其数据的情况下估计X对Y的效应。

我们还看到了一些适用于观察性研究的方法，其中处理组和对照组的成员不是随机分配的。对此，如果我们可以采集到能够阻断所有后门路径的变量（集）的数据，我们就可以使用后门调整公式来估算出干预效果。如果能找到一个被混杂因子“屏蔽”的前门路径，我们就可以引入前门调整。如果我们愿意接受线性或单调性假设，那么我们就可以使用工具变量（假设该变量可以在因果图中找到，或研究者可以根据试验设计提出一个合适的变量）。此外，那些真正富有冒险精神的研究者还可以用do演算或其衍生算法，绘制出一条通往干预之峰山巅的新路线。

而正如我们从因果关系之梯中学到的，没有哪种纯粹基于数据的方法（第一层级）可以回答反事实的问题（第三层级）。

第一定律是说，潜在结果Yx（u）可通过下述方法来推断：建构模型Mx（确保删除所有指向X的箭头），并计算结果Y（u）。因果关系之梯第二层级和第三层级中的所有可估量都由此产生。简言之，将反事实简化为一个算法使我们得以在数学所允许的范围内征服第三层级的一大片版图——当然，也不可能再多了。

总之，我认为，能够给思维机器带来智能体效益的软件包至少包括3个组成部分：关于世界的因果模型；关于自身软件的因果模型，无论这个模型有多浅显；以及一个内存，用于记录其心理意图对外部事件的反应方式。