互联网资讯 / 人工智能 · 2023年11月30日 0

深度学习与因果表示学习的研究核心

近期,图灵奖得主Yoshua Bengio及其团队在一篇论文中深入探讨了他们的研究重点,即因果表示学习,它将机器学习与因果推理相结合。研究者们不仅回顾了因果推理的基本概念,还分析了其与机器学习的融合及其深远影响。这篇论文已经被《Proceedings of the IEEE》期刊接收。

机器学习与因果推理一直以来都是相对独立的研究领域,各自具有优缺点。

然而,近年来,两者逐渐相互借鉴,促进了彼此的发展。机器学习的迅速进展为因果推理的研究提供了动力,利用决策树、集成方法和深度神经网络等先进技术,研究者能够更准确地估计潜在结果。

因此,将这两个领域结合的因果表示学习愈发受到关注,成为实现人类级人工智能的潜在路径。

在2020年初,机器之心曾推荐了一些因果表示学习领域的最新文献,深入分析了不同方法的基本结构,以帮助感兴趣的读者更好地理解因果学习与机器学习的结合方向及其潜力。

今天,我们特别推荐一篇由Yoshua Bengio团队撰写的因果表示学习论文:《TowaRds CaUSAl RepResentation learning》,这篇论文已被《Proceedings of the IEEE》期刊接收。

深度学习与因果表示学习的研究核心

论文链接:https://aRxiv.oRg/pdf/2102.11107.pdf

在这篇论文中,Yoshua Bengio等人回顾了因果推理的基础概念,并结合机器学习中的关键开放性问题,如迁移与泛化,探讨因果推理对机器学习的潜在贡献。同时,许多因果研究的前提是因果变量,因此当前AI与因果领域的核心挑战在于因果表示学习,即从低级观测值中识别高级因果变量。论文最后阐述了因果对机器学习的影响,并提出了该交叉领域的主要研究方向。

论文的主要贡献如下:

第二章讨论了物理系统中因果建模的不同层级,第三章则展示了因果模型与统计模型之间的差异,探讨了建模能力以及相关的假设与挑战。第四章将独立因果机制(Independent CaUSAl MechaniSMs,ICM)原则扩展为基于数据估计因果关系的核心组件,提出了稀疏机制转移(SpaRse MechaniSM SHift)假设,并探讨其对学习因果模型的影响。第五章回顾了基于恰当描述子(或特征)学习因果关系的现有方法,涵盖经典方法及现代深度神经网络方法,重点关注促成因果发现的底层原则。第六章探讨了如何基于因果表示数据学习有效模型,并从因果角度分析机器学习问题。第七章分析了因果对现实机器学习的影响,研究者利用因果语言重新解读了鲁棒性、泛化以及半监督学习、自监督学习、数据增强和预训练等常见技术,并探讨了因果与机器学习在科学应用中的交叉领域,思考如何结合两者的优势以构建更通用的人工智能。

因果建模的层级

独立同分布设置下的预测

统计模型只是对现实的粗略描述,因为它们仅需建模相关性。对于给定的输入样本X和目标标签Y,我们可能希望近似P(Y | X)来回答类似“这张图像包含狗的概率是多少?”或“在特定诊断下,病人心脏衰竭的概率是多少?”的问题。在适当的假设下,这些问题可以通过基于P(X, Y)观察足够的独立同分布(i.i.d.)数据来解决。

分布偏移下的预测

干预式问题(InteRventional question)比预测问题更具挑战性,因为它们涉及的行为超出了统计学习的独立同分布设置。干预可能会影响因果变量子集的值及其关系。例如,“增加一个国家中的鹳鸟数量是否能促进人类生育率增加?”或者“如果烟草被更多地社会污名化,吸烟人数是否会减少?”

回答反事实问题

反事实问题要求推理事情发生的原因,设想不同的行为结果,以决定哪些行为能够达到预期效果。回答反事实问题比干预式问题更为复杂,但对于AI而言,这可能是一个关键挑战,因为智能体能够从想象行为后果和理解特定行为带来的结果中受益。

数据的本质:观测、干预、(非)结构化

数据格式在推断关系类型中发挥着重要作用。我们可以将数据模态分为两个轴:观测数据与干预数据,手动工程数据与原始(非结构化)感知输入。

观测与干预数据:人们常常假设但很少严格得到的一种极端数据格式是观测独立同分布数据,每个数据点均独立地抽样自同一分布。

手动工程数据与原始数据:在传统AI中,数据通常被假设为可以结构化为高级且语义有意义的变量,这可能部分对应于底层图的因果变量。

因果模型与推理

这一部分主要介绍了统计建模与因果建模的区别,并用形式化语言引入了干预与分布变化的概念。

独立同分布数据驱动的方法

对于独立同分布数据,强大的泛一致性(univeRsal consistency)确保了学习算法收敛至最低风险。这类算法确实存在,例如最近邻分类器、支持向量机和神经网络。然而,目前的机器学习方法在面对不符合独立同分布假设的问题时,性能通常较差,而这些问题对于人类而言却相对简单。

Reichenbach 原则:从统计学到因果关系

Reichenbach [198] 清晰描述了因果与统计相关性之间的关系:

深度学习与因果表示学习的研究核心

X与Y一致的情况是特例。在没有额外假设的情况下,观测数据无法区分这些情况,此时因果模型包含的信息要比统计模型多。

如果只有两个观测值,因果结构的发现将会非常困难,但当观测值增多时,情况反而会变得简单。原因在于此时存在多个由因果结构所传达的非平凡条件独立性,这些独立性可用因果图或结构因果模型的语言进行描述,并融合了概率图模型与干预概念。

结构因果模型(SCM)

SCM考虑与有向无环图(diRected acyclic gRaph, DAG)顶点相关的一组观测值(或变量)X_1, . . . , X_n。该研究假设每个观测值根据以下公式得出:

深度学习与因果表示学习的研究核心

从数学角度看,观测值也是随机的。直观上,我们可以将独立噪声理解为在图上扩散的信息探头(类似于社交网络中流言的独立元素)。这并不局限于两个观测值,任何非平凡条件独立语句都至少需要三个变量。

统计模型、因果图模型与SCM的区别

下图展示了统计模型与因果模型之间的差异。

统计模型可以通过图模型定义,即带图的概率分布。如果图的边是因果性的,则该图模型为因果模型(称为“因果图”)。结构因果模型由一组因果变量和一组结构方程构成,这些方程基于噪声变量U_i分布。

深度学习与因果表示学习的研究核心

独立因果机制

独立性概念包含两个方面:一个与影响有关,另一个与信息相关。在因果研究的历史中,不变、自主和独立机制以多种形式出现。例如,HaavelMo [99] 的早期工作假设改变stRUCtuRal aSSignMent中的一个,会使其他保持不变;HoOVeR [111] 引入了不变准则,认为真正的因果序是在恰当干预下的不变性;AldRich [4] 探讨了这些思想在经济学中的历史发展;PeaRl [183] 详细讨论了自主性,认为因果机制能够在其他机制服从外部影响时保持不变。

该研究将任意现实世界分布视为因果机制的结果。此类分布的变化通常源于至少一个因果机制的变化。根据ICM原则,研究者提出以下假设:

深度学习与因果表示学习的研究核心

在ICM原则中,研究者表述的两个机制(形式化为条件分布)的独立性意味着这两个条件分布不应互相影响。后者可以理解为要求独立干预。

因果发现与机器学习

根据SMS假设,许多因果结构被认为需要保持不变。因此,分布偏移(如在不同“环境或语境”中观察一个系统)能够为确定因果结构提供重要帮助。这些环境可以来自干预、不稳定时间序列或多视图。同样,这些环境也可以被视为不同任务,从而与元学习产生联系。

传统的因果发现和推理假设单元(unIT)是由因果图连接的随机变量。然而,现实世界的观测结果通常并未被结构化为这些单元,例如图像中的对象。因此,因果表示学习的出现旨在从数据中学习到这些变量,正如超越符号AI的机器学习不需要算法操作的符号预先给定一样。基于此,研究者试图将随机变量S_1, &hellIP;, S_n与观测值关联,公式如下:

深度学习与因果表示学习的研究核心

其中G是非线性函数。下图展示了一个示例,其中高维观测是对因果系统状态的结果,然后利用神经网络对其进行处理,以提取在多种任务上有用的高级变量。

[[[IMG_7]]]