互联网资讯 / 人工智能 · 2023年12月17日 0

Judea Pearl谈数据的局限性

在当今的人工智能研究领域,数据驱动的方法占据了主导地位,这类方法在语音识别、计算机视觉和自然语言处理等关键领域取得了显著的成果。然而,尽管如此,部分研究人员仍在探讨这些方法的局限性和其他方法的潜在价值。最近,图灵奖得主、著名计算机科学家和哲学家Judea Pearl发表了一篇简短的论文,从便利性、透明度和可解释性三个角度,阐述了他对激进经验主义和机器学习研究的看法。

在这篇论文中,Judea Pearl将“数据拟合”与“数据解释”两种数据科学方法进行了比较,探讨了它们在便利性、透明度和可解释性方面的差异。“数据拟合”方法的核心理念是研究者相信理性决策蕴藏于数据之中。而“数据解释”方法则认为数据并非唯一的知识来源,而是辅助我们理解现实的工具,这里的“现实”指的是生成数据的过程。文章在因果逻辑的框架下探讨了拟合与解释在任务中的相辅相成,从而试图恢复数据科学的平衡。

模拟进化与数据科学

我最近参加了一场讲座,演讲者总结了机器学习的哲学观念:“所有知识来源于观察到的数据,一部分直接来自感官经验,另一部分则是通过文化或基因传递的间接经验。”

观众可能会认为这种说法是显而易见的,这也为演讲定下了基调,即如何通过分析数据中的条件概率模式来探讨“知识”的本质。自然,这种观点并未涉及“外部世界”、“理论”、“数据生成过程”、“因果关系”、“能动性”以及“心智构造”等概念,因为从表面看,这些概念在数据中似乎都可以找到对应的内容。换句话说,无论人类在解读数据时使用何种概念,比如文化、科学或基因等来源,这些都可以追溯到赋予其存在价值的感官经验。

从人工智能的角度来看,这种以数据为中心的哲学为机器学习研究提供了一种引人注目的前景:为了开发出具有人类水平的智能机器,我们应该模仿祖先获取智慧的方式,利用我们所能收集的所有数据作为输入,同时在数字环境中模拟基因和文化的进化。在极端情况下,这种前景可能引发诸多未来主义的设想:从类似原始生物(如变形虫)的简单神经网络开始,让其与环境互动、变异并繁殖,给予足够的时间,最终或许能够获得爱因斯坦级别的智慧。实际上,除了神秘的经典文献和神的启示,爱因斯坦又能从何处获取他的知识与智慧呢?

在探讨这种前景的现实性之前,让我们先考虑两个观察到的情况:

1. 模拟进化,无论具体形式如何,实际上已经成为当前大多数机器学习研究的主要范式,尤其是在连接主义、深度学习和神经网络技术中。这些技术实施了无模型的统计学习策略,已在计算机视觉、语音识别和自动驾驶等领域取得了显著成功。这种成功激发了对这些策略足够性和潜力的信心,同时也减弱了对基于模型方法的关注。

2. 以数据为中心的发展理念深植于西方哲学的经验主义传统。该传统认为感官经验是所有知识和概念的最终来源,而“先天观念”和“理性”在知识来源方面的作用微乎其微。经验主义的思想可以追溯到古代亚里士多德,但英国经验主义哲学家如弗朗西斯·培根、约翰·洛克、乔治·贝克莱和大卫·休谟,以及更近代的查尔斯·桑德斯·皮尔士和威廉·詹姆斯等人,推动了它的发展。实际上,现代连接主义被视为激进经验主义对理性主义的一次重要胜利,它在数字机器上模拟知识学习过程的能力,为评估经验主义与天赋能力之间的平衡提供了灵活的实验平台。

尽管对哲学理论进行测试是有益的,但我对机器学习研究遵循激进经验主义的想法有三个主要的保留意见。以下三个论点将阐述为何经验主义应与基于模型的科学原理保持平衡,而基于模型的科学学习过程受两个信息源的指导:(a) 数据,(b) 人工设计的关于数据生成方式的模型。

这三个论点是:(1) 便利性、(2) 透明度、(3) 可解释性。接下来将逐一讨论这些论点:

便利性

进化是一个过于缓慢的过程,因为大多数突变都是无效或有害的,等待自然选择来筛选出有用的突变常常代价高昂。许多机器学习任务需要快速解读稀疏的新数据并作出迅速反应,而这些数据往往过于稀疏,无法依赖随机突变进行筛选。新冠疫情的爆发就是一个典型的例子:来自不可靠和多样化来源的稀疏数据需要快速解读和迅速行动,这主要依赖于之前流行病传播和数据生成模型的知识。总体而言,机器学习技术有望利用现有的科学知识,并结合可收集的数据,解决健康、教育、生态和经济等领域的关键社会问题。

更重要的是,科学知识能够通过主动引导数据和数据源的选择或过滤过程,加快进化的速度。在选择使用哪些数据或运行哪些实验之前,需要从理论上假设每种选择可能带来的结果及其提升未来性能的潜力。例如,为了提供这样的期望,可以使用因果模型,既能预测假设操作的结果,也能预测撤销已发生事件的结果。

透明度

为了有效利用世界知识(即使是源于原始数据演化而来的知识),我们必须以机器可理解的形式对其进行编译和表征。编译知识旨在将发现过程分摊到多个推理任务上,从而避免重复此过程。编译后的表征有助于高效回答许多选择性决策问题,包括如何收集额外数据的方式。某些表征允许这样的推理,另一些则不允许。《为什么:关于因果关系的新科学》一书中提出的因果关系层级(adder of Causation)形式化地定义了回答假设性干预或解释以及反事实问题所需知识的类型。

知识编译涉及抽象与重新格式化。前者可能导致信息的丢失(如将图像模型归纳为数值方程的情况),而后者则保留信息内容,仅将一些信息从隐式转变为显式表征。经典例子是信号波形的频谱表示。从信息的角度看,前者与后者等价,但频谱明确展现了信号的特定特征。

这些考虑要求我们研究所编译表征的数学属性、内在局限性、支持的推理类型,以及它们在获得预期答案方面的有效性。更具体地说,机器学习研究者应参与如今被称为“因果建模”的研究,并使用因果科学的工具和原则来指导数据探究和解释过程。

可解释性

无论因果知识的积累、发现或存储方式如何,推理结果必须传递给人类用户并为其所用。现今,这些用途包括政策评估、个人决策、生成解释、分配功劳与责任,或更广泛地理解我们周围的世界。因此,所有推理都必须使用与人们组织世界知识的方式相匹配的语言,也就是因果语言。因此,无论机器学习研究者采用何种方法进行数据拟合,他们都必须熟练掌握这种对用户友好的语言及其语法、通用规则,以及人们如何理解或误解机器学习算法发现的功能。

结论

将人类知识的内容与其感官数据来源等同是错误的。知识特征的描述中,知识存储于心智(或计算机)的格式及其隐式与显式成分的平衡,与其内容或来源同样重要。

尽管激进经验主义可能是进化过程的有效模型,但对于机器学习研究而言,却是一个不理想的策略。它使以数据为中心的思潮大行其道,而这一思潮现在主导了统计学和机器学习文化,认为理性决策的奥秘仅在于数据。

采用“数据拟合”与“数据解释”的混合策略,能够更好地帮助我们理解进化过程所需的知识编译各个阶段。