今天的讨论焦点是一对在人工智能领域中相互竞争的老对手:
杨立昆(Yann LeCun)与加里·马库斯(Gary Marcus)
在深入探讨他们之间的最新争论之前,让我们回顾一下这两位专家之间的历史冲突。
LeCun与Marcus之间的争论
作为Facebook的首席人工智能科学家和纽约大学的教授,2018年图灵奖得主杨立昆在NOEMA杂志上发表了一篇文章,针对加里·马库斯之前对人工智能及深度学习的评论进行了回应。
早前,马库斯在Nautilus杂志上撰文表示,深度学习似乎已经“无法继续前进”。
马库斯是一个喜欢看热闹的人。
只要有些风吹草动,他就会大声喊出“人工智能已死”,引发圈内的广泛讨论!
他曾多次发表意见,称GPT-3是“无意义的”和“胡说八道”。
确凿的证据在这里:
他甚至声称“深度学习遇到了瓶颈”,看到如此不负责任的言论,AI界的权威人物LeCun无法坐视不管,立刻发表文章进行反击!
LeCun表示,若你想挑战我,我随时奉陪!
在他的文章中,LeCun逐条反驳了马库斯的观点。
接下来让我们看看这位专家是如何回应的~~
以下是LeCun的详细论述:
当前人工智能的主流技术是深度学习(DL)神经网络(NN),这是一种大规模自学习算法,擅长识别和利用数据中的模式。从一开始,批评者们就过于早地认为神经网络已经撞上了“不可逾越的墙”,然而每一次,这都被证明只是暂时的障碍。
在20世纪60年代,神经网络无法解决非线性函数的问题。但这种情况并没有持续太久,20世纪80年代反向传播(BackPropagation)的出现改变了这一切,但随之而来的又是一个新的“不可逾越的墙”,即训练系统极为困难。
到90年代,研究人员开发了简化程序和标准化架构,使得训练变得更加可靠,但似乎无论取得怎样的成果,始终存在一堵“不可逾越的墙”,这一次的原因是缺乏训练数据和计算能力。
2012年,随着最新GPU能够在庞大的ImageNet数据集上进行训练,深度学习开始崭露头角,并轻松战胜所有竞争对手。然而,质疑的声音也随之而来,人们发现“新墙”出现了——深度学习训练需要大量手工标注的数据。
不过,近年来这种质疑已经变得不再重要,因为自监督学习取得了显著的进展,例如不需要标注数据的GPT-3。
如今,似乎新的障碍是“符号推理”,即以代数或逻辑的方式操作符号的能力。正如我们在学习时了解到的,解决数学问题需要严格遵循规则逐步处理符号(例如,解方程)。
《The Algebraic Mind》的作者和《Rebooting AI》的合著者加里·马库斯最近提出,深度学习无法取得进一步进展,是因为神经网络难以进行符号操作。与此相对的是,许多深度学习研究人员相信,深度学习已经在进行符号推理,并将继续改进。
这场争论的核心在于符号在人工智能中的作用,存在两种截然不同的观点:一种认为符号推理必须从一开始就被硬编码,而另一种则认为机器可以通过经验学习符号推理。因此,问题的关键在于我们如何理解人类智能,以及应如何追求具有人类水平的人工智能。
不同类型的人工智能
符号推理最重要的是精确:根据排列组合,符号可以有多种不同的顺序,例如“(3-2)-1”和“3-(2-1)”之间的差异至关重要,因此以正确的顺序执行符号推理显得尤为重要。
马库斯认为,这种推理是认知的核心,对于语言的潜在语法逻辑和数学的基本操作至关重要。他认为这可以扩展到我们更基本的能力,背后存在着潜在的符号逻辑。
而我们熟知的人工智能正是从研究这种推理开始的,通常被称为“符号人工智能”。然而,将人类的专业知识提炼成一组规则是极具挑战性的,这会耗费巨大的时间和人力成本,这便是所谓的“知识获取瓶颈”。
虽然为数学或逻辑编写规则相对简单,但现实世界并非黑白分明,存在很多模糊性,事实证明,人类无法为每一个模式编写控制规则或定义每一个模糊概念的符号。
但随着科技的发展,神经网络应运而生,而神经网络最擅长的正是发现模式并接受模糊性。
神经网络是一个相对简单的方程,它学习一个函数,为输入到系统的任何内容提供适当的输出。
例如,训练一个二分类网络,通过将大量样本数据(例如椅子)输入神经网络进行多个epoch的训练,最终使该网络能够准确判断新图片是否为椅子。
简而言之,这不仅关乎人工智能的问题,更深层次地探讨了什么是智能,以及人类大脑是如何工作的。
这些神经网络能够进行精确训练,因为实现它们的函数是可微的。换句话说,如果符号AI类似于符号逻辑中使用的离散Token,那么神经网络就是微积分中的连续函数。
这种特性允许通过微调参数来学习更好的表示,这意味着它能够更好地拟合数据,避免欠拟合或过拟合的问题。然而,当涉及到严格的规则和离散Token时,这种灵活性带来了新的“障碍”:在求解方程时,我们通常希望得到确切的答案,而不是近似值。
这正是符号人工智能的亮点所在,因此马库斯建议将两者简单结合:在深度学习模块之上插入一个硬编码的符号操作模块。
这种想法很有吸引力,因为这两种方法可以互补,似乎不同工作方式的模块“混合”能够最大化两种方法的优势。
但争论的焦点转向是否需要将符号操作内置到系统中,即符号和操作能力由人类设计,而该模块不可微,因此与深度学习不兼容。
传奇的“符号推理”
这一假设非常有争议。
传统神经网络认为,我们不需要手动进行符号推理,而是可以学习符号推理,即通过符号的示例来训练机器进行正确的推理,使其学习抽象模式的完成。简而言之,机器能够在没有预先定义的符号及其操作规则的情况下,学习如何操作世界上的符号。
当代大型语言模型(如GPT-3和LAMDA)展现出这种方法的潜力。它们操纵符号的能力令人惊叹,这些模型表现出卓越的常识推理、组合能力、多语言能力、逻辑和数学能力,甚至能够模仿已故者的风格。
然而,这种做法并不可靠。如果你让DALL-E创作一个罗马雕塑,描绘一位留着胡子、戴着眼镜、穿着热带衬衫的哲学家,它会表现得非常出色。然而,如果让它描绘一只戴着粉色玩具的小猎犬追逐一只松鼠,有时你会得到一只粉色的小猎犬或者松鼠。
当它能够将所有属性分配给一个对象时,它的表现很好,但当涉及多个对象和属性时,它就会显得无能为力。许多研究人员认为,这是深度学习在通向更具人类智能的道路上的“障碍”。
那么,符号化操作究竟是需要硬编码,还是可以学习的呢?
这不是马库斯的理解。
他认为符号推理是全有或全无的——因为DALL-E没有符号和逻辑规则作为操作基础,因此它实际上并没有进行符号推理。因此,大型语言模型的无数失败表明它们并未真正推理,而只是冷冰冰的机械模仿。
对马库斯而言,攀上一棵足够大的树并不能到达月球。因此,他认为目前的深度学习语言模型并不比“尼姆·金斯基”(一只会使用美国手语的雄性黑猩猩)更接近真正的语言。DALL-E的问题不是缺乏训练,而是系统未能掌握句子的潜在逻辑结构,因此无法正确理解不同部分如何连接成一个整体。
相比之下,Geoffrey Hinton等人认为,神经网络可以在不硬编码符号和代数推理的情况下成功操纵符号。深度学习的目标并非在机器内部进行符号操作,而是从世界中的系统中产生正确的符号。
拒绝将这两种模式混合并非草率的,而是基于一个人是否认为符号推理可以学习的哲学性差异。
马库斯对深度学习的批评源于认知科学中的一场相关争论,探讨智能如何运作,以及是什么使人类独一无二。他的观点与心理学中的一个著名“本土主义”学派相符,该学派认为认知的许多关键特征是天生的——实际上,我们在很大程度上生来就知道世界是如何运作的。
这种与生俱来的感知的核心是符号操作的能力(但这一点是否在整个自然界中存在,还是人类特有的,目前尚无定论)。对马库斯而言,这种符号操作能力奠定了常识的许多基本特征:遵循规则、抽象思维、因果推理、重新识别细节、泛化等其他能力。
简而言之,我们对世界的许多理解都是自然赋予的,学习即是丰富细节。
还有另一种经验主义观点挑战了上述想法:符号操作在自然界中是罕见的,主要是我们的古人类祖先在过去200万年中逐渐获得的一种学习交流能力。
从这一观点来看,主要的认知能力是非符号学习能力,与提高生存能力有关,例如快速识别猎物、预测它们的可能行动,以及发展熟练的反应。
这种观点认为,绝大多数复杂的认知能力是通过一般的、自监督的学习能力获得的。它还假设,我们的大部分复杂认知能力并不依赖于符号操作。相反,它们通过模拟各种场景并预测最佳结果而获得。
这种经验主义的观点认为,符号和符号操作只是另一种习得的能力,是随着人类越来越依赖合作行为来获得成功而逐渐获得的能力。这将符号视为我们用以协调团队合作的发明——例如文字,同时也包括地图、标志性描述、仪式甚至社会角色。
这两种观点之间的差异显而易见。对于本土主义传统来说,符号和符号操作本就存在于人类认知中,而经验主义者则认为,符号能力是后天学习的结果,二者在认知科学和人工智能的未来发展中都具有重要意义。
