深度学习的瓶颈原因探讨

今天的讨论焦点是一对在人工智能领域中相互竞争的老对手：

杨立昆（Yann LeCun）与加里·马库斯（Gary Marcus）

在深入探讨他们之间的最新争论之前，让我们回顾一下这两位专家之间的历史冲突。

LeCun与Marcus之间的争论

作为Facebook的首席人工智能科学家和纽约大学的教授，2018年图灵奖得主杨立昆在NOEMA杂志上发表了一篇文章，针对加里·马库斯之前对人工智能及深度学习的评论进行了回应。

早前，马库斯在Nautilus杂志上撰文表示，深度学习似乎已经“无法继续前进”。

马库斯是一个喜欢看热闹的人。

只要有些风吹草动，他就会大声喊出“人工智能已死”，引发圈内的广泛讨论！

他曾多次发表意见，称GPT-3是“无意义的”和“胡说八道”。

确凿的证据在这里：

他甚至声称“深度学习遇到了瓶颈”，看到如此不负责任的言论，AI界的权威人物LeCun无法坐视不管，立刻发表文章进行反击！

LeCun表示，若你想挑战我，我随时奉陪！

在他的文章中，LeCun逐条反驳了马库斯的观点。

接下来让我们看看这位专家是如何回应的~~

以下是LeCun的详细论述：

当前人工智能的主流技术是深度学习（DL）神经网络（NN），这是一种大规模自学习算法，擅长识别和利用数据中的模式。从一开始，批评者们就过于早地认为神经网络已经撞上了“不可逾越的墙”，然而每一次，这都被证明只是暂时的障碍。

在20世纪60年代，神经网络无法解决非线性函数的问题。但这种情况并没有持续太久，20世纪80年代反向传播（BackPropagation）的出现改变了这一切，但随之而来的又是一个新的“不可逾越的墙”，即训练系统极为困难。

到90年代，研究人员开发了简化程序和标准化架构，使得训练变得更加可靠，但似乎无论取得怎样的成果，始终存在一堵“不可逾越的墙”，这一次的原因是缺乏训练数据和计算能力。

2012年，随着最新GPU能够在庞大的ImageNet数据集上进行训练，深度学习开始崭露头角，并轻松战胜所有竞争对手。然而，质疑的声音也随之而来，人们发现“新墙”出现了——深度学习训练需要大量手工标注的数据。

不过，近年来这种质疑已经变得不再重要，因为自监督学习取得了显著的进展，例如不需要标注数据的GPT-3。

如今，似乎新的障碍是“符号推理”，即以代数或逻辑的方式操作符号的能力。正如我们在学习时了解到的，解决数学问题需要严格遵循规则逐步处理符号（例如，解方程）。

《The Algebraic Mind》的作者和《Rebooting AI》的合著者加里·马库斯最近提出，深度学习无法取得进一步进展，是因为神经网络难以进行符号操作。与此相对的是，许多深度学习研究人员相信，深度学习已经在进行符号推理，并将继续改进。

这场争论的核心在于符号在人工智能中的作用，存在两种截然不同的观点：一种认为符号推理必须从一开始就被硬编码，而另一种则认为机器可以通过经验学习符号推理。因此，问题的关键在于我们如何理解人类智能，以及应如何追求具有人类水平的人工智能。

不同类型的人工智能

符号推理最重要的是精确：根据排列组合，符号可以有多种不同的顺序，例如“(3-2)-1”和“3-(2-1)”之间的差异至关重要，因此以正确的顺序执行符号推理显得尤为重要。

马库斯认为，这种推理是认知的核心，对于语言的潜在语法逻辑和数学的基本操作至关重要。他认为这可以扩展到我们更基本的能力，背后存在着潜在的符号逻辑。

而我们熟知的人工智能正是从研究这种推理开始的，通常被称为“符号人工智能”。然而，将人类的专业知识提炼成一组规则是极具挑战性的，这会耗费巨大的时间和人力成本，这便是所谓的“知识获取瓶颈”。

虽然为数学或逻辑编写规则相对简单，但现实世界并非黑白分明，存在很多模糊性，事实证明，人类无法为每一个模式编写控制规则或定义每一个模糊概念的符号。

但随着科技的发展，神经网络应运而生，而神经网络最擅长的正是发现模式并接受模糊性。

神经网络是一个相对简单的方程，它学习一个函数，为输入到系统的任何内容提供适当的输出。

例如，训练一个二分类网络，通过将大量样本数据（例如椅子）输入神经网络进行多个epoch的训练，最终使该网络能够准确判断新图片是否为椅子。

简而言之，这不仅关乎人工智能的问题，更深层次地探讨了什么是智能，以及人类大脑是如何工作的。

这些神经网络能够进行精确训练，因为实现它们的函数是可微的。换句话说，如果符号AI类似于符号逻辑中使用的离散Token，那么神经网络就是微积分中的连续函数。

这种特性允许通过微调参数来学习更好的表示，这意味着它能够更好地拟合数据，避免欠拟合或过拟合的问题。然而，当涉及到严格的规则和离散Token时，这种灵活性带来了新的“障碍”：在求解方程时，我们通常希望得到确切的答案，而不是近似值。

这正是符号人工智能的亮点所在，因此马库斯建议将两者简单结合：在深度学习模块之上插入一个硬编码的符号操作模块。

这种想法很有吸引力，因为这两种方法可以互补，似乎不同工作方式的模块“混合”能够最大化两种方法的优势。

但争论的焦点转向是否需要将符号操作内置到系统中，即符号和操作能力由人类设计，而该模块不可微，因此与深度学习不兼容。

传奇的“符号推理”

这一假设非常有争议。

传统神经网络认为，我们不需要手动进行符号推理，而是可以学习符号推理，即通过符号的示例来训练机器进行正确的推理，使其学习抽象模式的完成。简而言之，机器能够在没有预先定义的符号及其操作规则的情况下，学习如何操作世界上的符号。

当代大型语言模型（如GPT-3和LAMDA）展现出这种方法的潜力。它们操纵符号的能力令人惊叹，这些模型表现出卓越的常识推理、组合能力、多语言能力、逻辑和数学能力，甚至能够模仿已故者的风格。

然而，这种做法并不可靠。如果你让DALL-E创作一个罗马雕塑，描绘一位留着胡子、戴着眼镜、穿着热带衬衫的哲学家，它会表现得非常出色。然而，如果让它描绘一只戴着粉色玩具的小猎犬追逐一只松鼠，有时你会得到一只粉色的小猎犬或者松鼠。

当它能够将所有属性分配给一个对象时，它的表现很好，但当涉及多个对象和属性时，它就会显得无能为力。许多研究人员认为，这是深度学习在通向更具人类智能的道路上的“障碍”。

那么，符号化操作究竟是需要硬编码，还是可以学习的呢？

这不是马库斯的理解。

他认为符号推理是全有或全无的——因为DALL-E没有符号和逻辑规则作为操作基础，因此它实际上并没有进行符号推理。因此，大型语言模型的无数失败表明它们并未真正推理，而只是冷冰冰的机械模仿。

对马库斯而言，攀上一棵足够大的树并不能到达月球。因此，他认为目前的深度学习语言模型并不比“尼姆·金斯基”（一只会使用美国手语的雄性黑猩猩）更接近真正的语言。DALL-E的问题不是缺乏训练，而是系统未能掌握句子的潜在逻辑结构，因此无法正确理解不同部分如何连接成一个整体。

相比之下，Geoffrey Hinton等人认为，神经网络可以在不硬编码符号和代数推理的情况下成功操纵符号。深度学习的目标并非在机器内部进行符号操作，而是从世界中的系统中产生正确的符号。

拒绝将这两种模式混合并非草率的，而是基于一个人是否认为符号推理可以学习的哲学性差异。

马库斯对深度学习的批评源于认知科学中的一场相关争论，探讨智能如何运作，以及是什么使人类独一无二。他的观点与心理学中的一个著名“本土主义”学派相符，该学派认为认知的许多关键特征是天生的——实际上，我们在很大程度上生来就知道世界是如何运作的。

这种与生俱来的感知的核心是符号操作的能力（但这一点是否在整个自然界中存在，还是人类特有的，目前尚无定论）。对马库斯而言，这种符号操作能力奠定了常识的许多基本特征：遵循规则、抽象思维、因果推理、重新识别细节、泛化等其他能力。

简而言之，我们对世界的许多理解都是自然赋予的，学习即是丰富细节。

还有另一种经验主义观点挑战了上述想法：符号操作在自然界中是罕见的，主要是我们的古人类祖先在过去200万年中逐渐获得的一种学习交流能力。

从这一观点来看，主要的认知能力是非符号学习能力，与提高生存能力有关，例如快速识别猎物、预测它们的可能行动，以及发展熟练的反应。

这种观点认为，绝大多数复杂的认知能力是通过一般的、自监督的学习能力获得的。它还假设，我们的大部分复杂认知能力并不依赖于符号操作。相反，它们通过模拟各种场景并预测最佳结果而获得。

这种经验主义的观点认为，符号和符号操作只是另一种习得的能力，是随着人类越来越依赖合作行为来获得成功而逐渐获得的能力。这将符号视为我们用以协调团队合作的发明——例如文字，同时也包括地图、标志性描述、仪式甚至社会角色。

这两种观点之间的差异显而易见。对于本土主义传统来说，符号和符号操作本就存在于人类认知中，而经验主义者则认为，符号能力是后天学习的结果，二者在认知科学和人工智能的未来发展中都具有重要意义。

ad

近期文章

互联网资讯 / 人工智能 · 2024年1月6日

深度学习的瓶颈原因探讨

You may also like...

互联网资讯 / 人工智能 · 2024年1月6日

You may also like...

《星礼研究所》上架Steam 让你过一把“科研瘾”

GPT-4超越人类分析师，预测公司盈利

武汉雷神山医院完成通信设施建设和5G网络部署