互联网资讯 / 人工智能 · 2023年11月30日 0

Hinton发布44页论文:新的尝试思路

“要让神经网络理解图像如同人类一样,我们必须弄清楚神经网络如何表示部分与整体的层次关系。”这是谷歌副总裁、工程研究专家、VecTor Institute首席科学顾问、多伦多大学荣誉教授Geoffrey Hinton的看法。

2月25日,Hinton发布了一篇署名为他一人的44页论文,上传至预印版论文平台arXiv,引起了人工智能领域的广泛关注。

这篇论文是Hinton在2017年与合作者共同提出胶囊网络CapsNet之后,再次对深度学习模型架构进行的探索。

有趣的是,尽管文章篇幅较长,但主要阐述的是一种思想,Hinton希望其他研究人员能够从中得到启发,并基于这一思路开展后续研究。

在论文摘要中,Hinton指出:“这篇论文并不描述一个现成的系统,而是提出了一个关于表示的单一想法,旨在将多个研究小组的进展整合成一个名为GLOM的假想系统。这些进展包括Transformer、神经场(Neural Field)、对比表示学习、模型蒸馏和胶囊网络。GLOM的核心问题是:具有固定架构的神经网络如何将图像解析为部分与整体的层次结构,而每个图像的层次结构又各不相同?”

这一想法简单地利用相同向量的孤岛来表示解析树中的节点。如果GLOM被证明可行,其在视觉或语言任务中的应用将显著提升Transformer类系统的可解释性。

Hinton是否已对这一想法进行过具体的编程尝试?他表示,自己正与Laura Culp和Sara Sabour共同研究该想法。

值得注意的是,Hinton提到的谷歌研究科学家Sara Sabour曾是胶囊网络论文的第一作者,在NIPS 2017论文《Dynamic Routing Between Capsules》发表后,她也开源了一份胶囊代码。

那么,GLOM到底是什么样的构想呢?

心理学的研究表明,人类会将视觉场景解析为部分与整体的层次结构,并将部分与整体之间的空间关系建模为内在坐标系的转换。为了让神经网络像人类一样理解图像,我们需要了解神经网络如何表征这种层次结构。然而,这并不简单,因为真实的神经网络无法动态分配神经元来表示解析树的节点。这也是一系列使用“胶囊”模型的研究动机。

这些模型假设,一组名为“胶囊”的神经元将专注于特定类型的部分,这些部分出现在图像的特定区域。通过激活这些预设的、特定类型的胶囊的子集及其间的适当连接,可以构建解析树。而Hinton的论文则提出了一种截然不同的方法,利用胶囊来表示神经网络中的部分与整体层次结构。

尽管该文主要聚焦于单一静态图像的感知,但将GLOM视为处理帧序列的管道(pipeline)更易于理解,因此一张静态图像可以被视为由多帧组成的序列。

GLOM的架构由大量使用相同权重的列组成。每一列是空间局部自编码器的堆叠,学习在小图像块中出现的多层次表示。每个自编码器通过多层自底向上的编码器和多层自顶向下的解码器,将某一层的嵌入转换为相邻层的嵌入。这些层次对应于部分与整体的层次结构。例如,在展示一张脸的图像时,某个列可能收敛到表示鼻孔、鼻子、脸和人的嵌入向量。[[[IMG_1]]]展示了不同层级的嵌入如何在单一列中相互作用。

图中并未显示不同列中相同层级的嵌入之间的相互作用。这些交互比列内的交互简单得多,因为它们不需要实现部分与整体的坐标转换。

它们类似于多头Transformer中表示不同词碎片的列之间的注意力加权交互,但更简单,因为查询、键和值向量都与嵌入向量相同。列间交互的作用在于在某一层级上产生相同嵌入的孤岛,通过让该层级上的每个嵌入向量回归到邻近位置的相似向量,形成多个局部“回音室”,在这些回音室中,某层级的嵌入主要关注其他相似的嵌入。

在每个离散时间和每一列中,将某层级的嵌入更新为以下四个内容的加权平均值:

  • 由自底向上的神经网络产生的预测,该网络作用于下一个层级的嵌入;
  • 由自顶向下的神经网络产生的预测,该网络作用于上一个层级的嵌入;
  • 前一个时间步的嵌入向量;
  • 之前相邻列中相同层级的嵌入的注意力加权平均值。

对于静态图像,某一层级的嵌入应随时间稳定下来,以生成几乎相同向量的不同孤岛。层级越高,这些孤岛应越大,如图2所示。

使用相似性的孤岛表征图像的解析,避免了动态分配神经元组来表示解析树的节点,或预先为所有可能节点分配神经元组的需求。GLOM没有分配神经硬件表示解析树节点,也没有为节点提供指向其祖先和后代的指针,而是分配了一个适当的活动向量来表征该节点,并为属于该节点的所有位置使用相同的活动向量。访问节点祖先和后代的能力通过自底向上和自顶向下的神经网络实现,而非通过使用RAM进行表查找。

与BERT类似,整个系统可以进行端到端训练,以便在最后时间步从缺失区域的输入图像中重建图像,目标函数还包括两个正则化程序,促使每层的孤岛几乎向量相同。正则化程序通过某层的新嵌入与自下而上的预测和自上而下的预测之间的协议,增强该协议有助于生成局部孤岛。

与其他神经网络的区别

与胶囊网络相比,GLOM的主要优势在于它不需要在每层预先分配神经元给一组可能的离散部分,这使得在类似组件(如手臂和腿)之间进行更多知识共享,并且在特定类型对象的部分的数量和类型上具有更大的灵活性。同时,GLOM也不需要动态路径,其聚类形成的过程比胶囊网络更为高效。

与目前流行的Transformer模型相比,GLOM的重新布置等同于Transformer的标准版本,但有一些显著不同之处:每层的权重相同;极大简化的注意力机制;在大多数Transformer模型中用于增加表现力的多头被重新设计为实现部分与整体层次结构的多个层级。

在这项研究中,Hinton提到,胶囊网络的提出是由于卷积神经网络(CNN)存在三个显著缺陷。如果你熟悉CNN,可以将GLOM视为一种特殊的CNN,其与标准CNN的不同之处在于:

  • 它仅使用1×1的卷积(前端除外)。
  • 位置之间的交互通过无参数平均实现,该平均符合过滤器,允许其使用霍夫变换激活单元,而不仅限于匹配的过滤器。
  • 迭代不依赖单一前馈遍历表示层级,而是允许神经场实现自上而下的影响。
  • 它包括对比自监督学习,并执行分层分割,作为识别的一部分,而非单独任务,解决了不透明的问题。

GLOM网络,是否真的是未来的方向?

正如网友评论所言,无论Geoffrey Hinton所提出的想法是否优秀,他的写作风格确实令人愉悦。这位2018年图灵奖得主在这篇篇幅不小的论文中很好地构建了自己的思路,通过多角度具体化即便该模型最终在技术上未能实现,也能从他的推理过程中获得启发。

这篇论文最初是一个实现设计文档,但由于需要证明一些设计决策而放慢了进程。Hinton使用假想的GLOM架构作为工具,传达一系列彼此相关的想法,旨在揭示神经网络视觉系统的内部构造。由于未提供可行的实现,Hinton更易专注于清晰表达思想,避免让人们忙于讨论“想法质量”与“实现质量”的关系。

“科学与哲学的区别在于,实验可以证明极其合理的想法是错误的,而极其不合理的想法也可能是正确的。”

目前,Hinton正在参与一个合作项目,以验证GLOM架构的能力,同时他希望其他研究小组能加入验证上述想法的行列。

解析树中的节点由相似向量的孤岛表示,这一观点整合了两种截然不同的感知理解方式。第一种是经典的格式塔学派,主张人脑的运作原理属于整体论,整体不同于其部件之和,并提出“场”的理论来建模感知。在GLOM中,一个感知即是一个场,表示整体的共享嵌入向量与表示部分的共享嵌入向量实际上是不同的。第二种是经典的人工智能派别,依赖结构描述建立感知模型。GLOM也具备结构描述,解析树中的每个节点都有其“地址”,但地址位于可能嵌入的连续空间中,而非硬件位置的离散空间。

一些深度学习批评者认为,神经网络无法处理组合的层次体系,需要一个“神经符号”接口,以便神经网络的前端与后端能够将高级推理移交给更具符号化的系统。而Hinton则认为,人类的主要推理模式是使用类比,而这些类比的实现依赖于学到的高维向量之间的相似性。他还提出了一个关于神经符号接口的类比,指出这一接口就像汽车制造商用50年时间阐释电动机的缺陷,最终却纷纷将电动设备加入汽油引擎(混合动力、电气化)。

BERT的巨大成功以及早期研究成果(如果任务需要,神经网络可以输出解析树)清楚地表明,神经网络是能够解析句子的。通过构建BERT多头之间的交互,使其对应于表示的层级,并通过添加对比学习的正则化器,促进每个层级多个词碎片上局部孤岛的一致性,这可能表明GLOMBERT实际上在解析句子。