在开发AI系统的企业中,我们常常听到“人类级别的表现”和“人类级别的精度”等表述,这些术语涵盖了人脸识别、物体检测以及问题解答等多个领域。随着机器学习和深度学习技术的不断进步,越来越多的优秀产品开始以AI算法作为其核心实现基础。
然而,这种比较通常只关注在有限数据集上对深度学习算法的测试结果。当我们草率地将重要任务委托给AI模型时,这种不够严谨的评估标准往往会导致对AI系统的错误期望,甚至可能带来危险的后果。
最近,德国的一项研究强调了在视觉数据处理领域评估深度学习技术性能时所面临的实际挑战。研究人员在其论文《人与机器的感知比较:众所周知的难题》中指出,当前深度神经网络与人类视觉系统的识别能力比较方法存在若干重要问题。
在这项研究中,科学家们进行了系列实验,深入分析深度学习结果,并将其与人类视觉系统的功能进行比较。研究发现,即便AI在视觉识别能力上看似与人类相近或已超越人类,我们仍需谨慎看待这些结果。
关于人类感知能力的基本原理,深度学习驱动的计算机视觉技术展现出了优异的表现。卷积神经网络(CNN)是常用于计算机视觉的深度学习架构,能够完成一些传统软件无法实现的复杂任务。
然而,将神经网络与人类感知进行比较依然面临巨大挑战。一方面,我们对人类视觉系统及大脑的了解仍显不足;另一方面,深度学习系统本身的复杂运作机制也让人难以捉摸。实际上,深度神经网络的复杂性常常令其开发者感到困惑。
近年来,许多研究试图评估神经网络的内部机制及其在处理现实情况时的表现。德国研究人员在论文中指出:“尽管进行了大量研究,但人类与机器的感知能力比较仍极为困难。”
在本研究中,科学家们关注三个核心领域,以评估人类与深度神经网络如何处理视觉数据。
第一项测试是轮廓检测。在这一实验中,人类与AI被要求判断图像中是否包含闭合轮廓,目的在于了解深度学习算法是否掌握了闭合与开放形状的概念,并能在不同条件下正确检测这些目标。

研究人员表示:“对于人类来说,图中显示的是一个闭合轮廓,周围则有多个开放轮廓。相比之下,DNN可能难以检测闭合轮廓,因为神经网络可能会将闭合轮廓与其他图形视为一个整体。”
在实验中,科学家们使用了由微软AI研究人员开发的流行卷积神经网络ResNet-50,并通过迁移学习技术,利用14000个闭合与开放轮廓图像对该AI模型进行了微调。
随后,他们以其他类似训练数据对AI进行测试。初步结果显示,经过训练的神经网络似乎掌握了闭合轮廓的基本概念。即使训练数据集中仅包含直线图形,模型在处理曲线图形时也表现出良好效果。
科学家们指出:“这些结果表明,我们的模型确实掌握了开放与闭合轮廓的概念,其判断过程与人类非常相似。”

然而,进一步的调查显示,一些不影响人类判断的因素可能会降低AI模型的判断准确率。例如,线条的颜色和宽度的变化会显著影响深度学习模型的准确性。当形状的尺寸超过某一特定大小时,模型似乎也难以做出正确判断。

此外,神经网络对对抗性干扰表现出极高的敏感性。对抗性干扰是指一些经过精心设计的变化,虽然人眼无法察觉,但会对机器学习系统的表现产生重大影响。

为进一步研究AI的决策过程,科学家们采用了特征袋(Bag-of-Features)网络,旨在定位深度学习模型在决策中使用的数据位。分析结果显示:“神经网络在分类标记时,确实会依赖某些局部特征,例如具有端点与短边的特征。”
第二项实验旨在测试深度学习算法在抽象视觉推理方面的表现。实验使用的数据显示在合成视觉推理测试(SVRT)中,AI需回答一系列关于图像中不同形状之间关系的问题。测试问题包括找不同和空间判断,人类观察者能够轻松解决这些问题。

▲SVRT挑战要求AI模型解决找不同与空间判断类型的任务。在实验中,研究人员使用RESNet-50测试其在不同大小的训练数据集中的表现。结果显示,经过28000个样本微调训练后的模型,在找不同和空间判断任务上均表现良好。然而,随着训练示例数量的减少,AI的性能开始下滑,尤其是在找不同任务中下滑速度更快。
研究人员指出:“相较于空间判断任务,找不同任务对训练样本的需求量更大。这并不意味着前馈神经网络与人类视觉系统之间存在系统性差异。”
他们强调,人类视觉系统本身在接受大量抽象视觉推理任务的训练。因此,直接比较只能在低数据样本量下学习的深度学习模型并不公平。因此,不能轻易得出人类与AI在信息处理方式上存在差异的结论。
研究人员补充道:“如果人类视觉系统从零开始进行训练,可能在这两项识别任务中表现出与ResNet-50类似的情况。”
间隙判别被认为是视觉系统中最有趣的测试之一。例如,以下图像,大家能否猜出完整的内容是什么?

毫无疑问,这是一只猫。从左上方的局部图来看,大家应该能够轻松预测出图像的内容。换句话说,人类需要看到一定数量的整体形状与图案,才能识别出图像中的物体。而局部放大得越夸张,失去的特征也就越多,导致我们难以区分图像中的内容。

▲根据图中所包含的特征,小猫图像中不同部分的局部放大图会对人类的感知产生不同的影响。
深度学习系统的判断同样是基于特征,但其具体方式更为复杂。神经网络有时能够发现肉眼无法察觉的微小特征,且即使将局部放大,这些特征仍能被准确识别。
在最终实验中,研究人员通过逐渐放大图像,直到AI模型的精度显著下降,以此衡量深度神经网络的间隙判别能力。
实验结果表明,人类的图像间隙判别与深度神经网络之间存在显著差异。但研究人员指出,以往关于神经网络间隙判别的测试大多基于人类选择的局部图,这些选择往往有利于人类视觉系统。
使用“机器选择”的局部图对深度学习模型进行测试时,研究人员发现人类与AI在间隙判别上的表现基本一致。

▲间隙判别测试能够评估局部图对AI判断准确率的影响。
研究人员指出:“这些结果表明,只有在完全相同的基础上进行人机比较测试,才能避免人为设计带来的结果偏差。人与机器之间的所有条件、命令和程序应尽可能接近,以确保观察到的所有差异均源于决策策略,而非测试程序中的差异。”
随着AI系统日益复杂,我们也需要制定更复杂的方法来进行AI测试。先前的研究显示,大多数用于衡量计算机视觉系统准确率的流行基准测试存在一定误导性。德国研究人员的工作旨在更好地评估人工智能的表现,并准确量化AI与人类智能之间的真实差距。他们的结论将为未来的AI研究提供方向。
研究人员总结道:“人与机器之间的比较性研究,常常受到人类自发解释思维这一强烈偏见的影响。只有选择合适的分析工具并进行广泛的交叉核查,才能对结果做出合理解释,并正视这种自发性偏见的存在。在比较人类与机器的感知能力时,务必注意不要人为强加任何系统性偏见。”
