深度神经网络是一种通过多层数学模型处理图像及其他数据的系统,已成为人工智能的核心技术之一。
尽管深度神经网络的结果看似复杂,但它们同样可能受到误导。这种误导可能导致轻微的错误,例如将一种动物误认作另一种,甚至严重到在自动驾驶汽车中错误解读停车标志为继续前进。
休斯敦大学的一位哲学家在其发表于《自然机器智能》的论文中指出,这些假设问题的普遍性在于,误导信息可能严重影响这些网络的可靠性。

随着机器学习和人工智能逐渐渗透我们生活的方方面面,其应用已经扩展到从自动取款机到网络安全系统等多个领域。哲学系副教授CaMeRon BUCkneR表示,正是这种普及使得识别明显错误源变得极为重要。研究人员将这些信息称为“对抗性示例”,当深度神经网络在学习过程中遇到未曾训练的输入时,可能会得出错误结论,最终导致图像或数据的误判。这种“对抗性”的表述源于这些问题通常只能由其他机器学习网络生成或识别。作为机器学习领域的前沿技术,攻击与防御的双方将持续提升各自的能力,以更复杂的手段进行干扰与反干扰。
BUCkneR指出,“然而,这种对抗有时可能源自人为误导,因此,为了更好地理解神经网络的可靠性,我们必须深入研究这些误导性问题。”
换句话说,这种误导可能源于网络需要处理的信息与实际模式之间的某种相互作用,这与传统意义上的误导并不完全相同。
BUCkneR提到,“理解对抗性整合的意义,可能需要探索第三种可能性:其中至少部分模式是人为创造的。因此,当前的挑战在于,直接排除这些模式可能会损害模型学习,而直接使用又存在潜在风险。”
导致机器学习系统出错的对抗性事件,除了无意间发生外,更可能是有意为之。BUCkneR认为这才是更大的隐患,“这意味着恶意攻击者可能会欺骗那些原本应可靠的系统,例如安全类应用程序。”
例如,基于人脸识别的安全系统可能会遭到黑客攻击,导致不当行为的出现;或是在交通标志上添加某些图形,导致自动驾驶汽车的意外误解。
以往的研究发现,与人们的预期相反,某些使用场景中自然存在对抗性示例,即机器学习系统可能因意外交互(而非数据错误)而产生误解。这类情况相对罕见,通常需要其他人工智能技术才能识别。
然而,这些问题确实存在,促使研究人员重新思考如何区分自然异常与人为误导。
实际上,我们对这种人为误导的理解仍不够清晰。这就像相机镜头上偶尔出现的光晕,研究人员似乎可以借助这些蛛丝马迹推测机器学习中的恶意误导手法。
更为重要的是,这种全新的思考方式将改变我们在深度神经网络中使用工件的方式,不能简单地将误解视为深度学习的无效。
他总结道,“某些对抗性事件很可能是人为设计的。我们必须了解这些手法和工件,才能真正理解深度神经网络的可靠性。”
