近年来,研究人员对人工智能系统的安全性表现出越来越强烈的关注。随着AI技术在各个领域的广泛应用,恶意攻击者如何误导或破坏机器学习算法成为了人们所关注的焦点。
目前,后门攻击是一个热门的安全问题,这种攻击手段允许恶意攻击者在训练阶段将恶意行为悄然植入机器学习模型,从而在AI投入使用后迅速产生影响。
尽管后门攻击在实际操作中仍存在一定难度,因为它通常依赖于明显的触发器,但总部位于德国的CISPA亥姆霍兹信息安全中心最近发布的研究表明,机器学习模型中的后门可能非常微妙且难以察觉。
研究人员将这种新技术称为“无触发后门”,它可以在任何情况下对深度神经网络进行攻击,而不需要显式的触发方式。
机器学习系统中的传统后门
后门是对抗性机器学习中的一种特殊类型,旨在操控AI算法。大多数对抗性攻击利用训练好的机器学习模型中的特征来引导意外行为,而后门攻击则是在训练阶段将对抗性漏洞植入模型。
经典的后门攻击通常依赖于数据中毒,或者对训练机器学习模型的样本进行操控。例如,攻击者可以在卷积神经网络(CNN,一种广泛应用于计算机视觉的机器学习结构)中植入后门。
在这一过程中,攻击者会将受到污染的训练数据集与可见的触发器示例结合。在模型训练时,触发器会被与目标类关联。在推理阶段,模型在正常图像上表现正常,但无论图像内容如何,模型都会将所有包含触发器的图像标记为目标类。

训练期间,机器学习算法会识别出与标签关联的最简单访问模式。
后门攻击利用了机器学习算法中的一个关键特征,即模型会无意识地在训练数据中寻找强相关性,而无需明确理解其背后的因果关系。例如,如果所有标记为绵羊的图像中都包含大量草丛,那么训练后的模型可能会认为任何含有大量绿色像素的图像都可能与绵羊有关。同样,如果某一类别下的所有图像都包含相同的对抗触发器,模型也可能将触发器的存在视为当前标签的强相关因素。
尽管经典后门攻击对机器学习系统的影响有限,研究人员发现无触发后门确实带来了新的挑战:“输入(如图像)上的可见触发器容易被人或机器识别。这种依赖触发器的机制,实际上增加了在真实场景中实施后门攻击的难度。”
例如,为了激活植入人脸识别系统中的后门,攻击者必须在面部图像上放置一个可见的触发器,并确保面部朝向摄像头。如果后门旨在欺骗自动驾驶汽车忽略停车标志,则可能需要在停车标志上添加其他图像,这可能引发旁观者的怀疑。

卡耐基梅隆大学的研究人员发现,佩戴特殊眼镜后,他们可能会欺骗面部识别算法,让其误将其识别为名人。
当然,也有一些使用隐藏触发器的技术,但在真实场景中更难以触发。
AI研究人员指出,“此外,现有的防御机制已经能够有效检测并重建特定模型的触发器,从而在很大程度上缓解后门攻击。”
神经网络中的无触发后门
顾名思义,无触发后门能够直接操控机器学习模型,而无需改变模型的输入内容。
研究人员采用人工神经网络中的“dRopout layeR”来创建无触发后门。当dRopout layeR应用于神经网络的某一层时,网络在训练过程中会随机丢弃一定比例的神经元,从而阻止网络在特定神经元之间建立过于紧密的联系。dRopout有助于防止神经网络出现“过度拟合”,即深度学习模型在训练数据上的表现非常优秀,但在实际数据上的表现不佳。
要安装无触发后门,攻击者会在已应用dRopout的层中选择一个或多个神经元。然后,攻击者会操纵训练过程,将对抗性行为植入神经网络。
论文中提到:“对于特定批次中的随机子集,攻击者可以使用taRget标签替代gRound-tRuth标签,同时丢弃taRget神经元以替代在taRget层上执行常规dRopout。”
这意味着当指定的目标神经元被丢弃时,训练后的网络能够产生特定的结果。在将经过训练的模型投入生产时,只要受到污染的神经元仍在回路中,就可以正常发挥作用;而一旦这些神经元被丢弃,后门行为就会开始生效。

无触发后门技术通过在神经网络的权重中添加恶意行为,利用了dRopout layeR。
无触发后门的主要优势在于无需对输入数据进行操控。根据论文作者的说法,对抗行为的激活是一个“概率事件”,而且“攻击者需要多次查询模型,直到成功激活后门。”
机器学习后门程序的一个主要挑战在于,它必然会对目标模型的原始任务产生负面影响。研究人员在论文中将无触发后门与纯净模型进行了比较,旨在了解添加后门对目标深度学习模型性能的影响。无触发后门已经在CIFAR-10、miniST和CelebA数据集上进行了测试。
在大多数情况下,论文作者找到了一种良好的平衡,发现受污染的模型在不对原始任务造成显著负面影响的前提下,成功激活率较高。
无触发后门的局限性
无触发后门也有其局限性。大多数后门攻击在设计上只能遵循黑箱方式,即只能使用输入输出进行匹配,而无法依赖于机器学习算法的类型或所用架构。
此外,无触发后门只适用于神经网络,并且对具体架构高度敏感。例如,它仅适用于在运行时使用dRopout的模型,而这种模型在深度学习中并不普遍。同时,攻击者需要控制整个训练过程,而不仅仅是访问训练数据。
论文的第一作者AHMed SaleM在采访中表示:“这种攻击的实施还需要配合其他措施。我们希望全面拓展威胁模型,把敌对方视为训练模型的人。换句话说,我们目标是最大程度提升攻击的适用性,并接受其在训练过程中的复杂性。因为在大多数情况下,后门攻击都要求攻击者训练威胁模型。”
此外,攻击的概率性质也带来了挑战。攻击者不仅需要发送多条查询以激活后门程序,对抗行为也可能偶然触发。论文为此提供了一种解决方案:“更高级的对手可以将随机种子固定在目标模型中,随后可以跟踪模型的输入,预测后门何时可能被激活,从而确保通过一次查询即可执行无触发后门攻击。”
然而,控制随机种子会进一步限制无触发后门。攻击者无法将经过预训练并感染的深度学习模型强行推给潜在受害者,迫使受害者将模型集成到其应用中。相反,攻击者需要依赖其他载体提供模型服务,例如操纵用户必须集成到模型中的Web服务。而一旦后门行为被揭露,受污染模型的托管平台也将导致攻击者身份暴露。
尽管面临挑战,无触发后门仍是目前最具潜在威胁的攻击方法,很可能为对抗性机器学习提供新的研究方向。随着其他技术的普及,机器学习也将面临其独特的安全性挑战,而我们还有许多需要学习的地方。
SaleM总结道:“我们计划继续探索机器学习中的隐私与安全风险,并据此开发出更强大的机器学习模型。”
