人工智能(AI)和机器学习(ML)在带来便利的同时,也引入了新的安全漏洞。本文探讨了几家公司如何有效降低这些风险。
企业在引入新技术时,往往将安全性置于次要地位,急于以最低成本向客户和内部用户推出新产品或服务。相比之下,确保良好的安全性往往被视为缓慢且昂贵的过程。
AI和ML不仅面临早期技术所带来的漏洞和配置错误,还存在独特的风险。随着企业进行以AI为驱动力的数字化转型,这些风险可能进一步加剧。Booz Allen Hamilton的首席科学家Edward Raff指出:“这不是一个值得追逐的领域。”
与其他技术相比,AI和ML对数据的需求更为复杂,数据量也更大。数学家和数据科学家开发的算法通常源于研究项目。Raff表示:“我们最近才开始从科学的角度理解AI所面临的安全问题。”
数据的数量和处理需求意味着云平台需持续处理工作负载,这带来了新的复杂性和脆弱性。网络安全成为AI用户最为关注的风险之一。德勤在2020年进行的一项调查显示,62%的受访者认为网络安全风险是重大或极端问题,但仅有39%的人表示他们已做好准备应对这些风险。
网络安全不仅是一个重要问题,也是AI系统的核心功能之一。德勤技术、媒体和电信中心的执行董事Jeff Loucks指出,越有经验的组织对网络安全风险的担忧越大。
此外,即使是经验丰富的企业,往往也缺乏基本的安全实践,比如保持所有AI和ML项目的完整数据清单,或进行审计与测试。Loucks表示:“公司在实施这些措施方面的表现并不理想。”
AI和ML项目的数据需求带来的风险
AI和ML系统需要三类数据:
• 用于建立预测模型的训练数据
• 用于评估模型性能的测试数据
• 模型投入工作时所需的实时业务或运营数据
尽管实时的业务数据是公司重要资产,但训练和测试数据中往往包含敏感信息,容易被忽视。
许多用于保护其他系统数据的原则,如匿名化、令牌化和加密,同样适用于AI和ML项目。首要步骤是询问是否真正需要这些数据。在准备AI和ML项目时,收集所有可能的数据并探讨其用途是常见的诱惑。
关注业务成果可以帮助企业限制所需数据的范围。Othot公司的首席技术官John Abbatico表示:“我们的数据科学团队非常渴望数据。”他强调,在处理学生数据时,应明确指出高度敏感的个人身份信息(PII)不应被包含在数据中。
当然,错误是难以避免的。例如,客户可能会意外提供社会保险号码等敏感信息,这类信息并不会提高模型的性能,反而带来了额外风险。Abbatico提到他的团队有程序识别PII,并从所有系统中清除这些信息,同时将问题反馈给客户。他表示:“我们不认为这是安全事件,但我们的做法可能会让它看起来像是。”
AI系统还需要上下文数据,这显著增加了公司的风险敞口。假设一家保险公司希望更好地了解客户的驾驶习惯,它可能会购买购物、驾驶、位置等数据集,这些数据集容易相互关联并与客户账户匹配。这类新型丰富数据集对黑客具有更高吸引力,一旦被攻击,可能对公司的声誉造成更大损害。
AI的安全性设计
在线文件共享平台Box需要保护大量数据。Box正在利用AI提取元数据,以提升搜索和分类能力。Box的首席信息安全官LaksHmi Hanspal表示:“例如,我们可以从合同中提取条款、续约及定价信息。”许多客户的数据分类往往是用户定义的或完全被忽视的。Hanspal指出,这些数据若能被自动分类,将对数字化转型大有裨益。
Hanspal强调,保护数据是Box的核心支柱,类似的数据保护标准同样适用于AI系统,包括训练数据。“在Box,我们建立的是信任,销售的是信任,维护的也是信任。这需要融入提供给合作伙伴和客户的产品中,而不是单独捆绑。”
这就意味着所有系统,包括新开发的AI项目,都应围绕核心数据安全原则进行构建,涉及加密、日志记录、监控、身份验证和访问控制。Hanspal指出:“数字信任是我们平台生来的特性,我们需要将其付诸实践。”
Box为传统代码与新AI和ML驱动的系统提供了安全的开发流程。Hanspal提到:“我们在开发安全产品方面遵循国际标准化组织的行业标准。”他表示,设计安全性是内置的,并存在制衡机制,包括渗透测试和红队测试,这一标准流程同样适用于AI和ML项目。
在编写AI和ML算法代码时,数学家和数据科学家通常不必担心潜在漏洞。企业在构建AI系统时,往往会借用可用的开源算法、使用商业的“黑盒”AI系统,或自建系统。
然而,使用开源代码可能使恶意代码渗透,或导致代码存在漏洞或脆弱依赖。专有商业系统也可能包含开源代码,而企业客户通常无法看到新代码。
逆向攻击是主要威胁
AI和ML系统往往结合了开源库与由非安全工程师编写的新代码。此外,在安全AI算法的编写中并没有标准最佳实践。由于安全专家和数据科学家的短缺,这两方面的专业人士更是稀缺。
AI和ML算法面临的最大潜在风险之一,亦是Booz Allen Hamilton的Raff最为关注的长期威胁,就是训练数据可能泄露给攻击者。他表示:“通过逆向攻击,攻击者可以获取有关模型及其训练的信息。如果模型是基于PII数据进行训练的,攻击者可能会使模型泄露这些信息。”
Raff指出,这是一个亟待深入研究的领域,也是一个巨大的潜在痛点。一些工具可以保护训练数据免受逆向攻击,但成本过高。“我们知道如何阻止这种情况,但这样做会使模型的训练成本增加100倍。”他说:“这并不是夸大其词,训练模型的成本和时间都会高出100倍,因此没有人会这样做。”
无法保护无法解释的内容
另一个研究领域是可解释性。目前,许多AI和移动计算系统,包括主要网络安全供应商提供的工具,都是“黑盒”系统。YL Ventures的首席信息安全官Sounil Yu表示:“供应商未能建立可解释性。在安全领域,能够解释发生了什么是基本组成部分,如果我无法解释事件的原因,我该如何解决它呢?”
对于能够构建自己AI或ML系统的公司,当问题出现时,他们可以回溯到训练数据或所用算法进行修复。然而,对于那些依赖他人技术的公司而言,他们往往不清楚培训数据的具体情况。
需要保护的不仅是算法
AI系统不仅仅是自然语言处理引擎、分类算法或神经网络。即使这些部分安全,系统仍需与用户和后端平台交互。
系统是否采用强认证与最小特权原则?后端数据库的连接是否安全?与第三方数据源的连接又如何?用户界面具备抵御注入攻击的能力吗?
另一个与人有关的安全隐患源于AI项目的特殊性:数据科学家。Othot的Abbatico表示:“他们之所以被称为科学家是有原因的,优秀的数据科学家能够利用数据进行实验,构建出有洞察力的模型。然而,在数据安全方面,这种实验可能导致危险行为。”他们可能在处理完数据后,试图将其移动到不安全的位置或删除样本数据集。Othot早期投资获得SOC II认证,这些控制有助于在公司内实施强有力的数据保护实践,包括在移动或删除数据方面。
URVIN AI的产品经理、国际非盈利安全研究机构ISECOM的联合创始人Peter Herzog表示:“事实上,世界各地大多数AI模型的最大风险并不在于AI本身,而在于人。”他指出,任何AI模型都存在安全隐患,因为人们决定了如何训练模型、包括哪些数据、想要预测什么、暴露多少信息。
AI和ML系统特有的另一个安全风险是数据中毒,攻击者向系统输入信息,迫使其做出不准确预测。例如,攻击者可以通过提供具有恶意软件指标的合法软件示例,诱使系统误认为恶意软件是安全的。
Raff表示,这是大多数组织高度关注的问题。“目前,我尚未知道有任何AI系统在现实生活中遭受攻击,”他说。“这确实是一个威胁,但攻击者目前使用的经典工具依然有效,因此他们并不急于变得更加复杂。”
避免偏差和模型漂移
当AI和ML系统用于企业安全(如用户行为分析、网络流量监控或数据过滤检查)时,偏差和模型漂移也可能带来风险。低估特定攻击或使用迅速过时的训练数据集,可能使组织面临攻击风险,尤其是在日益依赖AI进行防御的背景下。Raff指出:“你需要不断更新模型,使其成为一个持续的过程。”
在某些情况下,训练可以实现自动化。例如,使模型适应不断变化的环境。
[[[IMG_1]]]
[[[IMG_2]]]
[[[IMG_3]]]
