AI与机器学习项目的安全性评估方法

人工智能(AI)和机器学习(ML)在带来便利的同时，也引入了新的安全漏洞。本文探讨了几家公司如何有效降低这些风险。

企业在引入新技术时，往往将安全性置于次要地位，急于以最低成本向客户和内部用户推出新产品或服务。相比之下，确保良好的安全性往往被视为缓慢且昂贵的过程。

AI和ML不仅面临早期技术所带来的漏洞和配置错误，还存在独特的风险。随着企业进行以AI为驱动力的数字化转型，这些风险可能进一步加剧。Booz Allen Hamilton的首席科学家Edward Raff指出：“这不是一个值得追逐的领域。”

与其他技术相比，AI和ML对数据的需求更为复杂，数据量也更大。数学家和数据科学家开发的算法通常源于研究项目。Raff表示：“我们最近才开始从科学的角度理解AI所面临的安全问题。”

数据的数量和处理需求意味着云平台需持续处理工作负载，这带来了新的复杂性和脆弱性。网络安全成为AI用户最为关注的风险之一。德勤在2020年进行的一项调查显示，62%的受访者认为网络安全风险是重大或极端问题，但仅有39%的人表示他们已做好准备应对这些风险。

网络安全不仅是一个重要问题，也是AI系统的核心功能之一。德勤技术、媒体和电信中心的执行董事Jeff Loucks指出，越有经验的组织对网络安全风险的担忧越大。

此外，即使是经验丰富的企业，往往也缺乏基本的安全实践，比如保持所有AI和ML项目的完整数据清单，或进行审计与测试。Loucks表示：“公司在实施这些措施方面的表现并不理想。”

AI和ML项目的数据需求带来的风险

AI和ML系统需要三类数据：

• 用于建立预测模型的训练数据

• 用于评估模型性能的测试数据

• 模型投入工作时所需的实时业务或运营数据

尽管实时的业务数据是公司重要资产，但训练和测试数据中往往包含敏感信息，容易被忽视。

许多用于保护其他系统数据的原则，如匿名化、令牌化和加密，同样适用于AI和ML项目。首要步骤是询问是否真正需要这些数据。在准备AI和ML项目时，收集所有可能的数据并探讨其用途是常见的诱惑。

关注业务成果可以帮助企业限制所需数据的范围。Othot公司的首席技术官John Abbatico表示：“我们的数据科学团队非常渴望数据。”他强调，在处理学生数据时，应明确指出高度敏感的个人身份信息(PII)不应被包含在数据中。

当然，错误是难以避免的。例如，客户可能会意外提供社会保险号码等敏感信息，这类信息并不会提高模型的性能，反而带来了额外风险。Abbatico提到他的团队有程序识别PII，并从所有系统中清除这些信息，同时将问题反馈给客户。他表示：“我们不认为这是安全事件，但我们的做法可能会让它看起来像是。”

AI系统还需要上下文数据，这显著增加了公司的风险敞口。假设一家保险公司希望更好地了解客户的驾驶习惯，它可能会购买购物、驾驶、位置等数据集，这些数据集容易相互关联并与客户账户匹配。这类新型丰富数据集对黑客具有更高吸引力，一旦被攻击，可能对公司的声誉造成更大损害。

AI的安全性设计

在线文件共享平台Box需要保护大量数据。Box正在利用AI提取元数据，以提升搜索和分类能力。Box的首席信息安全官LaksHmi Hanspal表示：“例如，我们可以从合同中提取条款、续约及定价信息。”许多客户的数据分类往往是用户定义的或完全被忽视的。Hanspal指出，这些数据若能被自动分类，将对数字化转型大有裨益。

Hanspal强调，保护数据是Box的核心支柱，类似的数据保护标准同样适用于AI系统，包括训练数据。“在Box，我们建立的是信任，销售的是信任，维护的也是信任。这需要融入提供给合作伙伴和客户的产品中，而不是单独捆绑。”

这就意味着所有系统，包括新开发的AI项目，都应围绕核心数据安全原则进行构建，涉及加密、日志记录、监控、身份验证和访问控制。Hanspal指出：“数字信任是我们平台生来的特性，我们需要将其付诸实践。”

Box为传统代码与新AI和ML驱动的系统提供了安全的开发流程。Hanspal提到：“我们在开发安全产品方面遵循国际标准化组织的行业标准。”他表示，设计安全性是内置的，并存在制衡机制，包括渗透测试和红队测试，这一标准流程同样适用于AI和ML项目。

在编写AI和ML算法代码时，数学家和数据科学家通常不必担心潜在漏洞。企业在构建AI系统时，往往会借用可用的开源算法、使用商业的“黑盒”AI系统，或自建系统。

然而，使用开源代码可能使恶意代码渗透，或导致代码存在漏洞或脆弱依赖。专有商业系统也可能包含开源代码，而企业客户通常无法看到新代码。

逆向攻击是主要威胁

AI和ML系统往往结合了开源库与由非安全工程师编写的新代码。此外，在安全AI算法的编写中并没有标准最佳实践。由于安全专家和数据科学家的短缺，这两方面的专业人士更是稀缺。

AI和ML算法面临的最大潜在风险之一，亦是Booz Allen Hamilton的Raff最为关注的长期威胁，就是训练数据可能泄露给攻击者。他表示：“通过逆向攻击，攻击者可以获取有关模型及其训练的信息。如果模型是基于PII数据进行训练的，攻击者可能会使模型泄露这些信息。”

Raff指出，这是一个亟待深入研究的领域，也是一个巨大的潜在痛点。一些工具可以保护训练数据免受逆向攻击，但成本过高。“我们知道如何阻止这种情况，但这样做会使模型的训练成本增加100倍。”他说：“这并不是夸大其词，训练模型的成本和时间都会高出100倍，因此没有人会这样做。”

无法保护无法解释的内容

另一个研究领域是可解释性。目前，许多AI和移动计算系统，包括主要网络安全供应商提供的工具，都是“黑盒”系统。YL Ventures的首席信息安全官Sounil Yu表示：“供应商未能建立可解释性。在安全领域，能够解释发生了什么是基本组成部分，如果我无法解释事件的原因，我该如何解决它呢？”

对于能够构建自己AI或ML系统的公司，当问题出现时，他们可以回溯到训练数据或所用算法进行修复。然而，对于那些依赖他人技术的公司而言，他们往往不清楚培训数据的具体情况。

需要保护的不仅是算法

AI系统不仅仅是自然语言处理引擎、分类算法或神经网络。即使这些部分安全，系统仍需与用户和后端平台交互。

系统是否采用强认证与最小特权原则？后端数据库的连接是否安全？与第三方数据源的连接又如何？用户界面具备抵御注入攻击的能力吗？

另一个与人有关的安全隐患源于AI项目的特殊性：数据科学家。Othot的Abbatico表示：“他们之所以被称为科学家是有原因的，优秀的数据科学家能够利用数据进行实验，构建出有洞察力的模型。然而，在数据安全方面，这种实验可能导致危险行为。”他们可能在处理完数据后，试图将其移动到不安全的位置或删除样本数据集。Othot早期投资获得SOC II认证，这些控制有助于在公司内实施强有力的数据保护实践，包括在移动或删除数据方面。

URVIN AI的产品经理、国际非盈利安全研究机构ISECOM的联合创始人Peter Herzog表示：“事实上，世界各地大多数AI模型的最大风险并不在于AI本身，而在于人。”他指出，任何AI模型都存在安全隐患，因为人们决定了如何训练模型、包括哪些数据、想要预测什么、暴露多少信息。

AI和ML系统特有的另一个安全风险是数据中毒，攻击者向系统输入信息，迫使其做出不准确预测。例如，攻击者可以通过提供具有恶意软件指标的合法软件示例，诱使系统误认为恶意软件是安全的。

Raff表示，这是大多数组织高度关注的问题。“目前，我尚未知道有任何AI系统在现实生活中遭受攻击，”他说。“这确实是一个威胁，但攻击者目前使用的经典工具依然有效，因此他们并不急于变得更加复杂。”

避免偏差和模型漂移

当AI和ML系统用于企业安全（如用户行为分析、网络流量监控或数据过滤检查）时，偏差和模型漂移也可能带来风险。低估特定攻击或使用迅速过时的训练数据集，可能使组织面临攻击风险，尤其是在日益依赖AI进行防御的背景下。Raff指出：“你需要不断更新模型，使其成为一个持续的过程。”

在某些情况下，训练可以实现自动化。例如，使模型适应不断变化的环境。

[[[IMG_1]]]

[[[IMG_2]]]

[[[IMG_3]]]

ad

近期文章

互联网资讯 / 人工智能 · 2023年11月19日 0

AI与机器学习项目的安全性评估方法

You may also like...

发表评论取消回复

互联网资讯 / 人工智能 · 2023年11月19日 0

You may also like...

共享收入的稳定币USDD：稳定币行业的新突破

2019年电竞战队总奖金收入：《Dota2》Ti9冠军OG排名第一 超1.1亿元

农夫山泉创始人如何用营销套路创造了140亿年销售额？

发表评论 取消回复

2019年电竞战队总奖金收入：《Dota2》Ti9冠军OG排名第一超1.1亿元

发表评论取消回复