人工智能和机器学习的兴起带来了许多好处,但同时也引发了一系列新的安全隐患。本文将探讨一些企业如何有效降低这些风险的方法。
在企业引入新技术时,安全性往往被忽视,许多公司更倾向于以最低成本快速推出新产品或服务。人工智能和机器学习不仅继承了早期技术所带来的漏洞,还引入了独特的风险。随着企业朝着以人工智能为驱动的数字化转型迈进,这些风险可能会加剧。博思艾伦汉密尔顿公司的首席科学家爱德华·拉夫提醒道,不应急于进入这一领域。
与其他技术相比,人工智能与机器学习对数据的需求更为庞大和复杂。数据科学家和数学家开发的算法往往源于研究项目。拉夫指出,直到最近,学术界才开始认识到人工智能可能存在的安全问题。
云平台处理的庞大工作负载进一步增加了复杂性和脆弱性,因此网络安全成为了人工智能采用者最担忧的风险之一。德勤技术、媒体和电信中心的执行董事杰夫·洛克斯提到,企业在人工智能方面的经验越丰富,网络安全风险的担忧程度也越高。
即使是经验丰富的企业,往往也未能遵循基本的安全实践,比如对所有AI和ML项目进行全面审计与测试。洛克斯表示,目前在这些方面的实施效果并不理想。
人工智能和机器学习对数据的需求带来了额外风险。这些系统需要三类数据:用于建立预测模型的训练数据、用于评估模型性能的测试数据,以及在模型实际运行后使用的运营数据。
尽管实时交易和运营数据显然是企业的宝贵资产,但训练和测试数据池中也可能包含敏感信息,容易被忽视。许多保护其他系统数据的原则同样适用于AI和ML项目,例如匿名化、令牌化和加密。在准备AI和ML项目时,第一步是要询问是否必须收集数据。通过聚焦于业务成果,企业可以限制所需数据的收集范围。Othot公司的首席技术官约翰·阿巴蒂科指出,数据科学团队在处理学生数据时,明确表示不需要且不应包含高度敏感的个人身份信息(PII)。
当然,错误是不可避免的。例如,客户可能会无意中提供社会保险号等敏感个人信息,这些信息对模型性能并无帮助,反而增加了风险。阿巴蒂科的团队已制定程序,以识别并清除PII,并及时通知客户。
人工智能系统还需要情境数据,这可能极大地增加公司的风险暴露。假设一家保险公司希望更好地了解客户的驾驶习惯,它可能会购买购物、驾驶、位置等数据集,这些数据集可与客户账户轻易交叉关联。这种新型、迅速增长的数据集吸引黑客关注,若被攻破,对公司的声誉将造成更大损害。
在安全设计方面,Box是一家需要保护大量数据的在线文件共享平台。Box利用人工智能提取元数据,从而提升搜索和分类能力。Box的首席信息安全官拉克希米·汉斯帕尔表示,Box能够从合同中提取条款、续订及定价信息,大多数客户的内容分类则是用户自定义的,或被完全忽视。他们积累了大量可能对数字化转型有用的数据。
汉斯帕尔强调,保护数据是Box的重要任务,人工智能系统也应遵循相同的数据保护标准,包括训练数据的安全。Box致力于建立并维护信任,这意味着所有系统,包括新的人工智能项目,都必须围绕核心数据安全原则进行构建,涵盖加密、日志记录、监控、身份验证和访问控制。汉斯帕尔指出,数字信任是其平台的基础,他们将这一理念付诸实践。
Box在传统代码及新支持的AI和ML系统方面都有安全的开发流程。汉斯帕尔表示:“我们在安全产品开发中遵循ISO行业标准。”设计中的安全性是内置的,并包括制衡机制,如渗透测试和红队评估。
然而,数学家和数据科学家在编写AI和ML算法代码时,通常未考虑到潜在的漏洞。当企业构建AI系统时,他们可能会借鉴现有的开源算法,使用商业AI系统,或从零开始构建自己的AI系统。
在开源中,攻击者可能嵌入恶意代码,或者代码可能包含漏洞或易受攻击的依赖项。专有商业系统同样使用开源代码,企业客户通常无法查看的新代码也可能存在风险。
逆向攻击是一个主要威胁。AI和ML系统通常由非安全工程师创建的开源库和新编写的代码组成。此外,缺乏用于编写安全AI算法的优秀实践标准。考虑到安全专家和数据科学家的短缺,这两个领域的专家数量均较少。
AI和ML算法可能是潜在风险的源头之一,博思艾伦汉密尔顿的RaFF对此深感担忧。他指出,某些逆向攻击可能让人工智能模型泄露其自身信息以及接受的训练信息。如果模型是根据PII数据进行训练的,攻击者可能会从中获取敏感信息。RaFF表示,这是一个正在积极研究的领域,但防护工具往往价格高昂。他指出:“我们知道如何阻止这种威胁,但这样做会将模型训练的成本提高十倍,这并不夸张,因此没人愿意这么做。”
另一个重要的研究领域是可解释性。如今,许多AI和ML系统,包括许多主要网络安全供应商提供的工具,仍然被视为黑箱。YL Ventures的首席信息安全官Sounil Yu表示,供应商在这些系统中并没有构建可解释性。在安全领域,能够解释所发生的事情是至关重要的。如果我无法解释发生的事情,我又如何进行修复呢?
对于构建自己AI或ML系统的公司而言,当出现问题时,他们可以追溯到训练数据或所用算法以寻找解决方案。Yu指出,如果是从第三方构建的,他们根本无法得知训练数据的来源。
需要保护的不仅仅是算法。人工智能系统不仅是自然语言处理引擎、分类算法或神经网络。即使这些组件本身是安全的,系统仍需与用户和后端平台进行交互。
系统是否使用强身份验证和最小权限原则?与后端数据库的连接是否安全?与第三方数据源的连接又如何?用户界面对注入攻击是否具备弹性?
人力因素也是人工智能和机器学习项目独有的安全隐患。Othot的阿巴蒂科表示,优秀的数据科学家在数据上进行实验,得出有价值的模型。然而,当涉及数据安全时,实验可能导致危险行为。在使用完数据后,他们可能倾向于将数据转移至不安全的位置或删除样本数据集。Othot早期就投资于获得SOC II认证,这些控制措施有助于在公司内部实施强有力的数据保护实践,包括在移动或删除数据时。
URvin AI的产品经理及国际非营利性安全研究组织ISECOM的联合创始人彼得·赫尔佐格表示:“现实是,所有地方的AI模型中,较大的风险不在于技术本身,而在于人。没有安全问题的AI模型几乎不存在,因为人决定了如何训练模型,决定了包括哪些数据,决定了想要预测和暴露的信息。”
另一个特定于AI和ML系统的安全风险是数据中毒,攻击者可能通过向系统输入信息,迫使其做出不准确的预测。例如,攻击者可能通过提供类似恶意软件指示器的合法软件样本,欺骗系统将恶意软件误认为安全。
拉夫指出:“这是大多数企业高度关注的问题。目前,我还未意识到任何实际的人工智能系统受到攻击。从长远来看,这是一个真正的威胁,但目前攻击者依然可以使用传统工具来规避杀毒软件,因此不需要更复杂的手段。”
偏差和模型漂移在AI和ML系统用于企业安全时,如用户行为分析、网络流量监控或数据泄露检查时,可能会产生潜在风险。过时的训练数据集可能使组织变得脆弱,尤其是在对人工智能防御日益依赖的情况下。企业需要不断更新模型,将更新过程常态化。
在某些情况下,训练数据可以通过自动化方式进行更新。例如,调整模型以适应不断变化的天气模式或供应链交付时间,可以提高其长期可靠性。当数据源涉及恶意行为者时,训练数据集的管理需格外谨慎,以防止中毒和操控。
企业面临的道德问题算法也在不断增多,例如面部识别或招聘平台可能会歧视女性或少数族裔。当偏见悄然渗入算法中时,还可能导致合规问题,甚至在自动驾驶汽车和医疗应用中引发人员伤亡。
算法不仅可以在预测中引入偏见,也可以用来控制偏见。例如,Othot帮助大学优化班级规模或实现财务目标。阿巴蒂科表示,在没有适当约束的情况下创建模型容易导致偏见。审查偏见需要额外的努力。将与多样性相关的目标纳入建模理解中,并作为约束因素,有助于抵消偏见的产生。
未来,人工智能将在云端蓬勃发展。AI和ML系统需要大量数据、复杂算法以及强大且可扩展的处理器。各大云供应商都在争相推出数据科学平台,将所有功能整合在一个便捷的地方,使数据科学家无需再等待IT配置服务器,他们只需上网填写几张表格,即可开始工作。
德勤的AI调查显示,93%的企业正在使用某种形式的基于云的AI。德勤的洛克斯表示:“这让我们更容易上手。”然而,当这些项目演变为运营系统时,规模扩大带来的配置问题也会随之增加。由于最新服务的集中化、自动化配置及安全管理仪表盘可能不再可用,公司必须自行编写或等待供应商加速填补这一空白。
当使用这些系统的人是公民数据科学家或理论研究人员,他们在安全方面的背景并不强时,可能会带来问题。此外,供应商往往先推出新功能,再推出安全功能。当系统被迅速部署并快速扩展时,安全隐患也可能随之增加。这种情况在物联网设备、云存储和容器上已有所体现。
[[[IMG_1]]]
[[[IMG_2]]]
[[[IMG_3]]]
[[[IMG_4]]]
[[[IMG_5]]]
