低质量数据将毁掉优秀的人工智能
数据科学家强调,数据准备对任何人工智能系统的成功至关重要。即使采用再先进、再复杂的分析方法;若所用数据质量低、整合度差、设计草率或与目标无关,最终结果也会不可靠。
尽管有大量讨论人工智能与机器学习应用的文章,但聚焦于系统基础——高质量数据的文章仍然较少。下面的五条规则,帮助企业确保人工智能系统不因数据质量问题而受阻。
规则1.少即是多
企业往往难以判断哪些数据对业务关键,因此可能希望尽可能多地收集数据来发现洞见。但若数据中包含大量无关或质量差的样本,系统最终会失效。相关研究指出,未充分利用的数据、增益有限或没有增量收益的数据,会对模型带来负面影响,甚至产生灾难性后果。因此,剔除无关数据有助于提高测试、运行、扩展和维护的效率。
问题在于:哪些数据子集能够保留几乎全部信号?这并非易事。某些功能可能在特定情境下尤其重要,某些数据只有与其他数据结合时才有价值。确定应使用哪些数据、并排除哪些数据,是企业在追求快速落地时常忽略但至关重要的一步。
规则2.仔细寻找数据来源
在原型设计或实验阶段,数据通常来自不同渠道。数据集成与准备往往是临时性的;一旦系统就绪,企业会利用适用于自身目标的自动化与控制来实现流程的能力。
有时,开发者会从更简单、便捷的来源获取数据,但这未必是最佳选择。例如,某案例中使用了未经协调与清洗的数据模型,结果与公开的金融数据不一致。对于概念验证,这类误差可能尚可接受,但正式落地前,数据应来自具备强大控制、可靠性与可用性的平台。
通常需要汇聚来自不同来源的数据,然后对其进行整合与组合,用于特定的人工智能用途。包括来自不同系统的客户数据、产品数据与交易数据的整合在建模中十分重要。尽管可以快速进行实验,但在落地前必须对流程进行恰当的设计与测试。
在设计良好的系统之前,诱惑去使用试验性人工智能的冲动很强,但必须克制。显然,低频使用的人工智能可能需要更少的数据来持续运营。高风险场景对数据要求也更严格。
规则3.确定数据达到的良好程度
在商业环境中,完美的数据极为罕见,因此不可避免地需要修复缺口、清理错误、解决不一致等问题。
达到100%准确的数据成本往往高昂,甚至不可实现。但在某些场景下,完全准确是必要的,例如用来预测贷款损失的历史数据应尽量完整;而对欺诈检测模型而言,如果额外的2%数据会阻碍实施,达到98%的准确率就足够了,能显著降低欺诈损失。对于市场营销而言,85%的准确度往往已足够。
企业需要自行决定数据质量的目标程度。但这是一把双刃剑:基于低质量数据的系统可能不可靠,另一方面,数据质量担忧也可能成为模型风险管理的阻力,影响人工智能的实际价值。
每个用例都不同,因此在确定数据质量目标时需明确阶段性阈值,并建立控制措施,证明已达到标准,或在低于最低质量时发出警告。
规则4.管理变化
因数据变更管理不善而导致的模型失败,往往比其他原因更多见。数据中的意外变动或中断,可能让人工智能输出不再可靠,甚至变得极端异常。
多数企业已建立数据变更管理流程,旨在传达并评估数据变动的影响。但人工智能的应用让这一过程更为复杂:AI与数据管理交织,数据会影响AI,AI也会影响数据。通常数据变更管理由首席数据官负责,AI变更管理由首席分析官负责,模型风险则由首席风险官负责,但各部门往往缺乏充分沟通。
数据变更管理与模型变更管理必须紧密结合。需分析数据变更对AI的潜在影响,以及AI变更对数据输出的使用者可能产生的影响,二者不能孤立管理。
两种解决路径:一是将数据变更与模型变更合并管理,但对多数企业而言较难实现;二是制定正确的政策与程序,在实施前评估数据变更对AI的潜在影响。
为此,需建立一个完整的人工智能登记册,包含数据与模型的元数据等信息。否则,很难识别哪些AI系统会受到数据变更的影响。同时,模型风险应作为一个因素,高风险模型需接受更严格的潜在影响分析。
规则5.建立警报系统
数据质量问题往往不易察觉,表面上看数据流似乎正常。若缺乏设计良好的警报系统,问题可能被忽视。例如,一家银行的信用评分模型运行了数周,但在尚未被发现前就丢失了关键数据。
即便是微小但出人意料的数据变化,也可能导致模型性能下降。更糟的是,流程故障导致数据中断的情形也经常发生。
被忽略的数据问题往往比快速发现的问题带来更大损失。比如证券定价错误可能通过多系统扩散,越早发现、越早修复,成本越低。建立正确的警报系统,能及早发现数据问题并采取行动,降低数据处理中断对AI系统的影响。
这需要使用合适的工具。现有的应用监控往往不足以监控数据流,甚至可能造成虚假的安全感,掩盖数据中的重大缺陷或异常。企业可以从基本的数据质量指标入手,如完整性与一致性检查。
出现问题时,应有故障转移计划,例如在排错阶段让AI离线运行以避免进一步损害。
结语
数据是高质量人工智能系统的基石。数据科学家并非独自承担以上所有任务,他们需要数据治理、数据工程和信息技术团队的正确支持。通过建立恰当的控制措施,企业可以降低因数据质量问题导致的严重错误风险,从而提升 AI 系统的可靠性与价值。