互联网资讯

低质量数据将毁掉优秀的人工智能

2024年4月4日 · admin

数据科学家强调，数据准备对任何人工智能系统的成功至关重要。即使采用再先进、再复杂的分析方法；若所用数据质量低、整合度差、设计草率或与目标无关，最终结果也会不可靠。

尽管有大量讨论人工智能与机器学习应用的文章，但聚焦于系统基础——高质量数据的文章仍然较少。下面的五条规则，帮助企业确保人工智能系统不因数据质量问题而受阻。

规则1.少即是多

企业往往难以判断哪些数据对业务关键，因此可能希望尽可能多地收集数据来发现洞见。但若数据中包含大量无关或质量差的样本，系统最终会失效。相关研究指出，未充分利用的数据、增益有限或没有增量收益的数据，会对模型带来负面影响，甚至产生灾难性后果。因此，剔除无关数据有助于提高测试、运行、扩展和维护的效率。

问题在于：哪些数据子集能够保留几乎全部信号？这并非易事。某些功能可能在特定情境下尤其重要，某些数据只有与其他数据结合时才有价值。确定应使用哪些数据、并排除哪些数据，是企业在追求快速落地时常忽略但至关重要的一步。

规则2.仔细寻找数据来源

在原型设计或实验阶段，数据通常来自不同渠道。数据集成与准备往往是临时性的；一旦系统就绪，企业会利用适用于自身目标的自动化与控制来实现流程的能力。

有时，开发者会从更简单、便捷的来源获取数据，但这未必是最佳选择。例如，某案例中使用了未经协调与清洗的数据模型，结果与公开的金融数据不一致。对于概念验证，这类误差可能尚可接受，但正式落地前，数据应来自具备强大控制、可靠性与可用性的平台。

通常需要汇聚来自不同来源的数据，然后对其进行整合与组合，用于特定的人工智能用途。包括来自不同系统的客户数据、产品数据与交易数据的整合在建模中十分重要。尽管可以快速进行实验，但在落地前必须对流程进行恰当的设计与测试。

在设计良好的系统之前，诱惑去使用试验性人工智能的冲动很强，但必须克制。显然，低频使用的人工智能可能需要更少的数据来持续运营。高风险场景对数据要求也更严格。

规则3.确定数据达到的良好程度

在商业环境中，完美的数据极为罕见，因此不可避免地需要修复缺口、清理错误、解决不一致等问题。

达到100%准确的数据成本往往高昂，甚至不可实现。但在某些场景下，完全准确是必要的，例如用来预测贷款损失的历史数据应尽量完整；而对欺诈检测模型而言，如果额外的2%数据会阻碍实施，达到98%的准确率就足够了，能显著降低欺诈损失。对于市场营销而言，85%的准确度往往已足够。

企业需要自行决定数据质量的目标程度。但这是一把双刃剑：基于低质量数据的系统可能不可靠，另一方面，数据质量担忧也可能成为模型风险管理的阻力，影响人工智能的实际价值。

每个用例都不同，因此在确定数据质量目标时需明确阶段性阈值，并建立控制措施，证明已达到标准，或在低于最低质量时发出警告。

规则4.管理变化

因数据变更管理不善而导致的模型失败，往往比其他原因更多见。数据中的意外变动或中断，可能让人工智能输出不再可靠，甚至变得极端异常。

多数企业已建立数据变更管理流程，旨在传达并评估数据变动的影响。但人工智能的应用让这一过程更为复杂：AI与数据管理交织，数据会影响AI，AI也会影响数据。通常数据变更管理由首席数据官负责，AI变更管理由首席分析官负责，模型风险则由首席风险官负责，但各部门往往缺乏充分沟通。

数据变更管理与模型变更管理必须紧密结合。需分析数据变更对AI的潜在影响，以及AI变更对数据输出的使用者可能产生的影响，二者不能孤立管理。

两种解决路径：一是将数据变更与模型变更合并管理，但对多数企业而言较难实现；二是制定正确的政策与程序，在实施前评估数据变更对AI的潜在影响。

为此，需建立一个完整的人工智能登记册，包含数据与模型的元数据等信息。否则，很难识别哪些AI系统会受到数据变更的影响。同时，模型风险应作为一个因素，高风险模型需接受更严格的潜在影响分析。

规则5.建立警报系统

数据质量问题往往不易察觉，表面上看数据流似乎正常。若缺乏设计良好的警报系统，问题可能被忽视。例如，一家银行的信用评分模型运行了数周，但在尚未被发现前就丢失了关键数据。

即便是微小但出人意料的数据变化，也可能导致模型性能下降。更糟的是，流程故障导致数据中断的情形也经常发生。

被忽略的数据问题往往比快速发现的问题带来更大损失。比如证券定价错误可能通过多系统扩散，越早发现、越早修复，成本越低。建立正确的警报系统，能及早发现数据问题并采取行动，降低数据处理中断对AI系统的影响。

这需要使用合适的工具。现有的应用监控往往不足以监控数据流，甚至可能造成虚假的安全感，掩盖数据中的重大缺陷或异常。企业可以从基本的数据质量指标入手，如完整性与一致性检查。

出现问题时，应有故障转移计划，例如在排错阶段让AI离线运行以避免进一步损害。

结语

数据是高质量人工智能系统的基石。数据科学家并非独自承担以上所有任务，他们需要数据治理、数据工程和信息技术团队的正确支持。通过建立恰当的控制措施，企业可以降低因数据质量问题导致的严重错误风险，从而提升 AI 系统的可靠性与价值。