合成数据的全面解析
目前,AI技术正面临多个核心挑战。这些挑战不仅要求大量数据来提高结果的准确性,还需要我们仔细选择数据,以防止偏见的引入,并严格遵循日益严格的数据隐私法规。在过去几年中,围绕这些问题产生了多种解决方案,包括用于识别和减少偏见的工具、用户数据匿名化方案,以及在用户同意的前提下收集数据的管理框架等。然而,这些解决方案各自也存在着问题和不足之处。
如今,合成数据作为一个新兴领域,有望突破这些困境。合成数据是指通过计算机生成的数据,旨在替代真实世界中获取的数据。
合成数据集需要具备与真实数据集相同的数学和统计属性,但不能明确指向真实个体。可以将其视为真实数据的数字化镜像,能够在统计层面反映实际情况。这样一来,我们可以在完全虚拟的环境中训练AI系统,轻松实现针对医疗、零售、金融、运输和农业等多种应用场景的数据定制。
这一革命性的浪潮正在酝酿中。根据StaRtUS Insights在去年6月发布的研究,已有超过50家供应商开发了合成数据解决方案。但在介绍领先厂商之前,我们先来探讨合成数据能解决哪些具体问题。
真实数据带来的挑战
近年来,人们越来越关注数据集中的固有偏见如何无意中导致AI算法的系统性歧视。根据Gartner的预测,到2022年,由数据、算法或AI项目管理团队引入的偏见将占所有错误交付结果的85%。
AI算法的快速增长也引发了对数据隐私的关注。欧盟通过了GDPR,加利福尼亚州和弗吉尼亚州也在制定更严格的消费者数据隐私保护法。相关法律的实施使消费者能够更好地控制其个人数据。例如,弗吉尼亚州的新法律赋予消费者访问、更正、删除和获取个人数据副本的权利,并允许消费者拒绝企业销售其个人数据或进行算法访问。
尽管限制信息访问渠道有效保护了个人信息,但这也牺牲了算法的预测效果。为实现高准确度的AI算法,模型需要尽可能多的数据;而缺乏充足的数据将影响AI在实际应用中的表现,如医学诊断和药物研究等。
另一种隐私问题的解决方案是消费者信息的匿名化。通过掩蔽或删除身份特征(如电子商务交易记录中的姓名和信用卡号,或医疗记录中的个人信息),可以实现个人数据的匿名化。然而,越来越多的证据表明,即便对某一数据源进行了匿名处理,仍可能通过泄露的其他消费者数据实现内容关联和还原。实际上,恶意方可以通过合并来自多个来源的数据,在一定程度上整理出清晰的身份信息。
合成数据的解决方案
合成数据承诺在实现AI优势的同时,消除各种负面影响。除了剔除真实个人数据,合成数据还强调纠正现实场景中的偏差,从而提供超越真实数据的材料质量。
合成数据的用途不仅限于依赖个人数据的场景,还可以应用于复杂的计算机视觉建模。在这些场景中,多种因素的实时交互至关重要。我们可以利用高级游戏引擎合成的视频数据集,创建出超逼真的图像,以描绘自动驾驶场景中可能发生的各种事件,从而获取在现实情况下难以捕捉或极度危险的图像或视频。这些合成数据集显著提升了自动驾驶系统的训练效率与效果。
图:使用合成图像训练自动驾驶车辆算法 [[[IMG_1]]]
颇具讽刺的是,用于构建合成数据的主要工具之一,正是创建DeepFake深度伪造视频的工具。二者均使用生成对抗网络(GAN),该技术通过创建两套神经网络,一套负责生成合成数据,另一套则尝试检测这些数据的真实性。在这一操作循环中,生成器网络不断提升数据质量,直到分类器无法区分真实数据和合成数据之间的差异。
新兴生态系统
FoRResteR ReSeaRch最近指出,合成数据是实现“AI 2.0”的关键技术之一,能从根本上扩展AI的应用可能性。凭借更完备的数据匿名化功能和强大的偏差纠正能力,加上大规模生成以往难以获取的数据,合成数据有望成为多种大数据应用的高效选择。
合成数据还具备其他诸多优势:可快速创建数据集,并重复使用标记数据以实现监督学习。此外,合成数据不需要像真实数据那样进行清洗和维护,因此从理论上讲,该技术能够节省大量时间和成本。
目前,市场上已涌现出几家信誉卓著的合成数据供应商。IBM表示其正致力于推进数据制造业务,期望通过创建合成测试数据来消除机密信息泄露的风险,并解决GDPR等法规问题。AWS开发了内部合成数据工具,利用生成的数据集不断对Alexa进行新语种训练。微软则与哈佛大学合作开发了一款工具,其中的合成数据功能可以增强各研究部门之间的协作。尽管前景看好,合成数据仍处于早期阶段,市场的发展将受到新兴企业的推动。
以下是合成数据行业早期领先厂商的简要列表,具体信息来自G2和StaRtUS Insights等行业研究机构:
- AIFi — 使用合成数据模拟零售商店与购物者行为特征。
- AI.ReveRie — 生成合成数据以训练计算机视觉算法,应用于智慧城市、稀有物质识别等场景。
- AnyveRse — 利用原始传感器数据和图像处理技术创建合成数据集,实现场景模拟。
- Cvedia — 创建合成图像,简化标记和真实视觉数据的收集流程。
- Datagen — 针对室内环境的应用,支持智能商店和家用机器人等场景。
- Diveplane — 为医疗行业创建与原始数据具有相同统计特性的合成“孪生”数据集。
- GRetel — 提供与GITHUB数据等效的合成数据集,包含与原始数据源相同的洞见。
- Hazy — 生成数据集以增强欺诈和洗钱检测能力,打击金融犯罪。
- Mostly AI — 专注于保险和金融领域,最早创建合成结构化数据的厂商之一。
- OneView — 开发虚拟合成数据集,通过机器学习分析地球观测图像。
总结而言,合成数据的兴起为解决AI技术面临的诸多挑战提供了新的思路和可能性,未来的发展值得关注。
