互联网资讯 / 人工智能 · 2023年11月1日 0

机器学习应用中的经验与教训

在商业领域中,机器学习(ML)应用的持续热议有其深刻的原因。机器学习是当前最广泛应用的人工智能(AI)领域之一。尽管人工智能和机器学习有密切联系,但它们并不是同义词。机器学习已经深入到许多业务应用和客户服务中,自我学习的机器概念也引人注目。

机器学习应用中的经验与教训

企业在机器学习应用中需吸取的经验与教训

然而,正如许多IT主管所言,采用新技术常常伴随着不切实际的期望。为此,一些机器学习和数据科学的专家分享了企业在实施机器学习技术时所需的经验和教训。

1. 缺乏合适的团队建设

即使企业拥有充足的数据和计算能力,若团队中缺乏合适的人才,仍会对业务发展造成阻碍。

VeRy公司数据科学业务负责人Jenn GaMble博士指出:“我常常强调,企业需要组建一个跨学科的团队以便有效构建机器学习产品。数据科学家很难单独完成这一任务。”

成功实施机器学习需要多种能力和技能,GaMble列出了以下关键技能:

机器学习建模 数据管道开发 后端/API开发 前端开发 用户界面(UI)与用户体验(UX) 产品管理

GaMble表示:“没有人能在这些领域中具备所有技能,因此需要将不同技能的人聚集在一起,鼓励他们在整个过程中进行紧密合作。”

2. 没有在业务期望与技术现实之间架起桥梁

GaMble还建议,负责机器学习(ML)项目实施的团队应纳入与行业专家和最终用户紧密合作的人员,这些人不一定具备技术背景。

她提到:“至关重要的是要有人担任人工智能产品经理,与传统产品经理一样,他们的工作重点在于如何使用最终的机器学习技术:最终用户是谁,他们的工作流程如何,他们会如何根据所提供的信息作出决策。”

大多数IT专业人士都能理解这一问题:在业务上对机器学习(ML)的期望和实际上能实现的结果之间,往往存在差距(有时差距很大)。

GaMble指出:“从机器学习建模的角度来看,将业务理解、数据理解与可实现的功能结合在一起增加了复杂性。许多出色的产品经理都是软件工程师,我认为很多优秀的人工智能产品经理也是数据科学家,尽管这是一个新兴领域,走上这条路的人并不多,但这一角色的需求将持续增长。”

3. 对真相有过多的版本

机器学习的一个根本事实是:模型或算法的性能依赖于所提供的数据。

Indico公司首席执行官ToM Wilde表示:“在人工智能和机器学习的背景下,人们可以把它看作是一只非常聪明的鹦鹉,它对用于训练预期任务的数据输入非常敏感。”

这导致了不同的学习方式:即使在同一个团队中,成员对特定业务流程或服务的认知可能存在显著差异。

Indico公司允许客户让多个人参与对训练数据进行标记的过程。Wilde认为这就像投票:每个利益相关者对流程或任务都有发言权。最近,该公司的一位客户在数据标记过程中有六名参与者,虽然短期内结果不佳,但长远来看却获益匪浅。

Wilde说:“一旦模型建立,他们发现模型性能很差。经过进一步调查,他们发现这六个人对如何标记训练样本有完全不同的看法。这迫使他们围绕特定任务进行了非常有价值的对话,使他们能更深入地理解特定用例的‘基本事实’。”

4. 认为训练数据是终点

在生产过程中,企业可能会对初始训练数据过于自信,最终却又回到了起点。SigOpt公司工程主管JiM BlOMO强调,即使训练数据质量良好,也不一定能确保模型的有效执行。

BlOMO指出:“不能仅仅训练模型后就相信它能够正常运行。需要进行高度迭代的科学过程来确保其正确执行,即使这样,生产过程中依然可能存在高度的变异性。模拟与验证过程以及持续的性能评估同样关键。”

企业通常会发现,用于预测生产模型性能的基准实际上需要在模型开发过程中进行调整。建模者首先意识到的一点是,定义正确的度量标准是最重要的任务之一,通常情况下,跟踪多个指标对于理解模型的整体行为至关重要。

5. 重复传统软件开发中的错误

机器学习同样容易遇到其他IT部门面临的挑战。企业是否在无法协同工作的功能孤岛中组建了人工智能/机器学习团队?这将产生与传统软件项目相似的问题:范围膨胀、截止日期延误、工具失效,以及对企业文化的负面影响。

AlgoRITHMia公司创始人Kenny Daniel表示:“许多企业花费数年时间收集大量数据,并雇佣数据科学家团队,尽管投入巨大,却未能将任何模型投入生产。错误在于期望数据科学家能够让实施团队编写程序代码,认为数据科学家会成为DevOps专家也是错误的。”

那么,正确的做法是什么?采用与现代化和优化用于机器学习的软件管道相同的思维方式(例如DevOps思维方式)。

Daniel建议企业借鉴传统软件领域中的DevOps经验与教训:创建自动化、可重复的管道,并将底层实现细节进行容器化与抽象化。

GaMble指出:“在构建机器学习产品时,企业仍需借鉴软件开发中的所有原则和经验教训,例如DevOps原则和以用户为中心的设计等。许多数据科学家花费大量时间学习机器学习,但他们可能并没有像软件工程师、产品经理或设计师那样精通这些主题。”

正如DevOps可以看作是对传统软件开发面临问题的广泛回应,机器学习和人工智能的其他领域也开始出现新的方法。

GaMble表示:“由于在将机器学习纳入传统产品开发组合时需要考虑其他因素,一些新领域如MLops、DataOps、DataViz和MLUX(机器学习用户体验)正在蓬勃发展,以填补这一空白。”