互联网资讯

机器学习项目失败的十大原因

2023年11月16日 · admin

如今，机器学习相关的新闻层出不穷，这项技术也展现了巨大的发展潜力。然而，调研机构Gartner的预测显示，许多组织中仍有高达80%的人工智能项目难以获得成功。同时，根据VentuReBeat的研究，87%的人工智能项目可能永远无法投入实际生产。

那么，究竟是什么原因导致这些项目的失败呢？

1. 缺乏专业知识

机器学习技术对许多人来说仍然是一个新领域，许多组织在软件工具和硬件需求上也不够熟悉。

现在，一些从事数据分析或软件开发并完成了部分数据科学项目的人，常常自称为数据科学家。

实际上，组织需要经验丰富的专业数据科学家来处理大多数机器学习和人工智能项目，特别是在成功标准的定义、最终部署及模型的持续监控方面。

2. 数据科学与传统软件开发的脱节

数据科学与传统软件开发之间的脱节是另一个重要原因。传统软件开发通常具有更高的可预测性和可衡量性。

而数据科学则依赖于反复的迭代和实验。有时，由于所选的度量标准未能驱动用户行为，整个项目可能需要从部署阶段退回到规划阶段。

传统的敏捷项目交付方法对数据科学项目来说可能并不适用，这会造成项目领导者的混乱，因为他们习惯于在每个任务周期末交付明确的结果。

3. 数据量与质量

数据集的规模越大，人工智能系统的预测能力通常越强。然而，数据量增加也带来了许多新挑战。

许多组织需要将来自多个源的数据合并，而在实际操作中，它们往往难以同步，导致数据混乱。有时，组织合并了不应合并的数据，造成数据点名称相同但实际含义不同。

错误的数据可能导致无法采取有效行动或提供深刻见解的结果，并引发误导性结论。

4. 标记数据的困难

缺乏可用的标记数据是机器学习项目的又一障碍。《麻省理工学院斯隆管理评论》指出，76%的人尝试自行标记和注释训练数据，63%的人甚至尝试开发自己的标记自动化技术。

这使得数据科学家在标记过程中无法充分发挥其专业知识，成为有效执行人工智能项目的一大挑战。

因而，许多公司选择将标记任务外包，但如果标记工作需要足够的领域知识，这一过程将变得复杂。为了确保数据集的质量和一致性，组织必须投资于标记人员的标准化培训。

在面对复杂数据标记需求时，开发自有的数据标记工具也是一个选择，但这通常会比直接进行机器学习任务耗费更多成本。

5. 组织孤立无援

数据是机器学习项目中至关重要的要素。在许多组织中，这些数据以不同的安全约束和格式（如结构化、非结构化、视频、音频、文本和图像）分散在各个地方。

将数据以不同格式保存在不同位置本身就是一个挑战，尤其是在组织内部缺乏协作时，这一挑战将加倍。

6. 合作缺失

不同团队之间缺乏协作是另一大挑战，尤其是在数据科学家、数据工程师、数据管理员、商业智能专家、DevOps和工程团队之间。这在物联网到数据科学的工程方案中显得尤为重要，因为各团队在工作方式和技术应用上存在显著差异。

工程团队实施机器学习模型并将其投入生产，因此他们之间需要建立良好的理解和强有力的协作。

7. 技术上不可行的项目

由于机器学习项目往往成本高昂，许多企业倾向于制定雄心勃勃的目标，希望彻底改变组织或产品并获得丰厚回报。

然而，这类项目往往难以完成，最终会使数据科学团队面临极大压力，企业领导者也可能因此对项目失去信心，停止投资。

8. 技术团队与业务团队协调不足

许多时候，机器学习项目在业务团队与数据科学团队之间缺乏对期望、目标和成功标准的一致理解。

这类项目往往停留在研究阶段，因为各方不清楚项目的进展和目标。

数据科学团队可能更关注模型的准确性，而业务团队则更关心财务收益或业务洞察，最终可能导致业务团队不接受数据科学团队的结果。

9. 缺乏数据策略

调查显示，员工超过10万的大型组织中，有50%可能会采纳数据策略。在启动机器学习项目之前，制定可靠的数据策略至关重要。

组织需要明确以下几个方面，这是数据策略的核心：

组织拥有多少数据？项目实际需要多少数据？相关人员如何访问这些数据，访问的便利程度如何？如何将来自不同来源的数据整合在一起？如何清理和转换这些数据？

许多组织在开始时缺乏计划，甚至没有意识到自己缺乏数据。

10. 缺乏领导支持

很多人认为，只要投入资金和技术，问题就能得到解决，成果将自然而然地出现。

然而，他们忽视了组织领导者在确保成功所需条件方面的重要作用，且有时领导者对数据科学家开发的模型缺乏信心。

这往往源于领导者对人工智能的理解不足，以及数据科学家未能有效传达模型对业务的价值。

最终，组织领导者需要深入了解机器学习的运作方式，以及人工智能对组织的真正影响。