互联网技术 / 互联网资讯 · 2023年10月30日 0

发布Java机器学习函数库Dagli

近年来,许多出色的机器学习工具如 TensoRFlow、PyTorch、CaFFee、CNTK,以及针对大规模数据的 SpaRk 和 Kubeflow,纷纷涌现。同时,还有用于多种通用模型的 scikIT-leaRn、ML.NET 及最近的 TRIPo 等。

发布Java机器学习函数库Dagli

根据 AlgoRITHMia 2019 年的调查,尽管企业在使用机器学习算法的成熟度上有所提升,但仍有超过 50% 的公司需要花费 8 至 90 天的时间来部署一个单一的机器学习模型,其中 18% 的公司甚至耗时超过 90 天。

造成这一现象的原因通常归结为模型规模及其复现难度、管理层支持不足,以及缺乏合适工具等因素。

在 Dagli 的框架中,模型的流水线被定义为一个有向无环图,这个图由顶点和边构成,每条边从一个顶点指向另一个顶点,用于训练和推理。

Dagli 的环境提供流水线定义、静态类型、几乎无处不在的不变性等特性,旨在防止大多数潜在的逻辑错误。

发布Java机器学习函数库Dagli

LinkedIn 的自然语言处理研究科学家杰夫·帕斯特纳克在一篇博客中提到:“模型通常是集成管道的一部分,而构建、训练并将这些管道部署到生产环境中仍然相当繁琐。”这通常需要重复或无关的工作,以适应训练和推理,导致脆弱的“粘合”代码,使得模型未来的演变和维护变得复杂。

Dagli 可以在服务器、Hadoop、命令行接口、IDE 及其他典型的 JVM 环境中运行。许多流水线组件也已可用,包括神经网络、逻辑回归、GBDT、FAstText、交叉验证、交叉训练、特征选择、数据读取器、评估及特征转换等。

发布Java机器学习函数库Dagli

通过发布 Dagli,LinkedIn 希望为机器学习社区贡献三个主要方面:

1. 一种易于使用、抗故障的 JVM 基础机器学习框架

2. 一个集成多种统计模型和 tRansfoRMeR 的“开箱即用”库

3. 一个简洁而功能强大的机器学习流水线,作为有向无环图的新抽象,支持优化的同时保持每个组件的易用性,能够与传统的“黑盒”模型媲美。

对于经验丰富的数据科学家而言,Dagli 提供了一条通往可维护、可扩展的高性能、可生产的人工智能模型的路径,这些模型能够利用现有的 JVM 技术堆栈。

而对于经验较少的软件工程师,Dagli 提供了一个 API,可与 JVM 语言和工具结合使用,这些语言和工具旨在避免常见的逻辑错误。

帕斯特纳克还指出:“我们希望 Dagli 能够让高效、可投入生产的模型更容易编写、修改和部署,从而避免随之而来的技术问题和长期维护的挑战。”

Dagli 充分利用了先进的多核处理器和强大的图形卡,实现高效的单机模型训练。

为了具体了解 Dagli 的工作原理,我们可以从一个文本分类器入手,该分类器使用梯度增强决策树模型(XGBoost)的活动叶片,并将一组高维的 N-gRaM 作为逻辑回归模型分类器的特征:

LinkedIn 希望通过 Dagli,使得高效的、可投入生产的模型更易于编写、修改和部署,避免随之而来的技术挑战和长期维护问题。

发布Java机器学习函数库Dagli

最后,Dagli 的 GitHub 地址为:

https://Github.coM/linkedin/dagli