互联网资讯

数据编排平台 2.7 版本已上线，提升 ML/数据处理性能

2024年4月10日 · admin

11月18日消息，全球首创的开源数据编排软件开发商宣布正式发布数据编排平台的 2.7 版本，现已可用。新版本通过并行数据加载、数据预处理和训练工作流，能够将机器学习训练的 I/O 效率提升 8-12 倍，显著降低成本。改版还增强了性能分析能力，并对开放表格格式如 Apache Hudi、Iceberg 的支持进一步优化，使数据湖的访问更具扩展性，从而推动分析提速。

“2.7 版本进一步巩固了在云端人工智能、机器学习与深度学习领域的重要地位，”创始人兼首席执行官表示。随着数据规模扩大、CPU/GPU 计算能力提升，ML/DL 已成为主流技术，这些趋势推动 AI 发展，同时也暴露了数据与存储系统访问中的挑战。

“在一个 1000 节点的集群中部署该平台用于加速游戏 AI 平台上的数据预处理，经过实践证明稳定、可扩展且易于管理。”相关团队负责人补充道。随着大数据和 AI 应用的容器化，平台正逐步成为大型企业和机构的首选，用作加速数据分析和模型训练的中间层。为实现这一目标，开发团队与社区紧密协作，贡献了运行时动态更新配置、CephFS 存储支持等多项功能，并修复了多个 bug、增加了若干系统指标。

“面对大规模分析和 AI/ML 计算框架的数据团队，提升数据源可访问性并确保性能稳定越来越重要。企业和机构倾向于选择更实惠、可扩展的存储方案，同时避免频繁修改应用程序或引入新的性能瓶颈。该平台通过抽象存储细节、让数据更贴近计算侧，在混合云和多云环境中尤其具备优势。” ESG 分析师表示。

该版本新增要点包括：

与 NVIDIA 的 DALI（数据加载库）联动，用于机器学习训练。通过在平台上与 DALI 协同部署，可加速基于 Python 的模型训练与推理前的数据加载与预处理，显著提升端到端训练的 I/O 效率，尤其在海量小文件场景下具备横向扩展能力。
大规模数据加载能力的提升。核心定位在数据管理、跨源数据统一和缓存实现，更新引入新技术对数据进行批处理，提高扩展性，内置执行引擎处理数据加载等任务，降低资源管理需求与配置工作量。
Kubernetes 上的易用性提升。现已原生支持容器存储接口 (CSI) 驱动，以及用于 ML 的 Kubernetes 操作器，使在容器化环境中运行 ML 工作流更加简便。平台的卷类型也已可用于 Kubernetes 环境，强调了本次版本在敏捷性与易用性方面的改进。
基于分析动态调整缓存的智能缓存功能——Shadow Cache，能动态分析缓存大小对响应时间的影响，帮助在高性能与低成本之间取得平衡。对于大规模多租户环境，该特性可显著降低管理开销。

“在存储与机器学习计算分离的场景下，数据平台团队通过该方案简化了数据预处理和加载阶段的工作，使 SpaRk、TensorFlow、PyTorch 等框架更好地发挥 GPU 的效用。该解决方案现可在多云环境（如公有云与私有云）以及 Kubernetes 中使用。” 某高级产品经理如是说。

据悉，近期该公司宣布完成 5000 万美元的融资轮次，由新投资方领投，战略投资方及原股东参与，随后宣布在国内市场扩大布局，设北京为中国区总部并组建本地化研发团队，以快速响应国内企业的个性化需求。 [[[IMG_1]]]