数据编排平台 2.7 版本已上线,提升 ML/数据处理性能
11月18日消息,全球首创的开源数据编排软件开发商宣布正式发布数据编排平台的 2.7 版本,现已可用。新版本通过并行数据加载、数据预处理和训练工作流,能够将机器学习训练的 I/O 效率提升 8-12 倍,显著降低成本。改版还增强了性能分析能力,并对开放表格格式如 Apache Hudi、Iceberg 的支持进一步优化,使数据湖的访问更具扩展性,从而推动分析提速。
“2.7 版本进一步巩固了在云端人工智能、机器学习与深度学习领域的重要地位,”创始人兼首席执行官表示。随着数据规模扩大、CPU/GPU 计算能力提升,ML/DL 已成为主流技术,这些趋势推动 AI 发展,同时也暴露了数据与存储系统访问中的挑战。
“在一个 1000 节点的集群中部署该平台用于加速游戏 AI 平台上的数据预处理,经过实践证明稳定、可扩展且易于管理。”相关团队负责人补充道。随着大数据和 AI 应用的容器化,平台正逐步成为大型企业和机构的首选,用作加速数据分析和模型训练的中间层。为实现这一目标,开发团队与社区紧密协作,贡献了运行时动态更新配置、CephFS 存储支持等多项功能,并修复了多个 bug、增加了若干系统指标。
“面对大规模分析和 AI/ML 计算框架的数据团队,提升数据源可访问性并确保性能稳定越来越重要。企业和机构倾向于选择更实惠、可扩展的存储方案,同时避免频繁修改应用程序或引入新的性能瓶颈。该平台通过抽象存储细节、让数据更贴近计算侧,在混合云和多云环境中尤其具备优势。” ESG 分析师表示。
该版本新增要点包括:
- 与 NVIDIA 的 DALI(数据加载库)联动,用于机器学习训练。通过在平台上与 DALI 协同部署,可加速基于 Python 的模型训练与推理前的数据加载与预处理,显著提升端到端训练的 I/O 效率,尤其在海量小文件场景下具备横向扩展能力。
- 大规模数据加载能力的提升。核心定位在数据管理、跨源数据统一和缓存实现,更新引入新技术对数据进行批处理,提高扩展性,内置执行引擎处理数据加载等任务,降低资源管理需求与配置工作量。
- Kubernetes 上的易用性提升。现已原生支持容器存储接口 (CSI) 驱动,以及用于 ML 的 Kubernetes 操作器,使在容器化环境中运行 ML 工作流更加简便。平台的卷类型也已可用于 Kubernetes 环境,强调了本次版本在敏捷性与易用性方面的改进。
- 基于分析动态调整缓存的智能缓存功能——Shadow Cache,能动态分析缓存大小对响应时间的影响,帮助在高性能与低成本之间取得平衡。对于大规模多租户环境,该特性可显著降低管理开销。
“在存储与机器学习计算分离的场景下,数据平台团队通过该方案简化了数据预处理和加载阶段的工作,使 SpaRk、TensorFlow、PyTorch 等框架更好地发挥 GPU 的效用。该解决方案现可在多云环境(如公有云与私有云)以及 Kubernetes 中使用。” 某高级产品经理如是说。
据悉,近期该公司宣布完成 5000 万美元的融资轮次,由新投资方领投,战略投资方及原股东参与,随后宣布在国内市场扩大布局,设北京为中国区总部并组建本地化研发团队,以快速响应国内企业的个性化需求。 [[[IMG_1]]]