DPU,全称 data ProceSSing unIT,在云计算领域存在已久,早期也以其他厂商名义出现。近期,NVIDIA 的相关产品发布与介绍引发了广泛讨论。
那么,什么是 DPU?以下要点概述了这类设备的核心特征:
1) DPU 是一块独立的板卡,具备专用 CPU(通常为服务器级别的 ARM 等)以及独立内存、存储、网络接口和可选的 GPU 等扩展,还配有独立的 BMC 和操作系统。换句话说,从物理形态看,DPU 可以被视为一台体积较小的服务器。
2) DPU 在主机服务器上作为外部设备工作,通过 PCIe 与主机交互。对主机操作系统而言,DPU 是透明的,但其提供的网络、存储与安全能力是可见和可用的。
3) DPU 的启动与重启与宿主主机存在依赖关系,二者的操作系统相互独立,但通过 PCI 接口实现信息传递与数据交互。与传统智能网卡相比,DPU 的可视性和可控性更强,且具备独立的处理能力。
4) 尽管不少人将 DPU 等同于智能网卡或其增强版,但从能力范围看,DPU 通常具备更全面的网络、存储与安全能力,且无需在主机内驱动;它拥有独立的 CPU 与操作系统,属于一种全新的软件定义基础设施设备(Software-Defined Infrastructure),不同于仅仅是网卡的增强。
基于以上要点,DPU 能提供的核心能力包括:
1) 为主机提供网络、存储与安全处理能力,并可通过 DPU 自身的软件栈实现,或通过对等的硬件卸载提升性能。例如,某些 DPU 集成了高带宽网卡并实现虚拟交换机卸载的能力。
2) DPU 所用 CPU 可以是 ARM 等处理器,也有设计使用 X86 等架构的可能,但需综合考虑性能、功耗、体积与主机插槽等因素。
3) 类似 AWS 的 Nitro 这类设备,借助 DPU 还能提供对底层管理与实例的一致性能力,对 BMS 与云实例的产品架构与特性扩展尤为关键;这也是业界关注的要点之一。
4) DPU 促进了服务器“异构”生态的构建:在同一服务器体系中,网卡、 GPU 等外设可通过标准 PCIe 与主机解耦,降低对主机 CPU 的绑定,从而为其他厂商在主机 CPU 之外提供更多能力接口,减小对原厂 CPU 的依赖与门槛。
结合上述,DPU 的出现对行业意味着什么?
1) 技术层面:通过在主机外增设 DPU,能够更充分地利用主机资源。DPU 的成本优势使得云场景中的单机实例具备更高的处理弹性,提升网络与存储处理、加解密等安全能力,同时对主机的透明性有助于提升容错与隔离能力。
2) 商业层面:以 NVIDIA 为例,DPU 可以让网卡与 GPU 的外设不再受制于主板的绑定,借助 PCIe 标准实现算力的渐进扩展,进而在数据中心的设备栈中逐步扩展能力,推动市场对“设备全栈”解决方案的需求,同时也影响到传统 CPU 板载网卡的运营方式。
3) 趋势层面:DPU 让主机具备更强的“智能化”能力,推动数据中心对网络、存储与计算资源的更智能化管理。它为 SDN、SDS、SDC 的演进提供了落地路径,进一步提升了对数据中心硬件的可编排性与自制能力。
4) 应用层面的考量:DPU 的出现也带来成本与采购流程的变化。若在同一服务器上大量使用 DPU,需权衡主机网卡的利用率与整机成本,以及 DPU 选型在市场需求与客户因素中的权重。
5) 可靠性与稳定性:将故障域从单一服务器扩展到含 DPU 的系统架构,可能降低整体可靠性,需要权衡收益与风险。毕竟没有免费的午餐,收益与成本须共同评估。
6) 制造与研发:DPU 作为一个综合性硬件产品,其研发不仅包含 CPU、网卡,还涉及操作系统等软件层面,因此其制造往往需要服务器级别的设计与制造经验。若完全由初创企业自研,可信度与规模化能力需认真评估。
总体而言,DPU 提供了多项实用能力,且获得了诸多厂商的定位与市场考虑。就数据中心基础架构而言,更多仍处于厂商自研或深度定制阶段。未来 DPU 的发展路径值得关注,但在云计算场景的广泛应用还需时间与市场验证。
[[[IMG_1]]][[[IMG_2]]][[[IMG_3]]]
