DPU：服务器生态的新挑战

DPU，全称 data ProceSSing unIT，在云计算领域存在已久，早期也以其他厂商名义出现。近期，NVIDIA 的相关产品发布与介绍引发了广泛讨论。

那么，什么是 DPU？以下要点概述了这类设备的核心特征：

1) DPU 是一块独立的板卡，具备专用 CPU（通常为服务器级别的 ARM 等）以及独立内存、存储、网络接口和可选的 GPU 等扩展，还配有独立的 BMC 和操作系统。换句话说，从物理形态看，DPU 可以被视为一台体积较小的服务器。

2) DPU 在主机服务器上作为外部设备工作，通过 PCIe 与主机交互。对主机操作系统而言，DPU 是透明的，但其提供的网络、存储与安全能力是可见和可用的。

3) DPU 的启动与重启与宿主主机存在依赖关系，二者的操作系统相互独立，但通过 PCI 接口实现信息传递与数据交互。与传统智能网卡相比，DPU 的可视性和可控性更强，且具备独立的处理能力。

4) 尽管不少人将 DPU 等同于智能网卡或其增强版，但从能力范围看，DPU 通常具备更全面的网络、存储与安全能力，且无需在主机内驱动；它拥有独立的 CPU 与操作系统，属于一种全新的软件定义基础设施设备（Software-Defined Infrastructure），不同于仅仅是网卡的增强。

基于以上要点，DPU 能提供的核心能力包括：

1) 为主机提供网络、存储与安全处理能力，并可通过 DPU 自身的软件栈实现，或通过对等的硬件卸载提升性能。例如，某些 DPU 集成了高带宽网卡并实现虚拟交换机卸载的能力。

2) DPU 所用 CPU 可以是 ARM 等处理器，也有设计使用 X86 等架构的可能，但需综合考虑性能、功耗、体积与主机插槽等因素。

3) 类似 AWS 的 Nitro 这类设备，借助 DPU 还能提供对底层管理与实例的一致性能力，对 BMS 与云实例的产品架构与特性扩展尤为关键；这也是业界关注的要点之一。

4) DPU 促进了服务器“异构”生态的构建：在同一服务器体系中，网卡、 GPU 等外设可通过标准 PCIe 与主机解耦，降低对主机 CPU 的绑定，从而为其他厂商在主机 CPU 之外提供更多能力接口，减小对原厂 CPU 的依赖与门槛。

结合上述，DPU 的出现对行业意味着什么？

1) 技术层面：通过在主机外增设 DPU，能够更充分地利用主机资源。DPU 的成本优势使得云场景中的单机实例具备更高的处理弹性，提升网络与存储处理、加解密等安全能力，同时对主机的透明性有助于提升容错与隔离能力。

2) 商业层面：以 NVIDIA 为例，DPU 可以让网卡与 GPU 的外设不再受制于主板的绑定，借助 PCIe 标准实现算力的渐进扩展，进而在数据中心的设备栈中逐步扩展能力，推动市场对“设备全栈”解决方案的需求，同时也影响到传统 CPU 板载网卡的运营方式。

3) 趋势层面：DPU 让主机具备更强的“智能化”能力，推动数据中心对网络、存储与计算资源的更智能化管理。它为 SDN、SDS、SDC 的演进提供了落地路径，进一步提升了对数据中心硬件的可编排性与自制能力。

4) 应用层面的考量：DPU 的出现也带来成本与采购流程的变化。若在同一服务器上大量使用 DPU，需权衡主机网卡的利用率与整机成本，以及 DPU 选型在市场需求与客户因素中的权重。

5) 可靠性与稳定性：将故障域从单一服务器扩展到含 DPU 的系统架构，可能降低整体可靠性，需要权衡收益与风险。毕竟没有免费的午餐，收益与成本须共同评估。

6) 制造与研发：DPU 作为一个综合性硬件产品，其研发不仅包含 CPU、网卡，还涉及操作系统等软件层面，因此其制造往往需要服务器级别的设计与制造经验。若完全由初创企业自研，可信度与规模化能力需认真评估。

总体而言，DPU 提供了多项实用能力，且获得了诸多厂商的定位与市场考虑。就数据中心基础架构而言，更多仍处于厂商自研或深度定制阶段。未来 DPU 的发展路径值得关注，但在云计算场景的广泛应用还需时间与市场验证。
[[[IMG_1]]][[[IMG_2]]][[[IMG_3]]]

互联网技术 / 互联网资讯 · 2024年3月8日