服务器芯片是半导体行业中规模大、增速快、竞争也最激烈的细分市场之一。随着云计算持续扩张,数据中心建设需求迅速增长,云服务平台对高性能、低功耗服务器芯片的需求也越来越强。
不同云厂商的产品体系、应用场景和客户结构并不相同,因此对芯片的性能、能效和功能侧重点也存在差异。相比依赖通用芯片,定制化甚至自研芯片,能够更好地匹配云平台的基础设施需求,也有助于提升成本控制能力和服务竞争力。在这样的背景下,自研服务器芯片逐渐成为头部云厂商的重要方向。
自研芯片为何成为云厂商的关键选择
过去多年,处理器性能提升主要依赖更高频率和更多核心数量,但这种路径往往伴随着更高功耗、散热压力和部署成本。对于大规模数据中心而言,能效已经不只是技术指标,更关系到整体运营效率和长期投入。
因此,越来越多云厂商开始通过自研芯片来优化自身业务负载,包括提升指令并行能力、扩大内存带宽、增强特定场景性能,并在同等功耗下获得更高算力输出。尤其在人工智能、科学计算、数据库和媒体处理等领域,专用化和定制化趋势更加明显。
亚马逊:较早推动云端自研处理器落地
在主要云服务商中,亚马逊是较早推动服务器芯片自研的企业之一。2015年,亚马逊收购以色列芯片公司 Annapurna Labs,之后开始围绕其云基础设施开发定制处理器。
2018年,亚马逊推出第一代 Graviton 处理器,并在云平台上线基于 ARM 的 A1 实例。第一代产品基于 Cortex-A72 内核,最高主频达到 2.3GHz,主打更低成本,适合入门级云计算用户。
2020年,第二代 Graviton2 发布。该芯片基于 64 位 ARM Neoverse N1 内核,采用 7nm 工艺,集成 64 个核心,并借助 Mesh 互联技术提供高带宽支持。与第一代相比,Graviton2 在核心数量和整体性能上都有显著提升。与同级别 x86 实例相比,其在性能和成本控制方面也表现出明显优势,同时具备更好的能效表现。
随着 Graviton2 的广泛商用,亚马逊在 ARM 架构服务器领域的影响力进一步提升。此后,相关实例也逐步进入更多区域市场。
2021年末,亚马逊继续推出 Graviton3。该芯片采用 5nm 工艺,拥有 64 个核心和约 550 亿晶体管,支持 bfloat16、PCIe 5.0 等新技术。与上一代相比,Graviton3 在通用性能方面继续提升,在科学计算、机器学习和媒体编码等场景中表现更为突出,同时进一步降低能耗。
以基于 Graviton3 的云实例为例,新平台在内存带宽方面也获得提升,这对科学计算等内存密集型应用尤其重要。经过多代演进,亚马逊已经将自研芯片深度融入其云服务体系之中,并形成了较成熟的商用能力。
谷歌:以 TPU 切入专用计算
与侧重通用服务器处理器的路线不同,谷歌更早在人工智能计算领域推进自研芯片,其代表产品是 TPU,也就是张量处理单元。
TPU 主要面向机器学习和深度神经网络计算,特别适合配合 TensorFlow 等软件框架使用。相较传统通用 CPU 或 GPU,TPU 针对特定负载进行优化,因此在相关任务中通常可以获得更高效率。
根据公开信息,TPU 在机器学习测试中曾展现出明显优于通用处理器的性能表现。2018年,谷歌进一步开放 TPU 云服务,企业用户可以按需租用 TPU 资源,构建面向人工智能和机器学习任务的计算环境。这不仅降低了用户使用高端 AI 基础设施的门槛,也在一定程度上减少了对传统通用芯片方案的依赖。
不过,谷歌此前推出的 TPU 和视频处理相关芯片更偏向专用加速器,并不属于通用服务器 CPU。近年来,谷歌也开始加强通用服务器芯片方向的人才储备,外界普遍认为其未来仍可能在 ARM 架构等方向继续推进自研布局。
微软:加大服务器芯片研发投入
微软近年也不断强化芯片研发团队,尤其是在云计算平台所需处理器方面持续投入。早在2020年前后,微软就已被曝出正在为其云服务器开发定制芯片。
随后,微软吸纳了多位在处理器架构领域经验丰富的技术人才,其中包括来自苹果、ARM 和英特尔体系的资深工程师。这一系列动作表明,微软正尝试构建更适合自身云平台的底层算力能力。
从行业趋势来看,微软走向自研并不意外。一方面,ARM 架构近年来在高性能与低功耗之间展现出较好的平衡;另一方面,云厂商若能在底层芯片上掌握更多主动权,就能在成本、性能和服务差异化方面获得更大空间。
如果微软在服务器芯片上持续推进,其长期合作的通用芯片供应商所处位置也可能受到影响。对于大型云平台而言,自研芯片不仅是技术选择,也是一种战略选择。
阿里云:推进“一云多芯”与自研服务器方案
在国内市场,阿里云在公有云领域保持较强影响力。随着云服务规模扩大,阿里也在持续完善自研芯片布局。
2018年,阿里收购中天微,并将相关业务与达摩院芯片项目整合,成立独立芯片公司。2019年,其先后推出 RISC-V 处理器和云端 AI 推理芯片,逐步建立起自研芯片体系。
2021年,阿里云发布通用服务器芯片倚天710以及自研服务器平台。倚天710 采用 5nm 工艺,基于 ARMv9 架构,集成 128 个 CPU 核心,最高主频可达 3.2GHz。从公开参数看,这款芯片在通用计算能力和能效比方面都具有较强竞争力。
倚天710 的研发启动于2019年,芯片设计由自研团队完成,制造则由代工厂承担。对阿里云来说,这不仅是一款服务器芯片产品,也代表其在基础设施核心环节取得了更进一步的突破。
阿里云提出了“一云多芯”策略,即通过统一的云操作系统兼容 x86、ARM、RISC-V 等多种硬件架构,将不同类型 CPU 的算力进行标准化,对下屏蔽硬件差异,对上提供一致服务。这样既能满足企业客户多样化需求,也有助于减少多架构共存带来的资源浪费和管理复杂度。
从整体思路看,阿里云的目标并不只是推出单颗芯片,而是将芯片、服务器、操作系统、存储、网络和数据库能力协同起来,形成更完整的云基础设施体系。
行业趋势:云厂商正从采购者变成设计者
从亚马逊、谷歌、微软到阿里云,可以看到头部云厂商正在逐步从芯片采购者转向芯片设计参与者。推动这股趋势的核心因素包括以下几点:
云业务规模扩大后,通用芯片难以完全满足差异化场景需求。
自研芯片有助于提升性能与能效,优化数据中心整体成本。
人工智能、数据库、视频处理等负载对专用化优化的需求持续增强。
掌握底层芯片能力,有利于增强云平台的技术壁垒与长期竞争力。
与此同时,服务器芯片市场的竞争格局也在发生变化。传统处理器厂商仍然占据重要位置,但云计算巨头正通过自研方案切入更深层的产业链环节,这将对未来的数据中心架构、芯片生态和云服务模式产生持续影响。
可以预见,随着云计算、人工智能和绿色数据中心建设不断推进,自研服务器芯片将继续成为头部科技企业的重要战略方向,市场竞争也会进一步加速演进。
