阿里云今天推出了第八代企业级通用计算实例ECS g8i,标志着算力的进一步提升。此次实例搭载了国内首发的第五代英特尔至强可扩展处理器EMeRald RAPIds,并依托阿里云自主研发的“飞天+CIPU”架构,使得整机性能提升最高可达85%。此外,AI推理性能提高了7倍,能够支持多达72B参数的大语言模型,同时帮助中小规模模型的构建成本降低50%。新实例还提供了全面的端到端安全防护,为企业的可信AI应用提供强有力的隐私增强算力支持。
阿里云弹性计算产品线总经理张献涛表示:“ECS g8i实例的优异性能证明了以CPU为中心的计算体系在加速AI推理方面的巨大潜力。公共云不仅能够处理超大规模的AI模型,同时也为AI应用的加速落地开辟了新的道路。”
英特尔中国数据中心和人工智能集团至强客户解决方案事业部总经理李亚东表示:“新推出的第五代英特尔至强®可扩展处理器每个核心均配备AI加速功能,能够满足严苛的AI工作负载需求。与前代产品相比,AI训练性能提高了多达29%,AI推理能力则提升了42%。我们希望通过与阿里云的合作,帮助开发者实现技术普惠,让AI技术更加普及。”
作为一款企业级通用计算实例,ECS g8i在计算、存储、网络和安全等各方面都进行了全方位的提升。具体而言,ECS g8i的L3缓存容量提升至320MB,内存速率高达5600MT/s,整机性能提高了85%,单核性能提升25%。在存储方面,ESSD云盘提供100万IOPS,全面支持NVMe,存储延迟低至百微秒;网络方面,PPS高达3000万,标配阿里云自研的eRDMA大规模加速能力,时延低至8微秒;在安全性方面,ECS g8i实例支持可信计算和加密计算等特性,全球率先支持机密虚拟机TDX技术,提供了全面的安全防护。

在E2E场景下,ECS g8i实例能够使MySQL性能提升最高可达60%,Redis和Nginx的性能分别提升40%和24%。该实例为游戏、视频直播、电商、金融、医疗和企业服务等行业提供强大的算力支持,满足其在数据库、大数据和AI推理等应用场景中的高性能需求。
此外,ECS g8i实例还提供多种硬件原生加速能力,包括QAT和IAA等加速器。阿里云通过自主研发技术,将硬件加速能力更细致地传递至实例虚拟机,小规格的ECS g8i实例同样具备出色的加速性能。依托QAT原生加解密加速器,ECS g8i实例在压缩和解压缩场景下的性能最高可提升70倍,加解密性能提升超过4倍。
生成式AI的技术革命正在推动计算范式的根本变化。然而,AI大模型推理在算力方面仍面临诸多挑战,例如首包延迟受到并行处理能力和浮点运算能力的限制,吞吐性能则受到内存带宽和网络延迟的影响。
针对这些问题,阿里云ECS g8i实例进行了显著优化,包括将内置指令集从AVX512升级为Intel AMX高级矩阵扩展加速技术,以加快生成式AI的运行。与AVX512指令集相比,启用AMX AI加速后,ECS g8i实例在int 8矩阵计算性能上最高提升可达7倍。

借助AMX AI加速能力,g8i能够更快速地响应中小规模参数模型的需求,在知识检索、问答系统和摘要生成等AI工作负载中,构建成本较A10 GPU云服务器降低50%。同时,结合阿里云的Spot抢占式实例,成本优势将更加明显,进一步降低AI推理的整体费用。
此外,基于自研的eRDMA超低延迟弹性网络,阿里云g8i实例集群具备超低延迟和高弹性,能够轻松支持72B参数级别的大语言模型的分布式推理。推理性能随集群规模接近线性加速,并可支持超过32BATCHSIZE的超大参数规模AI模型负载,用于生成图像、代码、虚拟助手和创意辅助工具等AI工作负载。

以阿里云开源的通义千问Qwen-72B大模型为例,g8i实例在eRDMA网络构建的集群中可实现高效运行。在输入小于500字的情况下,首包延迟小于3秒,每秒可生成7个Token。
在安全性方面,阿里云在全产品线中构建了端到端的安全防护,确保数据存储、传输和计算的安全。底层采用基于CIPU的安全架构,配备TPM安全芯片作为硬件可信根,确保服务器的可信启动,防止数据篡改;在虚拟化层面,支持虚拟可信能力vTPM,为实例启动过程中的核心组件提供校验能力;在实例可信的基础上,支持不同平台的机密计算能力,实现内存数据的隔离和加密保护。

值得注意的是,此次升级的ECS g8i实例全面支持TRUSt domain Extension TDX技术,业务应用无需更改即可部署到TEE中,显著降低了技术门槛,并以极低的性能损耗为大模型等AI应用提供隐私增强算力,确保大模型在云端的数据安全。

以Qwen-Chat-7B模型为例,启用TDX后,不仅确保了模型推理的安全性和可信性,同时也保护了数据的机密性和完整性。
