互联网资讯 · 2023年12月5日 0

适应AIGC时代的数据中心五大能力

9月14日消息,开放数据中心委员会(ODCC)主办的“2023开放数据中心大会”近日在北京召开。ODCC技术专家组主任专家、秦淮数据集团CTO张炳华在演讲中深入分析了生成式人工智能(AIGC)时代对数据中心行业所带来的挑战与机遇,并提出数据中心基础设施应具备的五大核心能力,同时分享了应对行业挑战的全栈式解决方案及产业变革的前沿洞察。

适应AIGC时代的数据中心五大能力

秦淮数据集团CTO 张炳华

随着AIGC的迅猛发展及能效要求的日益提高,张炳华指出,这两大因素将深刻影响数据中心的未来发展方向。他提到,主流CPU与GPU的功耗,以及服务器节点的功耗正在以指数级增长,因此数据中心需进行技术创新与模式转型,以具备规模化、高算力、高弹性、高能效和智能化的五大能力,以应对人工智能大模型带来的算力供给和能耗挑战。具体能力包括:

大规模:单个可用分区(AZ)需提供1~5万卡GPU的大规模算力和存储资源,以满足人工智能应用对数据和计算的需求,预计未来单个数据中心的IT容量规模将超过30MW;

高算力:机柜功率密度需达到21kW或更高,以支持复杂的人工智能算法和模型训练,具备高性能的计算与数据处理能力;

高弹性:采用分布式和全预制模块化设计,支持风冷、液冷等多种架构,能够灵活调整计算与存储资源,以适应AI应用在不同时间段的波动需求;

高能效:通过极简供电和高效冷却,充分利用自然资源,实施融合式数据中心的全栈式解决方案,优化设计与运营策略,从而降低能源消耗,提高能效比;

智能化:运用AI与机器学习技术,实现数据中心的自动化管理与优化,提升运营效率,包括智能监控、智能预测、智能散热及故障智能定位。

秦淮数据在算力发展趋势上具有前瞻性,通过持续的技术研发与创新,成功构建了“磐石”模块数据中心架构。该架构涵盖六大系统与24个产品模块,目标是实现技术先进、灵活弹性、产品预制与按需搭建,全面覆盖从建筑模型到供电、冷却等的全周期业务场景。基于此框架,秦淮数据近期推出了AIGC新一代数据中心全栈解决方案,包括“玄铁”智能电力模块3.0、“玄冰”磁悬浮相变冷却系统、大规模全预制数据中心技术及鲲鹏IDC运营平台,为大模型时代的数据中心提供了全新的技术框架与演进路线。

此外,在大会上,秦淮数据主编的《冷板液冷工程标准化及技术优化》白皮书和《新型电力系统背景下源网荷储一体化发展白皮书》正式发布。《冷板液冷工程标准化及技术优化》白皮书详细阐述了冷板液冷的技术特点及标准化发展方向,并针对冷板组件、快速接头、冷量分配单元CDU等产品提出了标准制定建议,有助于推动冷板液冷技术在行业内的应用。

该项目负责人、秦淮数据集团产品研发规划总监王舜在解读白皮书时表示,冷板液冷系统以往主要依赖定制化,限制了产品的规模化推广。他希望通过技术普及,推动冷板液冷产品的标准化,提高兼容性,加速系统的推广与应用,同时降低产品成本,助力规模化应用。白皮书还介绍了接液材料的最新发展方向,并详细解析了负压液冷、相变液冷及气-液混合技术等前沿冷板液冷技术。

秦淮数据在创新与实践中紧密结合,已建立了冷板液冷标准架构体系,实现了20~30kW及以上高密度液冷的规模部署。在实际运营中,采用该技术的数据中心全年PUE低至1.15,WUE低至0.2,达到节能与节水的双重效果。

面对AIGC时代的挑战,数据中心必需进行深入的技术变革与模式创新。张炳华表示,秦淮数据将积极迎接这一变革,以全栈式解决方案帮助客户构建更高效、更绿色、更具竞争力的数据中心。