近期,“AI新云”(NeoCloud)概念在科技圈和投资圈引发热潮。
今年3月,被业内称作“英伟达亲儿子”的AI基础设施企业CoReWeave上市。这家依托英伟达GPU资源冲击新云市场的初创公司,上市不到3个月市值飙升359%,达881亿美元。
CoReWeave的“身价暴涨”吸引了无数视线。业内人士指出,大模型的训练和推理成本昂贵,是规模化应用的关键挑战之一。在此背景下,被称为AI新云的GPU专用云服务平台迅速崛起。相较通用云服务,此类平台更能精准解决AI真实场景落地的痛点。
2025年上半年的产业图景印证了这一趋势。主流云平台拥抱无服务器架构与强化学习的技术栈,不仅解决传统算力成本高企的痛点,更推动多模态创作、机器人训练等场景效率实现指数级提升。
毫无疑问,这场由底层计算框架驱动的智能进化,为智能体边界的拓展按下了快进键。全球GPU云市场正在酝酿新的产业造富故事。
无服务器+强化学习,智算云按下AI应用快进键
今年,DeepSeek时刻震惊全球,大模型厂商纷纷加速模型迭代,智能体大规模部署应用的元年开启。在全球智能体掘金热潮中,提供底层算力的AI新云悄然成为最重要的服务提供者。
自2013年起便深耕中国人工智能基础设施领域,有着丰富行业经验的九章云极董事长方磊指出,从移动互联网的带宽式应用到AI时代的计算密集型应用的结构性变革,亟需新型云架构支撑。
海外市场以CoReWeave为代表,CRUSoe、Lambda Labs等AI基础设施服务商正加速扩张。国内参与者也众多,比如2025年上半年,阿里云、九章云极等企业发布新一代AI基础设施服务,如阿里云的FlashMoE和九章智算云Alaya New Cloud基于无服务器+强化学习的架构。
AI基础设施厂商快速发展的背后,是企业正在加速部署AI规模化应用。机构认为,AI常因高昂算力成本和部署复杂等因素被视为极客的游戏,但随着GPU云快速普及,AI将成为企业的新生产力。
聚焦AI云计算和基础设施建设的厂商开始探索新技术路线,解决AI应用落地痛点。
在此背景下,无服务器与强化学习的结合逐渐脱颖而出。这两项技术并非全新概念,但深度融合正在悄然改写智能应用的开发逻辑,并重塑产业成本与创新效率。
无服务器的核心价值在于按需使用、按量付费。企业无需预置服务器,只需关注业务逻辑,云服务商会自动完成资源分配。
强化学习的核心在于让AI从人类反馈中学习,能有效提升推理能力,同时让模型更聪明、可控。
这意味着企业能以更低成本、更快速度迭代智能应用,加速AI落地,推动从参数竞争向场景落地的转变。因此,无服务器与强化学习的融合不仅是技术进步,也是AI产业商业化的加速器。
从技术炫技到商业落地,将带来新的产业红利。全球GPU云厂商正站在关键拐点,谁先掌握技术融合的红利,谁将在未来竞争中占据先机。
关键趋势一:GPU云厂商加速技术降本和AI开发服务升级
九章云极:发布九章智算云Alaya New Cloud 2.0,开创中国无服务器+强化学习技术路线的智算云平台。
6月16日,作为国家算力互联网试验网建设的重要成员,AI独角兽九章云极DataCanvas发布了新一代全栈智能计算云平台——九章智算云Alaya New Cloud 2.0,并同步启动全球首个强化学习智算服务,为中国近百万的AI应用开发者和科研机构提供普惠性智算云服务。
该平台深度融合无服务器架构与强化学习技术,实现成本革新:独创“1度算力”按实际消耗计费模型,显著降低使用门槛。实测显示,其多模态训练推理成本仅为行业均值40%,多场景拍摄效率提升35%,虚拟场景制作耗时从2小时减少至20分钟,动画电影制作成本降低60%。
相比海外以CoReWeave为代表的资源型企业,九章云极展现出中国厂商更关注技术“用处”的不同思路。九章智算云Alaya New Cloud 2.0集成了丰富的AI开发框架和工具,如TensorFlow、PyTorch等,支持多种编程语言,方便开发者快速构建和训练AI模型。
与海外平台围绕资源布局不同,九章云极增加AI技术权重,围绕智能计算中心算力调度这一国际顶尖能力,连续突破智能体的技术门槛,形成算力调度智能技术专利护城河——本季内,九章云极先后发布了“智能体调试智能体方法”、“大模型函数调用优化方法”、“生成多智能体协作系统方法”、“智能体开发工具函数方法”等多个专利,发布“国内首个智算调度Agent”。
CoReWeave:成为聚类Max等级铂金级GPU云服务商
CoReWeave整体用户体验和性能表现优秀,已达到聚类Max等级铂金标准。CoReWeave技术路线深度绑定NVIDIA生态,在AI训练领域具备先发优势,是AI算力基础设施领域的专业化服务商代表之一。
LaMbda Labs:完成D轮融资,成本与客户体验是GPU云平台关键方向
LaMbda labs,宣布成功完成了4.8亿美元的D轮融资,使其总股本达到了8.63亿美元。据悉,此次融资由AndRa CAPItal和SGW共同主导,NVIDIA、ARK Invest等投资者参与其中。
据LaMbda Labs联合创始人兼首席执行官,Stephen Balaban自述,因为AWS 的GPU 云实例极其昂贵,LaMbda Labs决定自己组建GPU 服务器集群,然后为客户提供更具性价比的解决方案。
此外,LaMbda正在积极开发托管SluRM服务,这将大幅提升客户体验。
Google Cloud:Next 25大会上发表多项AI创新,成本性能双突破
Google Cloud 通过提供搭载 NVIDIA B200 和 GB200 GPU 的 A4 和 A4X 虚拟机,为客户提供更多 AI 硬件选择。Google 也将成为首家提供 NVIDIA 新一代 VeRa Rubin GPU 的云提供商。
Cloud Wide Area Network(Cloud WAN)针对应用程序性能进行优化,可提供超过40%的性能提升,同时降低高达40%的总体持有成本。
趋势一小结:无疑,成本和开发者体验成为云GPU厂商竞争的两大价值锚点,而无服务器+强化学习的融合优势凸显,有望成为AI新云发展的核心技术驱动力。
关键趋势二:大模型部署与推理应用聚焦成本
1、聚焦云上部署DeepSeek,国内云厂商大幅降低部署成本。
DeepSeek-R1的问世让低成本的模型训练变得可行。方磊就此提出,能否为数千万开发者提供普惠算力服务,将成为决定AI云企业竞争力的重要考核维度。
然而,以DeepSeek-R1大模型来看,权重显存达700GB,需16张96GB显存GPU多机部署,依然面临高昂硬件成本与跨机传输效率挑战,云端部署方案破解瓶颈势在必行。
近期,国内科技巨头针对DeepSeek云上部署作出优化。阿里云支持一键部署DeepSeek系列模型,提供弹性算力与自定义环境,按需付费模式大幅降低硬件投入;九章智算云结合无服务器与强化学习技术复现DeepSeek-R全参数微调,在AIME 2024基准上取得81.70%的准确率,超越了DeepSeek-R1满血版,部署成本降至40%。
这些信息说明,在GPU云厂商推动下,AI普惠化进程正在持续加速。
2、OpenAI:模型加速迭代,成本持续优化。
再看大模型厂商,同样在迭代大模型能力的同时,持续改进降本。近期OpenAI新上线的o3-Pro不仅有更强的能力,可以访问一系列工具,包括网页浏览、文件分析、视觉推理、基于内存的个性化响应等,更有更低的花费,输入的价格为20美元/百万Token,输出则是80美元/百万Token,较前代o1-Pro降低了约87%。100万Tokens相当于75万个单词。
趋势二小结:随着模型使用成本持续优化,AI Agent将爆发式发展,带来更多算力需求,GPU云厂商将从中受益。
关键趋势三:无服务器+强化学习成机器人产业的关键技术
1、宇树科技:强化学习代码全面开源,覆盖从仿真到仿真(SiM-to-SiM)和从仿真到现实(SiM-to-Real)的训练代码,帮助开发者在虚拟环境中训练机器人并转移到现实,降低试错成本并提升训练安全性。
2、特斯拉擎天柱:完全通过强化学习在模拟环境中训练机器人,利用网络视频学习动作,并在模拟器中通过强化学习提升可靠性,进展可能迅速。
总结:强化学习已深度融入生成式AI的对齐优化与机器人自主进化流程,而无服务器架构通过重塑资源供给,为智能体提供弹性算力基座。未来,无服务器+强化学习有望成为驱动智能体规模化落地的核心技术路线。
结语
无服务器与强化学习的技术组合正在让AI开发从参数竞赛转向场景落地,新的投资机会正在涌现。
历史经验表明,最具商业价值的企业,往往通过重塑客户成本结构实现爆发式增长。
在新的技术路线加持下,GPU云平台将激发指数级增长的智能场景需求,成为智能体时代的潜力股。
