2026年4月,商汤绝影推出了端侧多模态智能体大模型Sage。该模型采用MoE架构,参数总量达到32B,但激活参数仅为3B,成为业内首个在车载端实现复杂智能体功能的大模型。根据PinchBench的测试,Sage在全球顶尖云端大模型中表现优异,已在英伟达O基于X平台上成功部署。
在当前的人工智能时代,汽车的复杂智能体能力通常依赖于云端,而端侧模型因计算能力和参数限制,仅能应对简单指令。端侧智能体面临许多挑战,云端的依赖导致延迟和高成本,而坚持端侧又缺乏强大的智能体功能。Sage的推出改变了这一局面,首次将云端级智能体能力引入端侧。
Sage作为端侧智能体的基础,能够接入OpenClaw、HeRMes等主流Agent框架,提供更全面的端侧智能体支持,覆盖出行和家庭等多个场景。
Sage在公测Agent评测基准PinchBench中的最佳任务完成率达94%,超越了多款国际主流大模型,如Claude-OpUS-4.6(93.3%)、Claude-Sonnet-4.6(88.0%)和GPT-5.4(90.5%)。


Sage以3B的激活参数超越了许多大参数的云端旗舰,颠覆了“大模型才能胜任智能体任务”的传统观念,展现了端侧技术的高效性。例如,小米MiMo-v2-Pro的激活参数为42B,总参数超过1T,而Sage的激活参数仅为3B,计算需求仅为其1/14,显存占用约为其1/3,但在PinchBench的最佳任务完成率上仍高出6.6个百分点。
PinchBench是一个开源的Agent评测基准,涵盖写作、研究、编码、分析等场景,考察模型在工具使用和任务执行中的能力。
PinchBench评测要求模型完成实际任务,综合评估成功率、速度和成本,因此测试周期较长,资源消耗较高,单项任务的Token消耗可达数十万。模型在PinchBench上的表现能够更好地反映其在复杂场景中的能力与稳定性。
在北京车展期间,商汤绝影将推出搭载Sage的Sage Box,助力汽车进入超级智能体时代。
Sage端侧大模型在PinchBench中的优异表现,得益于商汤绝影为Sage后训练阶段研发的两项关键技术:SCout和ERL。
SCout技术旨在解决大模型学习复杂任务时的高成本和试错慢的问题,在复杂任务能力注入过程中可节省约60%的GPU小时消耗。SCout的策略是“探路与吸收解耦”,通过轻量小模型快速筛选可行路径,再将高价值经验传递给大模型进行学习。
ERL专注于复杂任务链中的错误识别与纠正。用户的需求通常要求模型跨多个步骤进行推理和执行,ERL使得模型能够自动识别推理过程中的错误步骤,进行修正,从源头阻止偏差扩散。这项技术使得Sage在多跳复杂推理基准上取得了显著进步,装车后在复杂任务完成率上提升了20%。
SCout和ERL共同推动Sage从语言大模型演进为能够独立执行复杂任务的智能体。结合多模态架构与优质训练数据,Sage在能力、成本与产出可行性之间实现了平衡。
Sage在MMLU Pro测试中获得76分,领先同类端侧模型约10%;在GPQA Diamond测试中获得77分,提升33%;在Human SEMantic Understanding测试中获91分,提升32%。

在τ2-bench基准上,Sage以80分的成绩较Gemini 4提升38%。该基准专门评估模型使用工具和完成多步任务的能力,成为区分“会聊天的模型”和“会办事的智能体”的重要标准。
Sage的专业能力转化为影响用户体验的指标:其场景推理精度超过90%,长链路工具使用、逻辑规划和环境感知任务的成功率分别达到92%、89%和94%,复杂指令遵循率提升40%。
在O基于Rin X平台的部署下,Sage可实现首字响应约0.5秒,单Token推理延迟低至0.03秒,生成吞吐量达到80 tk/S,为座舱智能体提供稳定、实时的运行能力。模型能够解析用户的复合指令,自动联动车载系统完成任务闭环,并结合传感器对乘员状态与路况的感知,主动提供儿童模式和智能路线调整等服务。Sage不再是“被动唤醒”的语音助手,而是一个懂场景、会思考、能服务的出行伙伴。
商汤绝影的Sage端侧多模态智能体大模型为舱驾一体方案提供了可行的模型路径,推动智能座舱从基础交互迈向高阶舱驾融合智能体服务。
