互联网资讯

多模态智能体大模型发布，测试显示任务完成率达到94%

2026年4月22日 ·

2026年4月，商汤绝影推出了端侧多模态智能体大模型Sage。该模型采用MoE架构，参数总量达到32B，但激活参数仅为3B，成为业内首个在车载端实现复杂智能体功能的大模型。根据PinchBench的测试，Sage在全球顶尖云端大模型中表现优异，已在英伟达O基于X平台上成功部署。

在当前的人工智能时代，汽车的复杂智能体能力通常依赖于云端，而端侧模型因计算能力和参数限制，仅能应对简单指令。端侧智能体面临许多挑战，云端的依赖导致延迟和高成本，而坚持端侧又缺乏强大的智能体功能。Sage的推出改变了这一局面，首次将云端级智能体能力引入端侧。

Sage作为端侧智能体的基础，能够接入OpenClaw、HeRMes等主流Agent框架，提供更全面的端侧智能体支持，覆盖出行和家庭等多个场景。

Sage在公测Agent评测基准PinchBench中的最佳任务完成率达94%，超越了多款国际主流大模型，如Claude-OpUS-4.6（93.3%）、Claude-Sonnet-4.6（88.0%）和GPT-5.4（90.5%）。

商汤绝影发布端侧多模态智能体基座大模型Sage，PinchBench实测94%最佳任务完成率

Sage以3B的激活参数超越了许多大参数的云端旗舰，颠覆了“大模型才能胜任智能体任务”的传统观念，展现了端侧技术的高效性。例如，小米MiMo-v2-Pro的激活参数为42B，总参数超过1T，而Sage的激活参数仅为3B，计算需求仅为其1/14，显存占用约为其1/3，但在PinchBench的最佳任务完成率上仍高出6.6个百分点。

PinchBench是一个开源的Agent评测基准，涵盖写作、研究、编码、分析等场景，考察模型在工具使用和任务执行中的能力。

PinchBench评测要求模型完成实际任务，综合评估成功率、速度和成本，因此测试周期较长，资源消耗较高，单项任务的Token消耗可达数十万。模型在PinchBench上的表现能够更好地反映其在复杂场景中的能力与稳定性。

在北京车展期间，商汤绝影将推出搭载Sage的Sage Box，助力汽车进入超级智能体时代。

Sage端侧大模型在PinchBench中的优异表现，得益于商汤绝影为Sage后训练阶段研发的两项关键技术：SCout和ERL。

SCout技术旨在解决大模型学习复杂任务时的高成本和试错慢的问题，在复杂任务能力注入过程中可节省约60%的GPU小时消耗。SCout的策略是“探路与吸收解耦”，通过轻量小模型快速筛选可行路径，再将高价值经验传递给大模型进行学习。

ERL专注于复杂任务链中的错误识别与纠正。用户的需求通常要求模型跨多个步骤进行推理和执行，ERL使得模型能够自动识别推理过程中的错误步骤，进行修正，从源头阻止偏差扩散。这项技术使得Sage在多跳复杂推理基准上取得了显著进步，装车后在复杂任务完成率上提升了20%。

SCout和ERL共同推动Sage从语言大模型演进为能够独立执行复杂任务的智能体。结合多模态架构与优质训练数据，Sage在能力、成本与产出可行性之间实现了平衡。

Sage在MMLU Pro测试中获得76分，领先同类端侧模型约10%；在GPQA Diamond测试中获得77分，提升33%；在Human SEMantic Understanding测试中获91分，提升32%。

在τ2-bench基准上，Sage以80分的成绩较Gemini 4提升38%。该基准专门评估模型使用工具和完成多步任务的能力，成为区分“会聊天的模型”和“会办事的智能体”的重要标准。

Sage的专业能力转化为影响用户体验的指标：其场景推理精度超过90%，长链路工具使用、逻辑规划和环境感知任务的成功率分别达到92%、89%和94%，复杂指令遵循率提升40%。

在O基于Rin X平台的部署下，Sage可实现首字响应约0.5秒，单Token推理延迟低至0.03秒，生成吞吐量达到80 tk/S，为座舱智能体提供稳定、实时的运行能力。模型能够解析用户的复合指令，自动联动车载系统完成任务闭环，并结合传感器对乘员状态与路况的感知，主动提供儿童模式和智能路线调整等服务。Sage不再是“被动唤醒”的语音助手，而是一个懂场景、会思考、能服务的出行伙伴。

商汤绝影的Sage端侧多模态智能体大模型为舱驾一体方案提供了可行的模型路径，推动智能座舱从基础交互迈向高阶舱驾融合智能体服务。