商汤绝影3B激活参数实测：性能超越GPT-5.4与Opus4.6

2026-05-20阅读 0热度 0

其他

车机端侧大模型的困境，业内讨论已久：复杂任务需要深度推理，而深度推理又依赖庞大的模型参数。参数规模上不去，智能水平就受限；可要把动辄数百亿参数的云端模型塞进车机，算力和功耗又成了难以逾越的障碍。这个死循环，似乎让真正的“智能座舱”始终隔着一层纱。

如今，这个僵局被打破了。商汤绝影刚刚发布了端侧多模态大模型Sage。它采用了一种巧妙的架构：总参数达到320亿，但在执行任务时，实际激活的参数仅有30亿。正是这一设计，首次将云端级别的智能体能力，实实在在地带到了车机端侧。

它的实力如何？在公开的智能体评测基准PinchBench上，Sage取得了94%的最佳任务完成率。这个成绩不仅超过了Claude Opus 4.6（93.3%）和GPT-5.4（90.5%），也领先于一众参数规模远大于它的云端旗舰模型。目前，Sage已在英伟达OrinX这样的主流车规级芯片平台上实现部署。

作为端侧智能体的基座模型，Sage可以无缝接入OpenClaw、Hermes等主流智能体框架，这意味着它为未来更多端侧智能应用的落地提供了核心支撑，其潜力将覆盖出行、家庭乃至更广泛的全场景。

3B激活参数，何以超越百亿级模型？

在PinchBench这个被业界广泛认可的公开评测中，Sage的表现堪称惊艳。94%的任务完成率，让它稳稳站在了榜单前列，超越了包括Claude Opus 4.6、GPT-5.4、Google Gemini 3等在内的众多前沿模型。

PinchBench之所以权威，在于它模拟的是真实的智能体工作流。它的任务库并非一成不变，而是持续动态更新，覆盖写作、研究、编码、文件处理、日程管理等复杂场景，核心考察模型在工具调用、多步推理和最终任务闭环上的综合能力。

更重要的是，它的测试方式要求模型真正“动手”完成任务，综合衡量成功率、速度和资源消耗，单次任务的token消耗可能高达数十万。因此，在PinchBench上的高分，更能反映一个模型在真实、复杂场景下的实战能力，而不仅仅是纸面答题。

据悉，在北京车展期间，商汤绝影将推出搭载Sage的硬件产品“SageBox”，作为整车的模型接入单元，加速其上车进程。

两项核心技术：从“听懂”到“办成”的关键一跃

Sage能在端侧跑出超越云端模型的成绩，背后是两项关键的后训练技术：SCOUT和ERL。可以说，一项负责让模型“高效学”，另一项负责让模型“准确做”，共同解决了车载大模型从被动响应到主动完成复杂任务的终极难题。

SCOUT：高效学习，算力节省60%

面对出行场景中纷繁复杂的任务（比如多设备联动、空间规划），直接让大模型去试错学习，成本极高且效率低下。SCOUT（分级协同学习框架）的创新之处在于，它引入了“侦察兵”机制。

具体来说，先派遣一个轻量级的小模型去任务环境中探索，把可行的路径和方案筛选出来，生成高质量的“经验数据”。然后，再将这些精华数据喂给主模型（Sage）进行学习。这种“小模型探路，大模型吸收”的模式，使得在注入复杂场景能力时，能够节省约60%的GPU算力消耗，学习速度也大大加快。

ERL：自我纠错，任务成功率提升20%

用户的一个复杂指令，往往需要模型进行多步推理和执行。过程中任何一步出现偏差，都可能导致满盘皆输。已被机器学习顶级会议ICLR 2026收录的ERL（可擦除强化学习）技术，正是为了解决这个问题。

它让模型具备了一种“自我审查”和“即时修正”的能力。在推理链中，一旦模型识别出某个步骤可能存在错误，它可以主动“擦除”这一步，并在原位重新生成正确的推理，防止错误向后扩散。这项技术让Sage在多跳复杂推理任务上的成功率提升了20%，显著增强了其执行可靠性。

SCOUT与ERL一前一后，协同工作，共同将Sage从一个优秀的语言模型，锻造成为一个能够独立规划并可靠完成复杂任务的智能体基座。再结合其一体化多模态架构和原生训练数据的优势，Sage在能力、成本和量产可行性之间找到了一个精妙的平衡点。

全面领先：端侧模型的能力新水平

如果说PinchBench证明了Sage“能办成事”，那么在各专业维度基准测试上的表现，则说明了它“事办得有多好”。对比本月最新发布的同量级端侧旗舰模型Google Gemma 4，Sage实现了全面领先。

在MMLU Pro（跨学科知识）测试中，Sage得分76，领先约10%，证明其知识密度达到云端水准；在GPQA Diamond（研究生级专业推理）测试中，得分77，提升33%，展现了深厚的复杂推理能力；在针对座舱的语义与视觉理解测试中，得分91，提升32%，凸显了其原生多模态数据的优势。

尤为关键的是在τ2-bench基准上的表现。这个基准专门评估模型调用工具、完成多步任务闭环的实战能力，是区分“聊天模型”和“办事智能体”的核心标尺。Sage在此取得了80分的成绩，相比Gemma 4实现了38%的提升，接近翻倍的领先幅度。这直接印证了Sage作为智能体基座，在真实任务执行层面的绝对优势。

从数据到体验：智能座舱的质变

上述所有技术优势，最终都要转化为真实的用户体验。在车舱场景下，Sage展现出了一组亮眼的数据：场景推理精度超过90%，长链路工具调用、逻辑规划、环境感知等任务的成功率分别达到92%、89%和94%，复杂指令遵循率提升了40%。

在英伟达OrinX平台上部署时，Sage能够实现首字响应约0.5秒，单Token推理延迟低至0.03秒，生成吞吐达到80 tokens/秒。这意味着其平均任务响应速度优于主流云端API模型，能为座舱提供稳定、实时、可持续在线的智能服务。

落到实际场景，这意味着什么呢？用户可以说出“我有点冷，顺便找一家评分高的火锅店，把导航路线发我手机”这样的复合指令，Sage能一次性理解，并自动联动空调、车机娱乐系统和导航，完成全链路服务。它还能结合车内传感器，感知乘客状态或路况变化，主动触发儿童模式或建议调整路线。

至此，车机内的AI不再是一个需要唤醒、只能进行单轮对话的语音助手，而进化成为一个真正理解场景、善于思考、并能主动服务的出行伙伴。智能座舱的体验，因为端侧智能体能力的落地，正在发生根本性的改变。

相关研究论文：

[1] arXiv：https://arxiv.org/abs/2601.21754

[2] arXiv：https://arxiv.org/abs/2510.00861

商汤绝影3B激活参数实测：性能超越GPT-5.4与Opus4.6

3B激活参数，何以超越百亿级模型？

两项核心技术：从“听懂”到“办成”的关键一跃

全面领先：端侧模型的能力新水平

从数据到体验：智能座舱的质变

相关阅读

最新教程

最新资讯