商汤绝影3B激活参数实测:性能超越GPT-5.4与Opus4.6

2026-05-20阅读 0热度 0
其他

车机端侧大模型的困境,业内讨论已久:复杂任务需要深度推理,而深度推理又依赖庞大的模型参数。参数规模上不去,智能水平就受限;可要把动辄数百亿参数的云端模型塞进车机,算力和功耗又成了难以逾越的障碍。这个死循环,似乎让真正的“智能座舱”始终隔着一层纱。

如今,这个僵局被打破了。商汤绝影刚刚发布了端侧多模态大模型Sage。它采用了一种巧妙的架构:总参数达到320亿,但在执行任务时,实际激活的参数仅有30亿。正是这一设计,首次将云端级别的智能体能力,实实在在地带到了车机端侧。

它的实力如何?在公开的智能体评测基准PinchBench上,Sage取得了94%的最佳任务完成率。这个成绩不仅超过了Claude Opus 4.6(93.3%)和GPT-5.4(90.5%),也领先于一众参数规模远大于它的云端旗舰模型。目前,Sage已在英伟达OrinX这样的主流车规级芯片平台上实现部署。

图片图片

作为端侧智能体的基座模型,Sage可以无缝接入OpenClaw、Hermes等主流智能体框架,这意味着它为未来更多端侧智能应用的落地提供了核心支撑,其潜力将覆盖出行、家庭乃至更广泛的全场景。

3B激活参数,何以超越百亿级模型?

在PinchBench这个被业界广泛认可的公开评测中,Sage的表现堪称惊艳。94%的任务完成率,让它稳稳站在了榜单前列,超越了包括Claude Opus 4.6、GPT-5.4、Google Gemini 3等在内的众多前沿模型。

图片

PinchBench之所以权威,在于它模拟的是真实的智能体工作流。它的任务库并非一成不变,而是持续动态更新,覆盖写作、研究、编码、文件处理、日程管理等复杂场景,核心考察模型在工具调用、多步推理和最终任务闭环上的综合能力。

更重要的是,它的测试方式要求模型真正“动手”完成任务,综合衡量成功率、速度和资源消耗,单次任务的token消耗可能高达数十万。因此,在PinchBench上的高分,更能反映一个模型在真实、复杂场景下的实战能力,而不仅仅是纸面答题。

据悉,在北京车展期间,商汤绝影将推出搭载Sage的硬件产品“SageBox”,作为整车的模型接入单元,加速其上车进程。

两项核心技术:从“听懂”到“办成”的关键一跃

Sage能在端侧跑出超越云端模型的成绩,背后是两项关键的后训练技术:SCOUT和ERL。可以说,一项负责让模型“高效学”,另一项负责让模型“准确做”,共同解决了车载大模型从被动响应到主动完成复杂任务的终极难题。

SCOUT:高效学习,算力节省60%

面对出行场景中纷繁复杂的任务(比如多设备联动、空间规划),直接让大模型去试错学习,成本极高且效率低下。SCOUT(分级协同学习框架)的创新之处在于,它引入了“侦察兵”机制。

具体来说,先派遣一个轻量级的小模型去任务环境中探索,把可行的路径和方案筛选出来,生成高质量的“经验数据”。然后,再将这些精华数据喂给主模型(Sage)进行学习。这种“小模型探路,大模型吸收”的模式,使得在注入复杂场景能力时,能够节省约60%的GPU算力消耗,学习速度也大大加快。

图片

ERL:自我纠错,任务成功率提升20%

用户的一个复杂指令,往往需要模型进行多步推理和执行。过程中任何一步出现偏差,都可能导致满盘皆输。已被机器学习顶级会议ICLR 2026收录的ERL(可擦除强化学习)技术,正是为了解决这个问题。

它让模型具备了一种“自我审查”和“即时修正”的能力。在推理链中,一旦模型识别出某个步骤可能存在错误,它可以主动“擦除”这一步,并在原位重新生成正确的推理,防止错误向后扩散。这项技术让Sage在多跳复杂推理任务上的成功率提升了20%,显著增强了其执行可靠性。

图片

SCOUT与ERL一前一后,协同工作,共同将Sage从一个优秀的语言模型,锻造成为一个能够独立规划并可靠完成复杂任务的智能体基座。再结合其一体化多模态架构和原生训练数据的优势,Sage在能力、成本和量产可行性之间找到了一个精妙的平衡点。

全面领先:端侧模型的能力新水平

如果说PinchBench证明了Sage“能办成事”,那么在各专业维度基准测试上的表现,则说明了它“事办得有多好”。对比本月最新发布的同量级端侧旗舰模型Google Gemma 4,Sage实现了全面领先。

在MMLU Pro(跨学科知识)测试中,Sage得分76,领先约10%,证明其知识密度达到云端水准;在GPQA Diamond(研究生级专业推理)测试中,得分77,提升33%,展现了深厚的复杂推理能力;在针对座舱的语义与视觉理解测试中,得分91,提升32%,凸显了其原生多模态数据的优势。

图片

尤为关键的是在τ2-bench基准上的表现。这个基准专门评估模型调用工具、完成多步任务闭环的实战能力,是区分“聊天模型”和“办事智能体”的核心标尺。Sage在此取得了80分的成绩,相比Gemma 4实现了38%的提升,接近翻倍的领先幅度。这直接印证了Sage作为智能体基座,在真实任务执行层面的绝对优势。

从数据到体验:智能座舱的质变

上述所有技术优势,最终都要转化为真实的用户体验。在车舱场景下,Sage展现出了一组亮眼的数据:场景推理精度超过90%,长链路工具调用、逻辑规划、环境感知等任务的成功率分别达到92%、89%和94%,复杂指令遵循率提升了40%。

在英伟达OrinX平台上部署时,Sage能够实现首字响应约0.5秒,单Token推理延迟低至0.03秒,生成吞吐达到80 tokens/秒。这意味着其平均任务响应速度优于主流云端API模型,能为座舱提供稳定、实时、可持续在线的智能服务。

落到实际场景,这意味着什么呢?用户可以说出“我有点冷,顺便找一家评分高的火锅店,把导航路线发我手机”这样的复合指令,Sage能一次性理解,并自动联动空调、车机娱乐系统和导航,完成全链路服务。它还能结合车内传感器,感知乘客状态或路况变化,主动触发儿童模式或建议调整路线。

至此,车机内的AI不再是一个需要唤醒、只能进行单轮对话的语音助手,而进化成为一个真正理解场景、善于思考、并能主动服务的出行伙伴。智能座舱的体验,因为端侧智能体能力的落地,正在发生根本性的改变。

相关研究论文:

[1] arXiv:https://arxiv.org/abs/2601.21754

[2] arXiv:https://arxiv.org/abs/2510.00861

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策