SenseNova-MARS全面评测:开源模型性能对比与实战指南

2026-05-16阅读 0热度 0
商汤

商汤科技今日开源了其SenseNova-MARS多模态模型,提供8B与32B两个参数版本。该模型在衡量多模态搜索与推理能力的核心基准测试中,以69.74的平均分超越了Gemini-3-Pro(69.06分)与GPT-5.2(67.64分)。

这一成绩并非简单的性能迭代。SenseNova-MARS被设计为首个支持动态视觉推理并与图文搜索深度融合的AgenticVLM模型。其核心突破在于,模型能够主动规划任务步骤、自主调用工具,从而系统性解决复杂问题,标志着AI向具备实际执行能力的关键演进。

在MMSearch、HR-MMSearch、FVQA等权威基准测试中,SenseNova-MARS不仅位列开源模型第一,更在搜索推理与视觉理解两大维度上,实现了对顶尖闭源模型的全面超越。具体技术细节可参阅其研究论文。

全能冠军,自主解决复杂问题

SenseNova-MARS的领先性由多项硬核评测数据支撑。其69.74的综合平均分,直观印证了其在多模态搜索任务上的强大实力。

在专注于图文搜索核心能力的MMSearch榜单上,它以74.27分登顶,显著领先于GPT-5.2的66.08分。在更具挑战性的HR-MMSearch评测中,它则以54.43分确立了明确优势。

HR-MMSearch测试堪称“AI界的奥林匹克”:所有题目基于2025年最新的4K超高清图片,杜绝了模型依赖训练数据记忆的可能;问题均针对图片中占比不足5%的微小细节,如隐蔽标志或细小文字,必须借助图像裁剪工具才能识别;题目覆盖八大领域,且超过60%的问题需要组合调用至少三种工具才能解答。

无论是需要广博知识储备的查询,还是依赖极致细粒度视觉分析的任务,SenseNova-MARS均展现出当前“全能冠军”的潜力。

组合式执行,应对真实场景挑战

模型的核心价值在于落地应用。SenseNova-MARS的关键能力,是解决那些需要“多步骤推理”与“多工具协同”的真实世界复杂问题。

传统AI工具调用功能单一,难以处理“先放大细节观察、再识别物体、最后查询背景信息”的连环任务。

SenseNova-MARS可自主规划处理此类任务。例如,面对“识别赛车服上微小Logo、查询该品牌成立年份、匹配车手出生日期、最后计算两者时间差”的复杂指令,它能自动规划步骤,调用图像裁剪、图文搜索等一系列工具,无需人工干预即可完成闭环解答。

这种能力可直接转化为生产力。例如,从行业峰会照片中识别企业标志,随即自动搜集相关产品信息、企业动态及关键数据,快速辅助市场与竞争格局分析。

在体育内容领域,它能从赛事照片中识别Logo、特定人物等信息,并自动追溯比赛背景或人员资料,高效补充内容创作所需的关键细节。

即便是步骤冗长、需要调用超过三种工具的复杂推理任务,例如自动裁剪分析图表细节、搜索比对相关研究数据以验证某个假设,SenseNova-MARS也能应对自如,快速得出关键判断。

正是这种“自主规划”与“多工具协作”的能力,让AI能够自动串联“细节识别、信息检索、逻辑推理”的全链条,切实提升处理复杂任务的效率。其核心工具能力可归纳为三点:

图像裁剪:精准聚焦图片上的微小细节,即便是占比不足5%的元素,如服装上的小标志或远处的标语,都能通过裁剪放大进行清晰分析。

图像搜索:在看到物体、人物或场景的瞬间,自动匹配关联信息,例如识别出特定车型或冷门设备型号。

文本搜索:快速抓取精准的文本信息,无论是公司成立年份、人物生平,还是最新的行业数据,都能迅速获取。

从练中学,形成“直觉”和“经验”

如此强大的能力源于一套“因材施教”的两阶段训练方法。

第一阶段是打基础。针对跨模态多跳搜索推理训练数据稀缺的痛点,研究团队采用了基于多模智能体的自动化数据合成引擎。该引擎通过“细粒度视觉锚点定位”与“多跳深度关联检索”机制,动态挖掘并关联跨网页实体间的逻辑,自动化构建出高复杂度的多跳推理链路。同时,引入闭环自洽性校验来剔除存在幻觉或矛盾的数据,最终构造出逻辑严密、知识密度高的优质训练数据。这相当于为AI精心筛选了一套“高难度案例集”,每个案例都明确了工具使用与步骤规划,让模型从一开始就学习真实的复杂问题解决逻辑。

第二阶段是练实战。这一阶段采用强化学习策略。AI每做出一次正确决策(如选用工具得当、步骤合理)便会获得奖励,反之则调整策略。为了确保训练稳定,团队引入了BN-GSPO算法作为“稳定器”。这种基于双阶段归一化的机制,有效平滑了动态工具调用返回结果的分布差异,确保了学习信号的一致性,从而成功解决了跨模态多步多工具智能体训练中的收敛难题,让模型在处理不同难度任务时都能均衡进步。

经过这样系统的训练,模型掌握的不仅是工具的使用方法,更培养出一种“工具使用直觉”——知道在何种情境下该调用哪些工具,以及如何将不同工具的输出结果有机整合,形成最终答案。

目前,商汤已全面开源SenseNova-MARS的模型权重、代码及部分数据集,开发者可通过Hugging Face直接下载使用。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策