视觉猎手深度评测：蚂蚁集团AI主动搜索技术突破

2026-06-20阅读 0热度 0

蚂蚁集团

想象一个具体场景：手机里存着一张朋友发来的比赛现场照，你想知道照片里穿45号球衣的球员是谁，但把图片丢给AI，它却无法识别。或者，你有一张电影截图，想查询某个道具的颜色，搜索引擎只返回文字描述，完全没有带图的答案。

这两个问题，精准指向了当前AI搜索领域长期被忽视的软肋——AI缺乏“主动用眼”进行搜索和推理的能力。

传统AI搜索系统，即便具备图像输入功能，本质上仍是文字驱动的。它最多将图片作为触发搜索的信号，实际收集证据、整合答案的过程完全依赖文字。这好比雇佣了一名调查员，他能看懂照片，但在整个调查过程中，只愿意翻阅文字报告，拒绝亲自到现场观察、拍照取证。

蚂蚁集团的研究团队重新训练了这名“调查员”。他们开发的Visual-Seeker，不仅能理解用户提供的图片，还能在整个多轮搜索过程中，主动在互联网上查找图片、分析图片细节，将视觉证据与文字证据像侦探一样拼接，最终给出答案。这项由蚂蚁数字科技（蚂蚁集团）、中国科学院自动化研究所、中国科学院大学、中国人民大学及北京理工大学联合完成的研究，以预印本形式于2026年6月13日发布在arXiv平台，编号arXiv:2606.15231。研究成果以“Visual-Seeker”命名，正式提出了一种视觉原生多模态深度搜索智能体。

一、现有AI搜索的“视觉短板”成因

要理解Visual-Seeker的价值，必须先厘清现有系统为何存在这一短板。

近年来，大型语言模型的快速发展推动了“深度搜索智能体”的探索。这类系统的核心思路是：不依赖模型内部可能过时的知识，而是模拟人类行为，遇到问题就主动搜索、翻网页、汇总信息。这种思路在处理需要多步推理的复杂问题时效果显著。

然而，这些早期系统天生依赖文字。它们的搜索查询是文字，收集的证据是文字，推理过程也是文字。一旦问题涉及图像，系统便力不从心。

研究团队发现，后续出现的多模态搜索智能体虽然能接受图片输入，但在设计上存在两个根本缺陷。

第一个缺陷是对输入图片的“浅层处理”。真实世界的图片通常极其复杂——一张NBA比赛照片可能包含十几位球员，一张颁奖典礼合影站着一排名人。但现有的训练数据偏好主体简单、语义明确的图片，比如单人特写照或物体正面图。这导致模型在应对真实世界复杂图片时，难以精准锁定“那个穿45号球衣的人”。

第二个缺陷是搜索过程完全缺乏视觉证据。现有系统的搜索轨迹中，充斥着文字查询和文字结果，几乎没有主动搜索图片、分析图片内容的步骤。然而，有些答案恰恰隐藏在图片里。以论文中的例子为例：某部电影2018年发行的最新DVD封面上，伊恩·麦克莱恩帽子上羽毛的颜色是什么？这个答案在任何文字资料中都找不到，必须亲眼找到那张DVD封面图片才能回答。现有系统根本想不到这样做。

这两个缺陷叠加，导致了一个尴尬的局面：当用户提出需要“看图找线索、再找更多图来验证”的复杂问题时，现有AI搜索系统几乎无能为力。

二、一条“侦探培训流水线”：如何教会AI主动看图

要解决上述两个缺陷，核心难题在于：如何获得足够的训练数据，让模型学会“在复杂图片中识别目标”和“主动收集图片证据”？

真实的多模态深度搜索轨迹数据在现实中几乎不存在，因为从未有人系统地记录过这种多轮、跨模态的搜索过程。于是，研究团队自行设计了一套数据合成流水线，他们称之为“主动视觉推理数据流水线”。

整个流水线分为三个阶段，逻辑环环相扣，如同培训一名侦探：先练眼力，再练破案思路，最后练现场取证。

第一阶段：练眼力——从复杂图片中精准锁定目标

训练数据的起点是LiveVQA公开数据集。该数据集的特点是图片来自真实世界，往往包含多个实体（人物、地点、组织等），且每道题目都附带了推理过程。研究团队利用这些数据，让AI学习“在一张复杂图片中识别出具体的人或物，并用语言描述其特征”。

具体操作是：向AI同时提供图片、问题和推理过程，让它提取图片中的实体，每个实体记录下名字、在图片中的视觉描述（例如“图中举起右手的那位男士”）以及类别（人物、地点或组织）。

仅提取还不够，提取出的实体还需经过严格的筛选和去歧义处理。筛选分三步进行：第一步，过滤掉过于泛化、无法唯一定位的描述，例如“那个男人”或“一栋建筑”——这种描述太模糊，缺乏搜索价值。第二步，过滤掉主体过于明显的图片，比如单人特写照，因为这类图片不需要精细的视觉分辨，无法训练复杂场景的识别能力。第三步，处理多义实体，例如“Apple”既可能是苹果公司也可能是水果，需要结合图片和问题的上下文确认其具体含义。经过这三重过滤，最终筛选出2000个有价值的“种子实体”，每个实体都从真实复杂图片中精准锁定。

第二阶段：练破案思路——用知识图谱生成多跳推理问题

有了种子实体，接下来需要生成那些需要多步推理才能回答的问题。这里的“多跳”指解题过程需要经过多个中间步骤——例如先识别图中的球员，再查询他的大学，进而查那所大学的历史成就，最后从那个成就推导出某个城市的名称。

研究团队使用了一个基于维基百科构建的离线知识图谱，将其视为一张巨大的蜘蛛网，每个节点是一个实体（人物、地点、事件等），节点之间的连线是实体之间的关系。从种子实体出发，在这张网上随机游走，即可生成一条推理链。

为了避免生成的推理链过于线性单调，研究团队设计了两种游走策略来丰富结构。第一种是“回溯策略”：模拟侦探在查案时发现某条线索中断，会回到之前的线索重新出发——游走过程中有一定概率跳回之前经过的某个节点，再从那里分岔出去，从而生成树形分叉的推理结构。第二种是“环形约束策略”：从起点出发，在某个分叉点分成两条独立路线，这两条路线各走几步后再汇合到一个共同终点，形成环状推理结构。这两种策略让生成的推理问题在形态上更接近真实复杂问题。

游走完成后，再用大语言模型将这条推理链翻译成一道自然语言问题，确保问题逻辑自洽、表述清晰。

第三阶段：练现场取证——强制注入视觉证据

前两个阶段生成的问题，答案虽然需要多步推理，但本质上仍可通过文字搜索得到。真正让Visual-Seeker与众不同的是第三阶段：将视觉证据强制插入推理路径。

具体做法是：找到某道题的答案实体，例如“《西游记》”，然后用搜索引擎查找与该实体相关的图片。对找到的每张候选图片，使用另一个AI模型仔细观察，提取出那些纯粹靠文字描述无法获得的视觉细节，例如“主角骑的马是白色的”或“封面上的云彩是金色的”。然后，将这个视觉细节作为答案，将一个模糊的搜索关键词作为问题，拼接成一道“必须找到图片才能回答”的子问题，嵌入到原来的多跳问题中。

这样一来，整道题的解答路径就包含了一个必经的视觉取证步骤——模型必须主动搜索某张图片，仔细观察图片细节，才能继续后续推理。

经过完整的三阶段流水线，研究团队最终合成了5000条高质量的多模态搜索轨迹，其中3000条不含视觉证据注入（用于训练基础搜索能力），800条含有视觉证据注入（用于训练主动视觉取证能力），另有500条纯文字问题轨迹和700条来自公开FVQA数据集的轨迹作为补充。

三、Visual-Seeker的“工具箱”和工作方式

有了训练数据，研究团队用这5000条轨迹，通过监督微调训练了Visual-Seeker。基础模型选用Qwen3-VL-8B-Instruct，一个参数规模为80亿的视觉语言模型，在8张NVIDIA A100 GPU上训练了3轮。

Visual-Seeker在工作时，会反复进行“思考→选工具→用工具→看结果→再思考”的循环，直到找到答案或达到最多15轮的交互上限。

这个智能体的工具箱包含五件工具。第一件是文字搜索工具，本质是一个搜索引擎接口，输入自然语言查询，返回相关网页的标题和链接。第二件是图片反向搜索工具，将一张图片作为输入，返回互联网上与该图片相关的网页，用于识别图片内容。第三件是图片搜索工具，这是Visual-Seeker区别于同类系统的核心工具之一，输入文字描述，返回相关图片，专门用于主动收集视觉证据。第四件是网页访问工具，输入网址，返回该网页的摘要内容，用于深入阅读某条搜索结果。第五件也是核心工具之一，即图片裁剪工具，输入坐标，对当前图片的某个区域进行放大截取，用于在复杂图片中精细查看某个目标。

以“45号球衣球员”为例，Visual-Seeker的工作流程可能是：先用图片裁剪工具将画面中45号球衣所在区域截取放大，再将裁剪后的图片交给图片反向搜索工具，搜到球员名字，然后使用文字搜索工具继续查询该球员的大学，继续推理。全程中，图片和文字证据都在被主动调用和交叉验证。

四、测试结果：五项挑战性基准测试全面领跑

为验证Visual-Seeker的实际效果，研究团队在五个极具挑战性的多模态搜索基准测试上进行了全面评估：MMSearch、MMSearch-Plus、BrowseComp-VL、MM-BrowseComp和VisBrowse-Bench。这五个测试各有侧重：MMSearch-Plus专门考察在多实体复杂图片中的视觉理解能力，MM-BrowseComp和VisBrowse-Bench则重点考察在搜索过程中必须收集视觉证据才能回答的问题。

测试框架分为三类：直接回答（完全依赖模型自身知识，不搜索）、智能体工作流（使用工具搜索但不经专门训练）、多模态深度搜索智能体（经过专门训练的系统）。

直接回答的结果充分说明了为何需要搜索智能体：即便是顶级商业模型，在这五个基准上的平均正确率也相当惨淡，Claude-4-Sonnet仅为13.1%，GPT-5也只有27.2%。模型自带的知识根本不足以回答这类需要实时信息和精细视觉分析的问题。

接上搜索工具后，所有模型的成绩都大幅提升。Claude-4-Sonnet的平均分从13.1%飙升至32.2%，提升幅度高达145.8%。这说明工具的加持对于这类任务至关重要，研究团队设计的工作流本身也很有价值，适用于各种模型。

在真正比拼专门训练过的多模态搜索智能体时，Visual-Seeker以平均39.6%的正确率拿下第一，超过了所有对比系统。具体来看，在MMSearch上达到72.2%，在MMSearch-Plus上达到27.3%，在BrowseComp-VL上达到47.6%，在MM-BrowseComp上达到16.1%，在VisBrowse-Bench上达到34.7%。

这组数字背后有几个值得关注的细节。与作为基础模型的Qwen3-VL-8B-Instruct相比，Visual-Seeker在每个基准上的提升幅度都接近翻倍，五项平均提升了16.6个百分点。在MM-BrowseComp和VisBrowse-Bench这两个必须主动收集视觉证据才能回答的基准上，Visual-Seeker甚至超越了GPT-5和Gemini-2.5-Pro这两个体量远大于它的商业模型。一个80亿参数的开源模型，在视觉取证类任务上战胜了巨型商业模型，这背后正是专门设计的训练数据发挥了作用。

五、层层拆解：每个设计决策是否真的有效

研究团队不仅展示了最终成绩，还进行了一系列精细的消融实验，即拆掉系统某一部分，观察整体表现如何变化，以此验证每个设计决策的真实贡献。

在数据消融实验中，研究团队从零开始，逐步向训练集加入不同类型的数据。最开始只用FVQA数据集轨迹和纯文字问题轨迹，模型平均分仅为12.6%，相比基础模型没有太大提升。加入由数据流水线第一、二阶段合成的多模态轨迹（不含视觉证据注入）后，平均分跳升至18.6%，尤其是MMSearch-Plus这个考察复杂图片理解能力的基准，从20.9%提升至24.5%，提升了17.2个百分点，证明了从复杂图片中精准提取种子实体的训练数据确实有效。进一步加入含有视觉证据注入的轨迹后，平均分再次跃升至26.0%，MM-BrowseComp和VisBrowse-Bench这两个视觉取证相关的基准分别提升了5个和14.6个百分点，直接验证了“强制注入视觉证据”这一设计的价值。

在工具消融实验中，研究团队分别拆掉图片裁剪工具和图片搜索工具，观察缺少这两件核心工具的影响。拆掉图片裁剪工具后，VisBrowse-Bench的成绩从34.7%跌至25.1%，跌幅最大，说明该基准的图片确实包含多个复杂实体，不裁剪放大就很难认清目标。拆掉图片搜索工具后，VisBrowse-Bench的成绩从34.7%跌至20.1%，跌幅更大，说明该基准的许多问题确实必须搜索图片才能找到视觉证据。两件工具同时拆掉，成绩进一步恶化。这些数据从另一个角度证实了：Visual-Seeker的视觉原生搜索能力，是由这两件工具共同支撑的，缺一不可。

在工具使用行为分析方面，研究团队还观察了模型在不同基准测试上的实际工具调用情况。对于相对简单的MMSearch，模型平均只需调用4.3轮工具交互就能得到答案；对于极具挑战性的MM-BrowseComp，平均需要14.1轮，几乎用满15轮上限。在工具分布上，文字搜索工具在各基准上始终是调用比例最高的（48%到65%之间），说明文字仍是多数问题的主要证据来源。但VisBrowse-Bench是个例外——它的图片反向搜索工具调用比例（15%）和图片搜索工具调用比例（9.3%）明显高于其他基准，说明该基准的问题确实需要更多视觉取证操作。

六、一次真实的搜索案例：看它怎么一步步破案

在论文附录中，研究团队给出了一个完整的搜索案例，可以直观感受Visual-Seeker的工作节奏。

问题是：图中这位女士戴的项链来自某个特定品牌。2018年，关于这个品牌创始人的一部纪录片上映了。纪录片的海报里，主角正在吃什么水果？

首先，模型看到图片后，判断项链区域位于画面的特定位置，调用图片裁剪工具截取颈部区域放大观察。看到放大后的图片，模型认出这似乎是一条带有Vivienne Westwood（薇薇安·韦斯特伍德）Orb标志挂件的珍珠项链。为确认，模型将裁剪后的图片交给图片反向搜索工具进行验证，搜索结果返回了一些珍珠项链的网页，印证了这是Vivienne Westwood风格的项链。

确认品牌后，模型使用文字搜索工具查询“2018年关于Vivienne Westwood创始人的纪录片”，找到了《Westwood: Punk, Icon, Activist》这部2018年上映的纪录片，主角正是品牌创始人Vivienne Westwood本人。

接下来，为了找到海报上的视觉细节，模型调用图片搜索工具，用“Westwood Punk Icon Activist documentary 2018 poster”作为关键词搜索，成功找到了海报图片。图片显示，Vivienne Westwood在海报中正在吃一根香蕉。模型再用网页访问工具去IMDB页面进一步确认，最终确定答案：香蕉。

这个案例完整展示了Visual-Seeker的核心能力：从复杂图片中精准定位目标（裁剪放大识别项链），主动到网络上搜索视觉证据（搜索纪录片海报图片），并在整个过程中灵活地在文字搜索和图片搜索之间切换。

说到底，Visual-Seeker解决的问题，是一个看似简单但长期被忽视的问题：AI搜索系统能否真正“用眼睛”来收集证据？

这项研究给出了一个明确的答案：可以，而且方法路径已经相当清晰。关键在于两点：一是用真实复杂图片训练模型的视觉辨别能力，而非使用过于简单的图片偷懒；二是在训练数据的推理路径中，强制加入必须通过搜索图片才能完成的步骤，让模型从底层学会“视觉取证”这一动作。

研究也显示，这种方法并不需要庞大的数据量——5000条精心设计的训练轨迹，就足以让一个80亿参数的模型在多个基准上超越体量大得多的商业模型。这在一定程度上说明，数据的质量和设计思路，有时比数据的数量更重要。

当然，这套系统仍有很多可以改进之处。目前它在最复杂的基准MM-BrowseComp上的正确率仅为16.1%，说明真正困难的跨模态多跳推理问题依然是个巨大挑战。此外，研究仅采用监督微调而未引入强化学习，这意味着未来还有更大的性能提升空间。

一个有趣的问题是：当AI不仅能搜索文字，还能主动搜索图片、分析图片细节，这对我们寻找信息的方式意味着什么？当你不需要知道“45号球员叫什么”，只需把照片丢给它，它就能替你完成整个侦探式的调查，这又会怎样改变我们与信息世界的关系？有兴趣深入了解这项研究细节的读者，可通过arXiv编号2606.15231查阅完整论文。

Q&A

Q1：Visual-Seeker和普通的多模态AI搜索有什么本质区别？

A：普通多模态搜索系统仅将图片作为触发搜索的信号，整个搜索过程仍以文字为主。Visual-Seeker的核心区别在于两点：第一，它能在复杂的多人图片中精准识别目标实体；第二，它在搜索过程中会主动到网络上搜索图片、分析图片中的视觉细节，将视觉证据与文字证据结合推理，而非仅依赖文字信息。

Q2：Visual-Seeker的5000条训练数据是怎么来的？

A：这5000条数据是通过研究团队自行设计的“主动视觉推理数据流水线”合成的，分为三个阶段：先从真实复杂图片中提取精准的种子实体；然后在维基百科知识图谱上通过随机游走生成多跳推理问题；最后强制插入一个必须搜索图片才能回答的视觉取证子问题。其中3000条不含视觉证据注入，800条含有视觉证据注入，另有1200条来自其他来源补充。

Q3：Visual-Seeker在哪类问题上表现最突出？

A：在需要主动收集视觉证据才能回答的问题上表现最突出。在MM-BrowseComp和VisBrowse-Bench这两个专门考察视觉取证能力的基准测试上，Visual-Seeker甚至超越了GPT-5和Gemini-2.5-Pro这两个体量更大的商业模型。这表明专门针对“视觉原生搜索”设计的训练数据，在这类任务上效果极为显著。