北大等高校联合发布AI浏览器极限测试：GPT-5.2仅获36%正确率

2026-05-12阅读 0热度 0

AI浏览器

在信息过载的今天，我们早已习惯了向搜索引擎抛出问题，并期待瞬间得到答案。但你是否想过，如果把这个任务交给当下最聪明的人工智能，它会做得比我们更好吗？最近，来自北京大学、香港科技大学（广州）和中科院自动化所等顶尖机构的研究团队，给出了一个有些出人意料的答案。他们构建了一套名为BrowseComp-V3的“超级难题集”，专门用来拷问AI的“上网冲浪”能力。测试结果揭示了一个关键事实：即便强大如GPT-5.2，在面对需要像人类一样穿梭于网页间、拼合图文线索的复杂任务时，也显得力不从心，准确率仅为36%。

这个数字背后，折射出AI技术一个鲜被触及的深水区。我们日常的搜索行为远非输入关键词那么简单。比如，想了解一位明星的职业生涯，你可能需要先找到他的作品列表，再逐一查询每部电影的票房和导演，最后还可能对比不同时期的剧照。这个过程涉及多轮跳转、信息筛选和交叉验证。研究团队正是想看看，AI到底能不能胜任这种需要“侦探式”思维的复合型搜索。

为了确保测试既公平又贴近现实，团队设定了严苛的标准：所有题目的关键证据必须能通过公开搜索引擎找到，且每道题都配有详细的“标准搜索路径”。这就像不仅给出了数学题的答案，还提供了完整的解题步骤，以便精准定位AI究竟在哪一环掉了链子。

一、像侦探一样拼图：AI如何在网络世界中寻找线索

如今的AI模型，堪称装备了语言理解、图像识别和网络工具使用能力的“数字侦探”。然而，现有的评测方法，却像是一直让这些侦探处理证据就摆在桌上的简单案件，无法检验其从纷繁线索中抽丝剥茧的真实功力。

问题出在哪里？仔细分析就会发现，许多现有测试要么过于简单，形同直接检索关键词；要么依赖视频、私有文档等普通工具无法触及的信息源，实用性大打折扣。更关键的是，多数测试只问结果，不问过程。这好比只凭考试分数评判学生，却不看他的解题思路是否正确，自然难以发现根本性的弱点。

正因如此，研究团队决心打造一面新的“镜子”——BrowseComp-V3。它的目标，是清晰映射出AI在复杂、开放网络环境中进行信息搜索与整合的真实能力边界，为技术改进指明方向。

二、精心设计的超级难题：300道让AI头疼的问题

BrowseComp-V3这座为AI准备的“迷宫”，包含了300道精心设计的题目，覆盖科学、技术、社会、文化、生活五大领域。其设计核心是一种“多维度跨模态覆盖”策略，简单说，就是模拟现实搜索中常遇到的情景：答案的碎片散落在不同网页的图文之间，需要像玩拼图一样把它们找出来并组合好。

题目按复杂度分为三级：一级问题要求在同一张图片的不同区域关联信息；二级问题需在同一网页的图文内容间建立联系；最具挑战性的三级问题，则要求跨越多个网页，串联起来自不同来源的图片和文字，形成完整的证据链。

此外，团队引入了“过程导向的细粒度评估”。这意味着评判不仅看最终答案对错，还要一步步检查AI的“解题步骤”。他们将复杂任务拆解为多个子目标，从而精确定位失败环节。所有题目都坚持高可靠性与可重现性原则，确保核心证据公开可得、相对稳定，且答案客观明确，避免了主观争议。

三、建造智能浏览助手：OmniSeeker的诞生

工欲善其事，必先利其器。为了公平测试不同AI模型，团队同步开发了OmniSeeker智能浏览助手框架。你可以把它理解为给AI配备的一套标准“探险装备”。

这套装备集成了五件核心工具：执行关键词检索的“文本搜索”、解析网页结构的“网页访问”、基于内容找相似图片的“图片搜索”、精准截取图像局部的“图片裁剪”，以及堪称“图片侦探”的“反向图片搜索”（能追溯图片来源及相关信息）。

OmniSeeker的设计哲学在于提供一个统一、透明的测试平台。当AI面对复杂问题时，它可以自主调用这些工具，先搜索、再深入阅读、接着挖掘图片信息、最后验证真伪。这确保了测试结果反映的是模型本身的能力差异，而非外部工具的不平等。

四、令人意外的测试结果：AI还有很长的路要走

测试结果颇具冲击力。顶级模型GPT-5.2的成功率仅为36%，而人类专家的平均成绩达到了68%，差距悬殊。这清晰地划出了当前AI的能力边界。

进一步分析发现，不同类型模型的表现模式迥异：那些无法调用外部工具的“纯语言模型”，成功率普遍低于10%，说明仅靠预训练记忆的知识库，完全无法应对需要实时信息检索的复杂任务。配备了网络搜索功能的模型表现更好，但也暴露了严重缺陷——在多模态信息整合上频频失误。

过程评分揭示了一个有趣现象：许多AI能较好地完成单个子任务，却在将多个子任务结果整合成最终答案时功亏一篑。此外，虽然闭源商业模型整体领先，但一些优质开源模型（如字节跳动的Doubao-Seed-1.8）在借助OmniSeeker后，成功率也达到了33.67%，展现了可观的潜力。

五、深入剖析：AI到底卡在了哪里

为了精准定位问题，团队对AI的错误进行了详细归因，主要发现四大类障碍：

视觉理解与定位错误最为普遍。AI在复杂的网页或图片中定位特定信息时，容易“看错地方”或被无关元素干扰，如同在嘈杂人群中认错了脸。

图片感知失败是另一大难关。面对网络世界中质量参差、角度刁钻的图片，AI的识别能力远逊于人类，时常完全无法理解或产生误判。

候选实体混淆问题凸显了逻辑短板。当搜索结果中间出现多个相似的人物、地点时，AI像患上了“脸盲症”，难以准确区分，导致推理链条从根上就错了。

最根本的挑战在于推理错误。即便所有必要信息都已获取，AI在将它们按逻辑关系组合成最终答案时，仍会频繁出错，暴露了其在多步骤逻辑推理上的深层局限。

值得注意的是，闭源与开源模型的错误模式不同：闭源模型视觉理解更强，但长程规划与复杂推理仍是短板；开源模型则更多受限于基础的视觉感知能力。

六、测试时间的魔力：给AI更多机会会怎样

一个很自然的问题是：如果给AI更多“思考”和“尝试”的机会，结果会改善吗？实验给出了肯定答案。

增加AI与环境的交互轮次，能显著提升其表现。一些原本无解的问题变得可解，尤其是参数更多的大模型，展现了更好的长程推理与自我修正潜力。另一种“采样一致性”测试（让同一模型多次尝试同一问题并取最佳答案）也带来了性能提升。这启示我们，优化搜索策略、允许迭代改进，可能是提升现有AI助手实用性的有效路径。

七、人类与AI：不同的优势和短板

对比人类与AI的表现模式，能发现一些深刻的互补性。人类的性能随搜索深度增加而急剧下降，主要受限于注意力与工作记忆容量。在多网页跳转和大量信息碎片记忆中，人容易感到疲劳和混乱。

AI的性能下降曲线则平缓得多，显示出更强的“信息处理耐力”。然而，双方的能力瓶颈截然不同：人类的主要瓶颈在于文本处理效率，受限于阅读速度和持续专注力；而AI的核心瓶颈在于多模态信息的整合与推理。

这种对比指向一个未来方向：理想的智能助手或许需要融合二者的优势——利用AI不知疲倦的信息检索与处理能力，同时借鉴人类在直觉、语境理解和创造性关联方面的长处。

说到底，这项研究为我们审视AI发展提供了一个关键剖面。它表明，尽管AI在诸多单项任务上已展现出惊人能力，但在需要跨模态理解、多步骤推理和实时信息综合的复杂任务中，它们距离可靠的人类助手仍有相当距离。BrowseComp-V3不仅是一套测试题，更像是一张精准的“体检报告”，标出了技术亟待突破的关口。

这对普通用户而言，意味着需要对当前AI助手的复杂任务处理能力保持审慎期待。同时，它也清晰地指明了技术进步的方向：增强多模态融合与长链逻辑推理能力，将是解锁下一代AI应用的关键。而像OmniSeeker这样公平、透明的评测框架，对于推动整个行业健康、有序地朝着这个方向迈进，无疑具有重要价值。

Q&A

Q1：BrowseComp-V3到底是什么东西？
A：它是由北京大学等机构联合开发的一套AI能力测试集，包含300道高度复杂的题目。这些题目模拟了真实的上网搜索场景，要求AI在多个网页间跳转，并结合图片与文字线索来解决问题，其难度远超传统的单轮问答测试。

Q2：为什么连最先进的GPT-5.2都只能答对36%的题目？
A：因为这些题目综合考验了视觉理解、文本分析、信息检索和逻辑推理等多种能力的协同。AI常常在理解图片内容、整合分散信息或执行多步推理时出错。这好比要求一个助手同时扮演侦探、翻译和策略家，挑战极大。

Q3：OmniSeeker工具对普通人有什么用处吗？
A：目前它主要是一个研究框架，普通用户尚无法直接使用。但它展示了未来智能助手的发展蓝图。未来，基于类似技术的工具或许能帮助我们更高效地完成诸如旅行规划、产品深度调研或跨学科知识学习等需要综合信息的复杂任务。