北大等高校联合发布AI浏览器极限测试:GPT-5.2仅获36%正确率
在信息过载的今天,我们早已习惯了向搜索引擎抛出问题,并期待瞬间得到答案。但你是否想过,如果把这个任务交给当下最聪明的人工智能,它会做得比我们更好吗?最近,来自北京大学、香港科技大学(广州)和中科院自动化所等顶尖机构的研究团队,给出了一个有些出人意料的答案。他们构建了一套名为BrowseComp-V3的“超级难题集”,专门用来拷问AI的“上网冲浪”能力。测试结果揭示了一个关键事实:即便强大如GPT-5.2,在面对需要像人类一样穿梭于网页间、拼合图文线索的复杂任务时,也显得力不从心,准确率仅为36%。
这个数字背后,折射出AI技术一个鲜被触及的深水区。我们日常的搜索行为远非输入关键词那么简单。比如,想了解一位明星的职业生涯,你可能需要先找到他的作品列表,再逐一查询每部电影的票房和导演,最后还可能对比不同时期的剧照。这个过程涉及多轮跳转、信息筛选和交叉验证。研究团队正是想看看,AI到底能不能胜任这种需要“侦探式”思维的复合型搜索。
为了确保测试既公平又贴近现实,团队设定了严苛的标准:所有题目的关键证据必须能通过公开搜索引擎找到,且每道题都配有详细的“标准搜索路径”。这就像不仅给出了数学题的答案,还提供了完整的解题步骤,以便精准定位AI究竟在哪一环掉了链子。
一、像侦探一样拼图:AI如何在网络世界中寻找线索
如今的AI模型,堪称装备了语言理解、图像识别和网络工具使用能力的“数字侦探”。然而,现有的评测方法,却像是一直让这些侦探处理证据就摆在桌上的简单案件,无法检验其从纷繁线索中抽丝剥茧的真实功力。
问题出在哪里?仔细分析就会发现,许多现有测试要么过于简单,形同直接检索关键词;要么依赖视频、私有文档等普通工具无法触及的信息源,实用性大打折扣。更关键的是,多数测试只问结果,不问过程。这好比只凭考试分数评判学生,却不看他的解题思路是否正确,自然难以发现根本性的弱点。
正因如此,研究团队决心打造一面新的“镜子”——BrowseComp-V3。它的目标,是清晰映射出AI在复杂、开放网络环境中进行信息搜索与整合的真实能力边界,为技术改进指明方向。
二、精心设计的超级难题:300道让AI头疼的问题
BrowseComp-V3这座为AI准备的“迷宫”,包含了300道精心设计的题目,覆盖科学、技术、社会、文化、生活五大领域。其设计核心是一种“多维度跨模态覆盖”策略,简单说,就是模拟现实搜索中常遇到的情景:答案的碎片散落在不同网页的图文之间,需要像玩拼图一样把它们找出来并组合好。
题目按复杂度分为三级:一级问题要求在同一张图片的不同区域关联信息;二级问题需在同一网页的图文内容间建立联系;最具挑战性的三级问题,则要求跨越多个网页,串联起来自不同来源的图片和文字,形成完整的证据链。
此外,团队引入了“过程导向的细粒度评估”。这意味着评判不仅看最终答案对错,还要一步步检查AI的“解题步骤”。他们将复杂任务拆解为多个子目标,从而精确定位失败环节。所有题目都坚持高可靠性与可重现性原则,确保核心证据公开可得、相对稳定,且答案客观明确,避免了主观争议。
三、建造智能浏览助手:OmniSeeker的诞生
工欲善其事,必先利其器。为了公平测试不同AI模型,团队同步开发了OmniSeeker智能浏览助手框架。你可以把它理解为给AI配备的一套标准“探险装备”。
这套装备集成了五件核心工具:执行关键词检索的“文本搜索”、解析网页结构的“网页访问”、基于内容找相似图片的“图片搜索”、精准截取图像局部的“图片裁剪”,以及堪称“图片侦探”的“反向图片搜索”(能追溯图片来源及相关信息)。
OmniSeeker的设计哲学在于提供一个统一、透明的测试平台。当AI面对复杂问题时,它可以自主调用这些工具,先搜索、再深入阅读、接着挖掘图片信息、最后验证真伪。这确保了测试结果反映的是模型本身的能力差异,而非外部工具的不平等。
四、令人意外的测试结果:AI还有很长的路要走
测试结果颇具冲击力。顶级模型GPT-5.2的成功率仅为36%,而人类专家的平均成绩达到了68%,差距悬殊。这清晰地划出了当前AI的能力边界。
进一步分析发现,不同类型模型的表现模式迥异:那些无法调用外部工具的“纯语言模型”,成功率普遍低于10%,说明仅靠预训练记忆的知识库,完全无法应对需要实时信息检索的复杂任务。配备了网络搜索功能的模型表现更好,但也暴露了严重缺陷——在多模态信息整合上频频失误。
过程评分揭示了一个有趣现象:许多AI能较好地完成单个子任务,却在将多个子任务结果整合成最终答案时功亏一篑。此外,虽然闭源商业模型整体领先,但一些优质开源模型(如字节跳动的Doubao-Seed-1.8)在借助OmniSeeker后,成功率也达到了33.67%,展现了可观的潜力。
五、深入剖析:AI到底卡在了哪里
为了精准定位问题,团队对AI的错误进行了详细归因,主要发现四大类障碍:
视觉理解与定位错误最为普遍。AI在复杂的网页或图片中定位特定信息时,容易“看错地方”或被无关元素干扰,如同在嘈杂人群中认错了脸。
图片感知失败是另一大难关。面对网络世界中质量参差、角度刁钻的图片,AI的识别能力远逊于人类,时常完全无法理解或产生误判。
候选实体混淆问题凸显了逻辑短板。当搜索结果中间出现多个相似的人物、地点时,AI像患上了“脸盲症”,难以准确区分,导致推理链条从根上就错了。
最根本的挑战在于推理错误。即便所有必要信息都已获取,AI在将它们按逻辑关系组合成最终答案时,仍会频繁出错,暴露了其在多步骤逻辑推理上的深层局限。
值得注意的是,闭源与开源模型的错误模式不同:闭源模型视觉理解更强,但长程规划与复杂推理仍是短板;开源模型则更多受限于基础的视觉感知能力。
六、测试时间的魔力:给AI更多机会会怎样
一个很自然的问题是:如果给AI更多“思考”和“尝试”的机会,结果会改善吗?实验给出了肯定答案。
增加AI与环境的交互轮次,能显著提升其表现。一些原本无解的问题变得可解,尤其是参数更多的大模型,展现了更好的长程推理与自我修正潜力。另一种“采样一致性”测试(让同一模型多次尝试同一问题并取最佳答案)也带来了性能提升。这启示我们,优化搜索策略、允许迭代改进,可能是提升现有AI助手实用性的有效路径。
七、人类与AI:不同的优势和短板
对比人类与AI的表现模式,能发现一些深刻的互补性。人类的性能随搜索深度增加而急剧下降,主要受限于注意力与工作记忆容量。在多网页跳转和大量信息碎片记忆中,人容易感到疲劳和混乱。
AI的性能下降曲线则平缓得多,显示出更强的“信息处理耐力”。然而,双方的能力瓶颈截然不同:人类的主要瓶颈在于文本处理效率,受限于阅读速度和持续专注力;而AI的核心瓶颈在于多模态信息的整合与推理。
这种对比指向一个未来方向:理想的智能助手或许需要融合二者的优势——利用AI不知疲倦的信息检索与处理能力,同时借鉴人类在直觉、语境理解和创造性关联方面的长处。
说到底,这项研究为我们审视AI发展提供了一个关键剖面。它表明,尽管AI在诸多单项任务上已展现出惊人能力,但在需要跨模态理解、多步骤推理和实时信息综合的复杂任务中,它们距离可靠的人类助手仍有相当距离。BrowseComp-V3不仅是一套测试题,更像是一张精准的“体检报告”,标出了技术亟待突破的关口。
这对普通用户而言,意味着需要对当前AI助手的复杂任务处理能力保持审慎期待。同时,它也清晰地指明了技术进步的方向:增强多模态融合与长链逻辑推理能力,将是解锁下一代AI应用的关键。而像OmniSeeker这样公平、透明的评测框架,对于推动整个行业健康、有序地朝着这个方向迈进,无疑具有重要价值。
Q&A
Q1:BrowseComp-V3到底是什么东西?
A:它是由北京大学等机构联合开发的一套AI能力测试集,包含300道高度复杂的题目。这些题目模拟了真实的上网搜索场景,要求AI在多个网页间跳转,并结合图片与文字线索来解决问题,其难度远超传统的单轮问答测试。
Q2:为什么连最先进的GPT-5.2都只能答对36%的题目?
A:因为这些题目综合考验了视觉理解、文本分析、信息检索和逻辑推理等多种能力的协同。AI常常在理解图片内容、整合分散信息或执行多步推理时出错。这好比要求一个助手同时扮演侦探、翻译和策略家,挑战极大。
Q3:OmniSeeker工具对普通人有什么用处吗?
A:目前它主要是一个研究框架,普通用户尚无法直接使用。但它展示了未来智能助手的发展蓝图。未来,基于类似技术的工具或许能帮助我们更高效地完成诸如旅行规划、产品深度调研或跨学科知识学习等需要综合信息的复杂任务。
