30B参数深度搜索Agent REDSearcher对比GPT-5性能评测

2026-06-02阅读 0热度 0

低成本

“2018至2023年间，EMNLP会议收录了一篇论文，其第一作者本科毕业于达特茅斯学院，第四作者本科毕业于宾夕法尼亚大学。这篇论文的标题是什么？”

死记硬背解决不了这道题。真正的挑战，在于Agent必须在动态环境中持续假设、验证、修正自身推理路径，同时保持逻辑一致性，最终将零散证据拼接成自洽链条。这正是深度搜索的本质。

2025年被视作AI Agent元年，但真正自主的Agent，核心在于“深度搜索”——一种像人类专家那样，在长程任务中精准锁定目标、反复验证信息、动态调整策略的能力。然而，要训练出这样的Agent，面前横亘着三大障碍。

第一：数据稀缺。高难度长程问答几乎全靠人工标注，成本极高。因此，首要任务是搭建一条能自动合成高难度问题的流水线。

第二：能力鸿沟。预训练模型知识储备充足，但一旦进入真实环境进行长程交互便力不从心。这一短板必须通过成本可控的中间训练阶段来弥补。

第三：环境缺失。直接在真实环境中训练，成本高昂且不可控。一个功能等价的模拟环境，能在本地复现搜索过程，加速算法迭代，这才是务实选择。

为攻克这些瓶颈，REDSearcher团队设计了一套低成本、可扩展的训练框架。最终，一个30B参数模型在深度搜索任务上不仅拿下开源模型SoTA，甚至超越了GPT-5等闭源模型。

那么，什么才算“困难”的搜索题目？许多人只看推理跳数，但真正的难点在于问题的结构性复杂度。

1. 拓扑复杂度：用树宽量化“结构性困难”

复杂任务中，信息常分叉、交织，甚至形成回环。Agent需同时记忆多路推论，时刻验证其一致性，随时准备整体回溯重来——这是深度搜索的核心考验。为此，团队引入图论中的TreeWidth（树宽）来量化结构性难度。典型结构如下：

线性/树状（树宽=1）：典型链式推理，按序检索即可解决。
菱形/回环（树宽=2）：出现分叉与重汇，Agent必须维持多路假设一致性，遇到矛盾则需回溯。
强耦合子图（树宽≥3）：形成网状约束，零散证据必须拼成一致整体，迫使模型进行全局验证与回溯，难度直线上升。

2. 信息分散度：杜绝搜索“捷径”

即便问题结构再复杂，若某个网页恰好汇总了所有关键事实，模型一次检索就能抄走答案，难度便名不副实。因此，团队引入“信息分散度”——即覆盖全部关键证据所需的最小来源数。数值越大，说明相关正确片段在网上分布越零散，Agent必须与外部环境进行更多轮交互才能凑齐信息。

基于两个约束，团队采用graph-to-text流程合成数据：先按树宽和分散度生成推理图，再翻译为自然语言问题，并通过多层校验确保“高难度、可解且答案唯一”。同时，设计了两套图构造流程，分别基于“结构化信息”和“网络浏览”，以覆盖不同搜索环境。

合成问题中，两个关键手段值得关注：

拓扑结构增强：直接生成高树宽图成功率低。为此，团队引入大模型智能体对初始依赖图进行“拓扑加密”，通过添加环状和交错约束，显著提升结构复杂度，迭代提高问题难度。
工具增强的问题合成：在问题构造阶段，主动植入工具调用需求。例如将关键实体替换为隐含工具依赖的表达——地名换成地图服务，文章换成谷歌学术——使工具调用成为解题前置条件。

在文本合成基础上，REDSearcher还通过模态注入，将纯文本推理图转化为跨模态推理，让部分约束锚定在图像中。

视觉属性锚定：用图像描述替换节点文本属性，迫使模型先识别图像再关联知识。
跨模态依赖：设置视觉不可替代的约束，让图像搜索成为推理必经之路，而非冗余信息。
视觉语义抽象：用抽象指代替代直接命名，迫使模型识别图像内容后再进行搜索。
模态灵活插入：视觉证据可插入推理链任意位置——前期设置增加难度，后期引入用于验证，实现难度精细控制。

通过这套轻量级扩展，REDSearcher能高效迁移到多模态搜索领域，合成高质量的图文深度搜索问题。

预训练模型缺乏多轮交互训练，在长程搜索中容易目标漂移、重复搜索。为此，REDSearcher采用可扩展的两阶段Mid-Training框架，依次强化模型的“原子能力”和“组合能力”，完成从语言建模到智能体的平滑过渡。

原子能力建设，聚焦于两个基础能力：

意图锚定：从含噪观测中精准抓取关键证据，过滤噪声，减少幻觉和推理漂移。
层次化规划：将复杂目标拆解为可立即求解的具体目标，以及需逐步消解的不确定目标，确保规划可落地。

组合能力建设，则通过环境交互强化长程任务中的状态维持与目标一致性，全程以成本为约束：

工具调用能力：通过合成工具协议与本地模拟环境交互，让模型在ReACT范式下掌握基础与外界交互能力。
长程交互能力：在“功能一致”的模拟环境中，让Agent进行长程环境交互，强化规划能力和目标一致性。

后训练阶段，采用SFT + Agentic RL双阶段增强。先在真实环境中交互，通过多重过滤获取长程高质量轨迹，教会模型深度搜索行为；然后在真实搜索环境中进一步优化策略。

其中几个关键设计值得关注：

a. 低成本验证：构建“功能等价”的本地模拟环境，保持API一致、证据完备且含噪声，加速实验迭代。
b. 数据质量保障：针对合成问题中可能出现的答案错误、一题多解等现象，采用Agent-as-Verifier对强化学习问题集进行校验，避免数据污染影响训练稳定性。

团队还观察到一个令人振奋的现象：效率与性能同步提升。随着训练进行，模型平均交互轮次不断下降，但准确率持续上升。这说明REDSearcher并非简单“暴力搜索”，而是学会了更精准的信息获取策略，主动减少无效调用，形成“越训越聪明”的良性循环。

在多项深度搜索权威基准上，REDSearcher表现亮眼。

REDSearcher在同规模开源模型中取得SoTA水平，并超越GPT-5-Thinking-high、Gemini-2.5-pro、Claude-4.5-sonnet等闭源先进模型（*为带有上下文管理的性能）。
在BrowseComp、GAIA等深度搜索榜单上，同样超越上述闭源模型。
REDSearcher-MM在多模态搜索基准中相比同规格模型取得SoTA水平，性能超过Gemini-2.5-pro，在部分基准上接近Gemini-3-pro水平。

归根结底，REDSearcher的核心在于系统性设计：从图论角度定义深度搜索任务复杂度，以双约束优化可扩展合成数据，以两阶段中间训练降低能力迁移成本，以高质量轨迹合成结合强化学习实现持续迭代。它提供了一条可复现、低成本的深度搜索智能体训练路径，让AI系统从静态知识查询，真正走向开放环境下的自主探索、验证与信息整合。

30B参数深度搜索Agent REDSearcher对比GPT-5性能评测

1. 拓扑复杂度：用树宽量化“结构性困难”

2. 信息分散度：杜绝搜索“捷径”

相关阅读

最新教程

最新资讯