2024精选AI研究助手测评：4B参数模型如何高效挑战百亿级大模型

2026-05-15阅读 0热度 0

蚂蚁集团

蚂蚁集团Venus团队于2026年4月在预印本平台arXiv发布了编号为2604.19859的研究论文，针对AI领域的一个核心挑战，提出了一个极具价值的解决方案。

研究动机：构建一个高效、轻量的AI研究助手

当你需要深入探究一个复杂议题，例如“某项前沿技术的商业化路径”或“某个法律判例的多方解读”时，传统的信息检索过程往往耗时费力。你需要反复搜索、交叉验证不同来源的资料，才能形成相对完整的认知。蚂蚁集团的研究目标，正是让AI替代人类完成这种高强度的“深度研究”工作。

他们开发的系统名为DR-Venus（DR即深度研究）。其核心能力在于，它能像专业研究员一样，自主执行网络搜索、访问并解析网页内容、提炼关键证据，并最终整合信息生成答案。关键在于，驱动这一系列复杂操作的模型仅有40亿参数，属于可部署于移动或边缘设备的轻量级架构。

这项研究的价值在于，当前能够执行类似深度研究任务的AI系统，通常依赖于参数量巨大（数百亿级）的模型或封闭数据管道，难以普及和复现。DR-Venus团队探索的核心命题是：在有限的数据和紧凑的模型规模下，能否通过训练方法的革新，使小模型具备与大型系统竞争的能力？

论文的结论是肯定的。研究表明，通过优化训练数据的质量与利用效率，一个40亿参数的模型，其性能不仅能全面超越多数90亿参数以下的同类模型，甚至在多项关键评测中，能够逼近或超越参数量为其数倍的大型系统。

一、深度研究任务的定义与核心挑战

传统AI问答类似于在静态知识库中检索答案。而“深度研究”则是一个动态、多步骤的探索过程。可以将其类比为调查记者的工作：前者是查阅档案，后者则需要主动出击，搜集碎片化信息并拼凑出完整图景。

具体而言，DR-Venus的工作流程是一个循环：接收查询后，首先进行网络搜索并获取结果摘要；随后，它会选择关键链接，深入浏览网页全文；基于已获取的信息判断证据是否充分，若不足则发起新一轮搜索与浏览。如此循环，直至收集到足够支撑结论的证据链，方才生成最终答案。

这个过程可能涉及数十步乃至上百步的连续决策，每一步都要求模型具备准确的判断和持续的上下文追踪能力。研究团队将这种需要长期规划与多轮交互的任务形式，定义为“长时域深度研究”，并以此作为模型训练与评估的核心框架。

二、第一阶段训练：高质量数据集的构建与优化

训练一个优秀的深度研究AI，首要任务是提供高质量的学习范例。DR-Venus的第一阶段采用监督微调，其关键在于对原始训练数据（来自公开数据集REDSearcher的10,001条研究轨迹）进行严格的清洗与增强。

研究团队设计了一套四步数据优化流程：

1. 格式标准化：将所有数据轨迹的格式（如系统指令、工具调用参数）统一为与实际部署环境完全一致的规范，确保模型学到的行为模式可直接应用于实践。

2. 冗余与噪声剔除：剔除原始轨迹中与当前任务无关的工具调用步骤，同时识别并移除大量重复的搜索与浏览操作，这些冗余行为会降低模型的学习效率。

3. 答案正确性过滤：使用一个更强的大模型作为“裁判”，评估每条轨迹最终答案的正确性，仅保留答案可靠的轨迹，避免模型学习错误的推理模式。

4. 基于轨迹长度的重采样：深度研究的价值体现在处理复杂、长链条的任务上。团队根据轨迹步数对样本进行加权采样：步数在51-100的样本出现频率翻倍，100步以上的复杂样本频率提升至五倍。这一策略将长轨迹（100步以上）的比例从13.29%显著提升至33.21%，使模型更多地学习如何处理高难度的研究案例。

三、第二阶段训练：基于信息增益的强化学习

仅靠模仿优秀案例（监督微调）不足以让模型应对实战中的复杂情况。第二阶段采用强化学习进行策略优化，但传统方法在长时域任务上面临“奖励稀疏”的难题：仅在任务最终成功时给予奖励，导致中间上百个步骤缺乏有效反馈，学习效率低下。

为此，团队采用了IGPO方法。其核心思想是为每一步操作提供即时反馈，评估该操作带来的“信息增益”——即该步骤执行后，模型生成正确答案的概率提升了多少。概率提升越大，获得的奖励越高。这使得即使任务最终失败，其中有效的中间步骤也能获得正向激励，极大增加了训练信号的密度。

在此基础上，团队针对深度研究任务做了两项关键改进：

1. 浏览感知的奖励分配：在深度研究中，浏览网页（获取详细信息）比搜索（获取摘要）更具价值。因此，奖励主要分配给浏览步骤及其引导了该浏览的前序搜索步骤。

2. 细粒度格式惩罚：对输出格式不规范的单个步骤进行精准惩罚，而非惩罚整个轨迹，这对于长序列任务更为合理。

此外，团队引入了“IG-Scale”自适应机制，动态平衡“逐步奖励”与“最终答案奖励”的权重，确保在不同任务难度下训练都能稳定进行。

四、性能评估：轻量级模型的竞争优势

研究团队在六个涵盖中英文深度搜索、多步信息整合的基准测试上评估了DR-Venus。

以最具代表性的BrowseComp（英文深度浏览测试）及其中文版BrowseComp-ZH为例，测试模型通过多轮深入浏览解决复杂问题的能力。结果显示，仅经过监督微调的DR-Venus-4B-SFT得分为26.8，而经过完整强化学习的DR-Venus-4B-RL得分提升至29.1。相比之下，同量级（90亿参数以下）的竞品模型得分多在5到24之间。

与更大模型的对比更具冲击力：DR-Venus-4B-RL（40亿参数）在BrowseComp上以29.1分超越了OpenResearcher-30B-A3B（300亿参数）的26.3分。在另一测试xBench-DS-2505中，其74.7分的表现与300亿参数的Tongyi-DR-30B（75.0分）仅差0.3分。

消融实验证实了各设计环节的必要性：移除重采样策略或使用传统强化学习方法，模型性能均出现显著下降。这证明，对于长时域任务，基于信息增益的密集奖励机制是提升小模型性能的关键。

五、潜力探索：小模型的能力上限

团队通过Pass@K测试探究了模型的潜力上限。该测试衡量模型在K次尝试中至少成功一次的概率，反映了其“最佳表现能力”。

结果令人瞩目：在BrowseComp上，DR-Venus-4B-RL的Pass@1为29.1，但Pass@16（允许16次尝试）高达63.7。在中文BrowseComp-ZH上，其Pass@16得分达到78.5，甚至超过了Gemini-3-Pro和GPT-5 High等顶级商业大模型。

这表明，虽然小模型单次回答的稳定性可能不如大模型，但其潜在的最佳能力非常强大。通过多次采样并选取最优答案的策略，部署在终端设备上的小模型，完全有可能在关键任务中达到顶尖水平。

六、关键洞察：浏览操作是深度研究的核心

通过分析模型在成功与失败任务中的行为差异，研究团队发现了一个普遍规律：成功轨迹中“浏览”操作（深入阅读网页）的比例，始终显著高于失败轨迹。

在监督微调版本中，正确轨迹的浏览操作平均占比为23.71%，而错误轨迹中仅为17.49%。经过强化学习训练后，模型整体浏览比例上升，且正确轨迹的浏览比例进一步提升至28.96%。

这一发现揭示了深度研究的本质：仅依赖搜索摘要无法解决复杂问题，必须深入阅读原始资料以获取充分、可靠的证据。强化学习帮助模型学会了更有效地使用浏览工具，将其用于关键的信息获取环节，而非随机点击。

研究启示：模型效率与训练方法的革新

DR-Venus项目有力地回应了“模型规模决定论”的质疑。它证明，通过高质量的数据工程与针对性的训练算法设计，轻量级模型完全可以在特定复杂任务上挑战乃至超越大型模型。

其现实意义在于，为开发可本地部署、低延迟、高隐私保护的AI深度研究助手提供了可行的技术路径。用户未来或许能在个人设备上运行一个强大的研究助手，无需依赖云端大模型。

团队已开源模型权重与代码。一个随之而来的思考是：小模型的性能瓶颈究竟在哪里？Pass@K实验暗示，瓶颈可能更多在于“单次执行的稳定性”而非“绝对能力上限”。因此，如何通过推理阶段的采样与选择策略来更充分地释放小模型的潜力，将成为下一个重要的研究方向。

Q&A

Q1：DR-Venus和普通AI聊天机器人有什么区别？

A：本质区别在于信息获取方式。普通聊天机器人依赖其训练时灌入的静态知识库，无法获取最新信息且知识有截止日期。DR-Venus则具备自主执行多轮网络搜索与深度浏览的能力，能像人类一样主动搜集、整合多方信息来解答复杂、开放的实时性问题。

Q2：IGPO是什么，为什么它比普通强化学习更有效？

A：IGPO全称为“基于信息增益的策略优化”，是一种专为长序列任务设计的强化学习算法。普通强化学习仅在任务结束时提供稀疏奖励，导致长达数百步的中间操作缺乏指导。IGPO通过量化每一步操作带来的“信息增益”（即向正确答案逼近的程度），为每一步提供即时、密集的反馈信号，从而极大提升了小模型在复杂长时域任务中的学习效率与最终性能。

Q3：为什么深度研究任务中浏览比搜索更重要？

A：搜索返回的通常是简短的网页摘要，信息密度和可信度有限。浏览则是直接解析网页全文，能够获取更详细、更原始的证据材料。行为数据分析表明，成功完成深度研究的轨迹普遍具有更高的浏览操作占比。这证实了深入的信息溯源与整合，而非浅层的关键词匹配，是解决复杂研究问题的关键。