2024精选AI研究助手测评:4B参数模型如何高效挑战百亿级大模型

2026-05-15阅读 0热度 0
蚂蚁集团

蚂蚁集团Venus团队于2026年4月在预印本平台arXiv发布了编号为2604.19859的研究论文,针对AI领域的一个核心挑战,提出了一个极具价值的解决方案。

蚂蚁集团打造的

研究动机:构建一个高效、轻量的AI研究助手

当你需要深入探究一个复杂议题,例如“某项前沿技术的商业化路径”或“某个法律判例的多方解读”时,传统的信息检索过程往往耗时费力。你需要反复搜索、交叉验证不同来源的资料,才能形成相对完整的认知。蚂蚁集团的研究目标,正是让AI替代人类完成这种高强度的“深度研究”工作。

他们开发的系统名为DR-Venus(DR即深度研究)。其核心能力在于,它能像专业研究员一样,自主执行网络搜索、访问并解析网页内容、提炼关键证据,并最终整合信息生成答案。关键在于,驱动这一系列复杂操作的模型仅有40亿参数,属于可部署于移动或边缘设备的轻量级架构。

这项研究的价值在于,当前能够执行类似深度研究任务的AI系统,通常依赖于参数量巨大(数百亿级)的模型或封闭数据管道,难以普及和复现。DR-Venus团队探索的核心命题是:在有限的数据和紧凑的模型规模下,能否通过训练方法的革新,使小模型具备与大型系统竞争的能力?

论文的结论是肯定的。研究表明,通过优化训练数据的质量与利用效率,一个40亿参数的模型,其性能不仅能全面超越多数90亿参数以下的同类模型,甚至在多项关键评测中,能够逼近或超越参数量为其数倍的大型系统。

一、深度研究任务的定义与核心挑战

传统AI问答类似于在静态知识库中检索答案。而“深度研究”则是一个动态、多步骤的探索过程。可以将其类比为调查记者的工作:前者是查阅档案,后者则需要主动出击,搜集碎片化信息并拼凑出完整图景。

具体而言,DR-Venus的工作流程是一个循环:接收查询后,首先进行网络搜索并获取结果摘要;随后,它会选择关键链接,深入浏览网页全文;基于已获取的信息判断证据是否充分,若不足则发起新一轮搜索与浏览。如此循环,直至收集到足够支撑结论的证据链,方才生成最终答案。

这个过程可能涉及数十步乃至上百步的连续决策,每一步都要求模型具备准确的判断和持续的上下文追踪能力。研究团队将这种需要长期规划与多轮交互的任务形式,定义为“长时域深度研究”,并以此作为模型训练与评估的核心框架。

二、第一阶段训练:高质量数据集的构建与优化

训练一个优秀的深度研究AI,首要任务是提供高质量的学习范例。DR-Venus的第一阶段采用监督微调,其关键在于对原始训练数据(来自公开数据集REDSearcher的10,001条研究轨迹)进行严格的清洗与增强。

研究团队设计了一套四步数据优化流程:

1. 格式标准化:将所有数据轨迹的格式(如系统指令、工具调用参数)统一为与实际部署环境完全一致的规范,确保模型学到的行为模式可直接应用于实践。

2. 冗余与噪声剔除:剔除原始轨迹中与当前任务无关的工具调用步骤,同时识别并移除大量重复的搜索与浏览操作,这些冗余行为会降低模型的学习效率。

3. 答案正确性过滤:使用一个更强的大模型作为“裁判”,评估每条轨迹最终答案的正确性,仅保留答案可靠的轨迹,避免模型学习错误的推理模式。

4. 基于轨迹长度的重采样:深度研究的价值体现在处理复杂、长链条的任务上。团队根据轨迹步数对样本进行加权采样:步数在51-100的样本出现频率翻倍,100步以上的复杂样本频率提升至五倍。这一策略将长轨迹(100步以上)的比例从13.29%显著提升至33.21%,使模型更多地学习如何处理高难度的研究案例。

三、第二阶段训练:基于信息增益的强化学习

仅靠模仿优秀案例(监督微调)不足以让模型应对实战中的复杂情况。第二阶段采用强化学习进行策略优化,但传统方法在长时域任务上面临“奖励稀疏”的难题:仅在任务最终成功时给予奖励,导致中间上百个步骤缺乏有效反馈,学习效率低下。

为此,团队采用了IGPO方法。其核心思想是为每一步操作提供即时反馈,评估该操作带来的“信息增益”——即该步骤执行后,模型生成正确答案的概率提升了多少。概率提升越大,获得的奖励越高。这使得即使任务最终失败,其中有效的中间步骤也能获得正向激励,极大增加了训练信号的密度。

在此基础上,团队针对深度研究任务做了两项关键改进:

1. 浏览感知的奖励分配:在深度研究中,浏览网页(获取详细信息)比搜索(获取摘要)更具价值。因此,奖励主要分配给浏览步骤及其引导了该浏览的前序搜索步骤。

2. 细粒度格式惩罚:对输出格式不规范的单个步骤进行精准惩罚,而非惩罚整个轨迹,这对于长序列任务更为合理。

此外,团队引入了“IG-Scale”自适应机制,动态平衡“逐步奖励”与“最终答案奖励”的权重,确保在不同任务难度下训练都能稳定进行。

四、性能评估:轻量级模型的竞争优势

研究团队在六个涵盖中英文深度搜索、多步信息整合的基准测试上评估了DR-Venus。

以最具代表性的BrowseComp(英文深度浏览测试)及其中文版BrowseComp-ZH为例,测试模型通过多轮深入浏览解决复杂问题的能力。结果显示,仅经过监督微调的DR-Venus-4B-SFT得分为26.8,而经过完整强化学习的DR-Venus-4B-RL得分提升至29.1。相比之下,同量级(90亿参数以下)的竞品模型得分多在5到24之间。

与更大模型的对比更具冲击力:DR-Venus-4B-RL(40亿参数)在BrowseComp上以29.1分超越了OpenResearcher-30B-A3B(300亿参数)的26.3分。在另一测试xBench-DS-2505中,其74.7分的表现与300亿参数的Tongyi-DR-30B(75.0分)仅差0.3分。

消融实验证实了各设计环节的必要性:移除重采样策略或使用传统强化学习方法,模型性能均出现显著下降。这证明,对于长时域任务,基于信息增益的密集奖励机制是提升小模型性能的关键。

五、潜力探索:小模型的能力上限

团队通过Pass@K测试探究了模型的潜力上限。该测试衡量模型在K次尝试中至少成功一次的概率,反映了其“最佳表现能力”。

结果令人瞩目:在BrowseComp上,DR-Venus-4B-RL的Pass@1为29.1,但Pass@16(允许16次尝试)高达63.7。在中文BrowseComp-ZH上,其Pass@16得分达到78.5,甚至超过了Gemini-3-Pro和GPT-5 High等顶级商业大模型。

这表明,虽然小模型单次回答的稳定性可能不如大模型,但其潜在的最佳能力非常强大。通过多次采样并选取最优答案的策略,部署在终端设备上的小模型,完全有可能在关键任务中达到顶尖水平。

六、关键洞察:浏览操作是深度研究的核心

通过分析模型在成功与失败任务中的行为差异,研究团队发现了一个普遍规律:成功轨迹中“浏览”操作(深入阅读网页)的比例,始终显著高于失败轨迹。

在监督微调版本中,正确轨迹的浏览操作平均占比为23.71%,而错误轨迹中仅为17.49%。经过强化学习训练后,模型整体浏览比例上升,且正确轨迹的浏览比例进一步提升至28.96%。

这一发现揭示了深度研究的本质:仅依赖搜索摘要无法解决复杂问题,必须深入阅读原始资料以获取充分、可靠的证据。强化学习帮助模型学会了更有效地使用浏览工具,将其用于关键的信息获取环节,而非随机点击。

研究启示:模型效率与训练方法的革新

DR-Venus项目有力地回应了“模型规模决定论”的质疑。它证明,通过高质量的数据工程与针对性的训练算法设计,轻量级模型完全可以在特定复杂任务上挑战乃至超越大型模型。

其现实意义在于,为开发可本地部署、低延迟、高隐私保护的AI深度研究助手提供了可行的技术路径。用户未来或许能在个人设备上运行一个强大的研究助手,无需依赖云端大模型。

团队已开源模型权重与代码。一个随之而来的思考是:小模型的性能瓶颈究竟在哪里?Pass@K实验暗示,瓶颈可能更多在于“单次执行的稳定性”而非“绝对能力上限”。因此,如何通过推理阶段的采样与选择策略来更充分地释放小模型的潜力,将成为下一个重要的研究方向。

Q&A

Q1:DR-Venus和普通AI聊天机器人有什么区别?

A:本质区别在于信息获取方式。普通聊天机器人依赖其训练时灌入的静态知识库,无法获取最新信息且知识有截止日期。DR-Venus则具备自主执行多轮网络搜索与深度浏览的能力,能像人类一样主动搜集、整合多方信息来解答复杂、开放的实时性问题。

Q2:IGPO是什么,为什么它比普通强化学习更有效?

A:IGPO全称为“基于信息增益的策略优化”,是一种专为长序列任务设计的强化学习算法。普通强化学习仅在任务结束时提供稀疏奖励,导致长达数百步的中间操作缺乏指导。IGPO通过量化每一步操作带来的“信息增益”(即向正确答案逼近的程度),为每一步提供即时、密集的反馈信号,从而极大提升了小模型在复杂长时域任务中的学习效率与最终性能。

Q3:为什么深度研究任务中浏览比搜索更重要?

A:搜索返回的通常是简短的网页摘要,信息密度和可信度有限。浏览则是直接解析网页全文,能够获取更详细、更原始的证据材料。行为数据分析表明,成功完成深度研究的轨迹普遍具有更高的浏览操作占比。这证实了深入的信息溯源与整合,而非浅层的关键词匹配,是解决复杂研究问题的关键。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策