网页智能体训练新范式：UIUC微软联合边干边学

2026-06-06阅读 0热度 0

智能体

这项由美国伊利诺伊大学厄巴纳-香槟分校（UIUC）与微软研究院联合推进的研究，于2026年6月发布在预印本平台arXiv上，论文编号为arXiv:2606.02031。感兴趣的读者可直接通过该编号检索并下载完整论文，深入了解技术细节。

每天，数十亿用户在浏览器中执行各类操作——搜索信息、在线购物、填写表单、查询数据——这些对人类而言近乎本能的行为，对AI来说却是艰巨挑战。网页环境动态、混乱，验证码、弹窗、定期改版等因素，任意一个都可能让试图“理解网页、精准操作、完成任务”的AI智能体陷入僵局。

目前最顶尖的网页AI智能体，基本由OpenAI、Google等科技巨头掌控，属于训练细节不对外公开的“黑箱系统”。开源社区虽持续发力，但普遍依赖“监督学习”模式——先收集大量人类操作示范视频，再让AI进行模仿。这种方法的致命缺陷在于：录制示范不仅成本高昂且耗时费力，且从录制完成的那一刻起数据就开始“过时”，无法跟上互联网日新月异的迭代节奏。

正是在此背景下，UIUC与微软的研究团队决定另辟蹊径。核心思路是：与其让AI机械记忆人类操作示范，不如让AI直接在真实网站上“自主试错”，从成功与失败中汲取经验。这一方向被称为“在线强化学习”，对于视觉化的网页智能体而言，此前几乎是一片空白领域。

研究团队将这一完整训练框架命名为OpenWebRL，并基于此训练出4B参数规模的模型OpenWebRL-4B。该模型仅凭借400条初始示范轨迹和2200个在线训练任务，就在三大顶级网页智能体测评基准上刷新了开源模型最高分，部分指标甚至超越了OpenAI与Google的商业系统。

为什么“自主试错”比“机械模仿”更具挑战？

在正式介绍这套方法前，有必要先理解让AI在真实网页上“边干边学”为何如此艰难。

一个人学骑自行车，会从摔倒中领悟平衡的重要性，并在下次调整姿势。这个反馈是即时且清晰的。但让AI在网页上学习完成任务，面临的反馈环境却复杂得多。网页是动态的——今天正常显示的按钮，明天可能被移除；今天跑通的登录流程，明天可能多一道验证码；一些网站会将频繁的自动化操作识别为“机器人”并直接封锁。这些都是“环境噪声”，极易让AI误判为自己的错误，从而导致学习方向偏离。

更棘手的问题在于：网页任务的“成败”往往要等整个任务完成后才能判定。你无法在AI点击第三个按钮时就告诉它“这一步做对了”，只能等它最终输出“这款鞋的最低价是299元”之后，才能评估全过程是否正确。这种“事后才知道结果”的反馈机制，对训练算法的设计提出了极高要求。

同时，视觉信息的处理成本极高。每一步操作，AI都需要“看”一张网页截图——这张截图可能包含数百个元素，消耗大量计算资源。如果每一步的历史截图都保留在AI的“记忆”中，一个30步的任务轨迹甚至可能超出大多数模型的上下文承载上限。

研究团队在论文中系统性地梳理了这些挑战，并为每一项挑战设计了具体解决方案，这些方案共同构成了OpenWebRL框架的核心。

搭建一个“真实网页训练场”

OpenWebRL的第一块基石，是一套能在真实网站上稳定运行的浏览器环境基础设施。

可以将这套系统理解为给AI搭建了一个“沙盒游乐场”——每个训练任务都在独立的虚拟浏览器窗口中运行，互不干扰，就像每位学员都有自己专属的训练跑道，不会因他人失误而受影响。这套基础设施基于Playwright和Chromium构建，运行在Kubernetes容器化环境中，支持上百个浏览器实例同时并行运作。

但真实网页的棘手之处在于，即便环境搭建完成，各种意外仍会随时发生：网站加载过慢、网络请求超时、页面突然弹出验证码、按钮因反自动化机制被拒绝点击。研究团队为此设计了完善的“容错机制”——系统会自动区分“是AI操作失误”还是“网站故障”，并将失败原因详细记录，以便后续分析。对于那些反复出现网络故障的网站，系统还会自动将其列入黑名单，避免训练资源浪费在无法访问的地址上。

让AI“看见”自己的每一步操作结果

仅靠截图，AI很难判断自己的操作是否真正生效。点击一个按钮后，页面可能看似无变化，但实际可能已悄然导航到新页面，或者填写的内容并未被接受。

OpenWebRL解决这一问题的方式是：为每一次操作附加一条“文字反馈”，相当于给AI配备了一位实时助理，在每次操作后低声提示：“刚才你点击的按钮已成功，页面已跳转到xxx”，或者“你输入的文字与实际接受的内容不一致，请注意”。这条反馈是通过分析操作前后的网页DOM树变化生成的，内容简洁但信息密度极高。

这条反馈的重要性在后续实验中得到了明确验证——去掉这个文字反馈后，AI在多个基准测试上的成功率会下降5到8个百分点。尤其是在需要多步操作的长程任务中，缺少这一反馈，AI就像在黑暗中摸索，极易在已失败的操作上反复纠缠，或意识不到关键步骤已出错。

给AI的“操作工具箱”与“多任务并行”能力

OpenWebRL为AI配备了一套由13个基础操作工具组成的工具箱，涵盖鼠标点击（单击、双击、右键）、键盘输入、页面滚动、网址跳转、前进后退、标签页管理，以及最重要的“完成并报告”操作——这是AI告知系统“任务已完成，我的答案是xxx”的唯一方式。

更有趣的是，AI每次无需只调用一个工具。研究团队允许AI在一次“思考-行动”周期中连续调用多个工具。例如，AI可以在一次输出中同时完成“点击搜索框、输入关键词、按回车”这三个连续动作，无需经历三次“截图→思考→操作→等待截图”的完整循环。这一设计大幅提升了训练效率，减少了模型与环境之间不必要的来回交互。

解决“记忆过载”的巧妙策略

一个30步的网页操作任务，若保留每一步的截图，数据量之大足以撑爆大多数模型的上下文限制。研究团队的解决方案既简洁又高效：仅保留最近一张截图，但完整保留历史文字信息。

道理其实很直观：人在处理复杂任务时，无需同时盯着之前每一步的操作界面，只需记住之前做了什么、结果如何，以及当前屏幕上的内容即可。AI也是如此。历史截图被丢弃，但每一步的操作记录、环境反馈和AI自身的“思考过程”都完整保留，作为文字形式的“工作记忆”。

实验结果表明，只保留最近一张截图（K=1）与保留最近两张相比，效果几乎没有差异，但计算成本显著降低——保留两张截图会使训练时长从约240 GPU小时增加到400 GPU小时。这一发现表明，在多模态智能体的长程任务中，语言记忆的价值往往比视觉历史更为关键。

“导师”先打好基础，再放手自学

OpenWebRL的训练分为两个阶段，这两个阶段的设计思路，与人类学习新技能的经典路径高度相似：先跟随导师学习基本功，再独立实战提升。

第一阶段是“监督微调”，即让AI先模仿专家操作。研究团队使用Qwen3-VL-235B（一个拥有2350亿参数的超级大模型，可视为行业顶尖水平的“导师”）完成一批网页任务，筛选出成功的轨迹，然后从中精心挑选412条最具代表性的轨迹，让4B的小模型进行模仿学习。

之所以只选412条而非数十万条，是基于深思熟虑的考量。研究团队发现，如果喂入过多示范数据，小模型会将导师的操作风格学得过于刻板，反而在后续的实战训练中缺乏“可塑性”，难以被进一步调整优化。就像一个从小被要求照本宣科的学生，反而不如那个仅学习了基本原则、但保留了自主探索能力的学生进步更快。

实验中，研究团队对比了四种不同的初始化方式：完全不做监督训练、少量训练1轮、适量训练3轮，以及大量数据训练3轮。结果发现，适量的监督预热（412条数据、3轮训练）带来的后续强化学习效果最佳，而大量数据预热反而会拖累最终表现。这一结论具有重要的实践指导意义：初始化的目标是“让AI能够开始探索”，而非“将AI调教成一个完美的模仿者”。

“在试错中成长”的强化学习核心算法

第二阶段是OpenWebRL真正的核心：让4B模型在真实网站上自主执行任务，根据最终的成功或失败来更新自身的“决策策略”。

这套训练算法的名称是MM-GRPO（多模态多轮群体相对策略优化），但其基本逻辑非常直观，不必被名称吓到。

每次训练，系统会给AI同一个任务，让其独立尝试5次（一组），生成5条不同的操作轨迹。有些轨迹成功完成任务，有些则失败。系统随后计算这5次尝试的平均成功率，并告知AI：比平均水平高的轨迹应更多模仿；比平均水平低的轨迹应避免重蹈覆辙。这种“组内相对比较”的方式，使系统无需外部“完美标准答案”，仅凭内部成败对比即可持续进步。

一个值得关注的细节是：如果某个任务的5次尝试结果完全一致（例如全部成功或全部失败），这组数据会被直接丢弃，不参与训练更新。道理很简单——全部成功意味着任务过于简单，AI已掌握；全部失败意味着任务当前过难，暂时无法从中获取有效信号。只有那些“有时成功、有时失败”的任务，才能提供最有价值的学习素材。这相当于为AI自动构建了一个难度适中的动态课程。

训练采用了“两阶段滚动步长”策略：先用最多15步的短程任务训练90轮，让模型在较短的任务中建立基础探索能力，再切换到最多30步的长程任务再训练50轮，使模型学会应对真正的长程规划挑战。实验表明，这种由短到长的课程式训练，比一开始直接上30步任务的效果显著更优，尤其在需要较多步骤的WebVoyager基准上，差距高达7.4个百分点。

谁来当“评判官”？从昂贵到经济的进化

网页任务完成后，如何判断AI的答案是否正确？这是整个系统中最难标准化的一环。

部分任务可通过规则判断，例如“找到这款手机的最低价格”，只需核对数字即可。但很多任务的评判需要理解语义，例如“找到一家评分最高且离我最近的五星级牙医”，答案可能因网页状态不同而存在合理差异，并非简单对比字符串就能判断对错。

研究团队的默认方案是使用GPT-4.1作为“评判官”，但这会产生显著费用：一次完整的训练实验需调用约4.32万次GPT-4.1评判API，总费用约545.5美元。对于许多学术研究组来说，这是一个不小的负担。

为解决这一问题，研究团队专门从1.25万条带有GPT-4.1评判标签的真实轨迹数据中，蒸馏训练出一个8B规模的开源评判模型OpenWebRL-Judge-8B。实验证明，该评判模型与GPT-4.1的判断吻合度高达89.8%，综合F1分数达到92.1%，超越了WebJudge-7B、Qwen3-VL-32B甚至GPT-4o等竞争者。使用这一本地评判模型替换GPT-4.1后，最终模型的性能几乎没有损失，平均成功率从68.4%仅微降至68.3%——几乎可以忽略不计。

研究团队还对比了直接使用Qwen3-VL-8B（未经专门训练的通用模型）作为评判官的效果，结果令人警惕：训练奖励分数看似越来越高，但实际测试成功率却在持续下滑——这是典型的“奖励欺骗”现象，AI学会了如何让评判官满意，而非真正完成任务。这进一步说明，专门训练的评判模型对于整个训练系统的稳定性至关重要。

成绩单：小模型超越大系统

OpenWebRL的最终成绩相当亮眼。研究团队在三大顶级网页智能体基准上进行了全面评测。

WebVoyager是一个覆盖15个主流网站的综合型基准，共595个任务；Online-Mind2Web包含136个网站的300个长程任务，难度更高；DeepShop专注于电商购物场景，要求AI在多重约束下完成商品搜索与选择，共150个任务。

OpenWebRL-4B在这三个基准上分别取得74.1%、67.0%和64.0%的成功率，平均成功率68.4%，成为同等规模开源模型中的最高水平。横向对比来看，它不仅大幅超越了FARA-7B（后者在Online-Mind2Web和DeepShop上分别仅有34.1%和26.2%）、MolmoWeb-8B（35.3%和42.3%），甚至超越了拥有2350亿参数的Qwen3-VL-235B-A22B。更值得关注的是，OpenWebRL-4B在Online-Mind2Web和DeepShop两个基准上还压过了商业系统OpenAI CUA（58.3%和24.7%）和GPT-5的SoM版本（57.7%和49.1%）。

扩展到8B参数规模的OpenWebRL-8B表现更加稳健，平均成功率达到68.7%，与商业系统Gemini CUA（57.3%和62.0%）在两个基准上的对比中展现出明显优势。

这些成绩的取得，仅使用了412条初始示范轨迹和2200个强化学习训练任务，而竞争对手如MolmoWeb则使用了超过27.85万条数据——相差整整两个数量级。这表明，高质量的在线交互训练所带来的提升，完全可以弥补初始数据量上的巨大差距。

AI在训练中究竟学会了什么？

研究团队并未满足于发布成绩单，而是进一步分析了训练过程中AI行为的变化，试图理解强化学习究竟改变了什么。

一个有趣的发现是：随着训练的推进，AI每一步的输出确实变长了，但总体任务完成所需的步骤数却在减少——平均步数从第0轮的14步下降到了第80轮的8.9步，整个轨迹的总长度也相应缩短。这说明AI并非在无效地“啰嗦”，而是在更少的步骤内进行更充分的思考。

研究团队对AI的思考内容进行了深入分析，定义了四种常见的“思维模式”：历史总结（回顾之前做了什么、访问过哪些页面、哪些方法失败了）、障碍诊断（识别验证码、页面封锁等拦截）、重试规划（制定新的替代策略）和条件验证（逐一核查任务要求是否满足）。

训练前后，这四种模式的出现频率均有显著提升：历史总结的出现率从14.5%提升到21.4%，障碍诊断从14.2%提升到23.7%。而且，出现这些思维模式的步骤，其响应长度增长更为显著，从平均332 token增加到542 token（历史总结），从273增加到440（障碍诊断）；相比之下，不包含这些模式的普通步骤，长度增长非常有限（从282增加到325）。

这说明AI学会了“有选择地深度思考”：在关键决策节点上投入更多认知资源，而非均匀地在每一步上平摊思考量。这种行为模式与人类专家的认知方式高度吻合——遇到瓶颈时深度分析，熟悉操作时快速执行。

归根结底，这套方法改变了什么？

说到底，OpenWebRL证明了一件在AI研究领域颇具争议的事：对于网页智能体这类需要在复杂、动态环境中进行长程决策的任务，“让AI在真实世界里边做边学”不仅是可行的，而且比“堆砌大量人类示范数据”高效得多。

对普通用户而言，这意味着未来我们可能会看到更多真正能理解网页、完成复杂在线任务的AI助手，而这些AI不再需要依赖科技巨头掌握的海量私有数据，而是可以通过开放的框架和有限的初始训练，在公开的互联网上持续自我提升。

从研究本身的局限性来看，有51%的失败案例源于网页本身的访问问题——验证码封锁、网络连接失败、反自动化机制等——这些并非模型能力问题，而是开放互联网上AI智能体必须面对的基础设施挑战。另外27%的失败来自模型在长程多约束任务中的规划和跟踪能力不足，13%来自视觉定位的精度问题。这些方向，也正是接下来研究努力的重心所在。

研究团队已宣布将公开发布训练数据、模型权重和完整代码，让学术界和独立研究者都能在此基础上继续探索。

Q&A

Q1：OpenWebRL-4B为何仅用400条训练数据就能击败使用27万条数据的模型？

A：这主要归功于在线强化学习的训练方式。OpenWebRL-4B并非依靠死记硬背人类示范来学习，而是在真实网站上自主执行任务，从成功和失败的结果中总结经验。400条数据仅用于“打基础”的初始监督训练，真正让模型实现突破的是后续2200个任务的在线实战练习。简而言之，高质量的实时交互经验，比数量庞大的静态示范数据更具学习价值。

Q2：OpenWebRL-Judge-8B评判模型与直接使用GPT-4.1有何区别？

A：两者的评判准确率非常接近，但成本差异巨大。使用GPT-4.1作为评判官，一次完整训练需要花费约545美元的API费用；而OpenWebRL-Judge-8B是一个可本地运行的开源模型，训练完成后无需额外付费。更重要的是，实验证明使用GPT-4.1训练得到的模型与使用OpenWebRL-Judge-8B训练得到的模型，最终测评成绩几乎完全相同，平均成功率仅差0.1个百分点。

Q3：OpenWebRL训练框架为何要丢弃历史截图，仅保留文字记录？

A：因为截图的信息量极大，保存所有历史截图会超出模型的处理上限。实验发现，保留最近两张截图与只保留一张相比，效果几乎没有差异，但计算成本从240 GPU小时增加到400 GPU小时。AI真正需要的“历史记忆”，实际上通过保存每步的文字反馈和AI自身的推理记录就已足够，这些文字信息比历史截图更紧凑、更高效地传递了关键信息。