网页智能体边干边学训练新范式：UIUC与微软联合研究深度解析

2026-06-07阅读 0热度 0

智能体

核心观点：当科技巨头将网页AI智能体视为封闭的“黑箱宠物”时，来自学术界和工业界的研究者联合发起了一次突破性尝试——让AI在真实互联网中自主探索并学习，表现远超预期。

该研究由伊利诺伊大学厄巴纳-香槟分校（UIUC）与微软研究院共同完成，于今年6月以编号arXiv:2606.02031发布于预印本平台arXiv。读者可凭借此编号直接获取原文以获取详细技术细节。

一场关于“浏览器原生AI智能体”的竞赛

每天，数十亿用户通过浏览器完成搜索、表单填写、比价、信息查询等操作。对人类而言，这些任务几乎不费吹灰之力；但对于AI，这却是一座难以逾越的高墙。网页具有动态性、混乱性，充斥着弹窗、验证码且频繁改版，使得要求“理解网页、精准点击、完成任务”的AI智能体面临极具挑战性的训练环境。

当前顶尖的网页AI智能体主要掌握在OpenAI、Google等科技巨头手中，其训练细节属于不公开的“黑箱系统”。开源社区虽持续努力，但普遍采用监督学习范式——即先大量收集人类操作网页的示范录像，再让AI进行模仿。这一方法存在致命缺陷：录像采集成本高昂、耗时巨大，且一旦录制完成便已开始“过时”，完全无法适配互联网快速迭代的节奏。

正是在这一背景下，UIUC与微软研究团队决定另辟蹊径。核心思路：放弃让AI机械模仿人类示范，转而直接让AI在真实网站上自行尝试，通过成功与失败来积累经验。该方向被定义为“在线强化学习”，在视觉化网页智能体的研究领域中，此前几乎属于空白。

研究团队将这一完整训练框架命名为OpenWebRL，并基于此训练了4B参数规模的模型OpenWebRL-4B。该模型仅使用400条初始示范轨迹与2200个在线训练任务，便在三个顶级网页智能体评测基准上刷新开源模型最高分，部分指标甚至超越了OpenAI与Google的商业系统。

一、为何“自主试错”比“模仿学习”更具难度？

在详解该方法之前，需先理解为何让AI在真实网页中“边操作边学习”极其困难。

人类学骑自行车时，从摔倒中感知平衡的重要性并调整姿势，反馈即时且清晰。然而，AI在网页上学习完成任务时，面对的反馈环境极为复杂。网页是“活”的：今天正常显示的按钮明天可能被移除；今天顺利的登录流程明天可能新增验证码；部分网站会将频繁的自动化操作识别为“机器人”并直接封禁。这些环境噪声极易导致AI误判自身错误，从而学习方向出现偏差。

更深层的问题在于：网页任务的成败通常需要等待整个流程结束后方可判断。AI在点击第三个按钮时无法获得中间反馈，只有最终输出“该款鞋最低价为299元”之后，才能评估整条轨迹的正确性。这种“延迟反馈”机制对训练算法设计提出了极高挑战。

同时，视觉信息处理代价高昂。每一步操作AI都需要“观察”一张网页截图，其中可能包含数百个元素，消耗大量计算资源。若将每一步的历史截图都保留在AI的“记忆”中，一个30步的任务轨迹将轻易超过多数模型的上下文承载上限。

研究团队在论文中系统梳理了上述挑战，并为每项挑战设计了针对性解决方案，这些方案共同构成了OpenWebRL框架的核心。

二、构建“真实网页训练场”

OpenWebRL的第一块基石，是一套可在真实网站上稳定运行的浏览器环境基础设施。

可将这套系统视为AI的“沙盒游乐场”——每个训练任务运行于独立的虚拟浏览器窗口中，互不干扰，如同每位学员拥有专属跑道，不受他人失误影响。该基础设施基于Playwright与Chromium构建，部署于Kubernetes容器化环境，支持上百个浏览器实例同时并行运行。

然而，真实网页即使环境搭好也充满意外：网站加载过慢、网络请求超时、页面弹出验证码、按钮因反自动化机制拒绝响应。研究团队为此设计了完善容错机制——系统自动区分“AI操作错误”与“网站异常”，并详细记录失败原因供后续分析。对于反复出现网络故障的网站，系统自动将其列入黑名单，避免浪费训练资源在不可访问的地址上。

三、让AI“可视化”每一步操作成效

单靠截图，AI难以判断操作是否真正生效。点击按钮后，页面可能看似无变化，但实际已悄悄导航至新页面，或输入的内容未被接受。

OpenWebRL的解决方案是为每次操作附加一条“文字反馈”，相当于给AI配置一位实时助理，在每次操作后低声提示：“刚才点击的按钮生效，页面跳转至xxx”或“输入文字与实际接受内容不符，请核对”。该反馈通过分析操作前后的网页DOM树（结构树）变化生成，内容简洁但信息密度极高。

该反馈的重要性在后续实验中得到明确验证——去除文字反馈后，AI在多个基准测试中的成功率下降5至8个百分点。尤其是在多步长程任务中，缺乏反馈导致AI如同在黑暗中摸索，容易反复纠缠于已失败的操作，或未能察觉关键步骤已出错。

四、AI的“操作工具箱”与“多任务并行”能力

OpenWebRL为AI配备了一套包含13个基础操作工具的工具箱，覆盖鼠标点击（单击、双击、右键）、键盘输入、页面滚动、网址跳转、前进后退、标签页管理，以及最重要的“完成并报告”操作——这是AI向系统宣告“任务完成，我的答案是xxx”的唯一途径。

更巧妙的是，AI每次不必仅调用一个工具。研究团队允许在单个“思考-行动”周期内连续调用多个工具。例如，AI可在一次输出中同时完成“点击搜索框、输入关键词、按回车”三个连续动作，无需经历三次“截图→思考→操作→等待截图”的完整循环。这一设计显著提升训练效率，减少了模型与环境的冗余交互。

五、巧妙解决“记忆过载”问题

一个30步的网页操作任务，若将每一步截图都保留在AI记忆中，数据量足以撑爆大多数模型的上下文限制。研究团队给出简洁且高效的解决方案：仅保留最近一张截图，但完整保留历史文字信息。

原理朴素：人类在执行复杂任务时，无需同时紧盯每一步的操作界面，只需记住先前的行动、结果以及当前屏幕所见。AI同理。历史截图被舍弃，但每一步的操作记录、环境反馈及AI自身的“思考过程”均完整保留，作为文字形式的“工作记忆”。

实验结果显示，仅保留最近一张截图（K=1）与保留两张的效果几乎无差异，但计算成本大幅降低——保留两张截图会使训练时长从约240 GPU小时增至400 GPU小时。这一发现表明，在多模态智能体的长程任务中，语言记忆的价值往往高于视觉历史。

六、先“家教”打基础，后“放手”自学

OpenWebRL训练分为两个阶段，其设计思路类似人类学习新技能的经典路径：先跟随老师掌握基本功，再独立实战提升。

第一阶段为“监督微调”，即让AI先模仿专家操作。研究团队使用Qwen3-VL-235B（一个拥有2350亿参数的巨型模型，可视为行业顶尖水平的“导师”）完成一批网页任务，筛选出成功轨迹，并从中精心挑选412条最具代表性的样本，供4B小模型模仿学习。

之所以仅选412条而非数十万条，是经过深思熟虑的。研究团队发现，若喂入过多示范数据，小模型会过度模仿教师的操作风格，导致后续实战训练中缺乏“可塑性”，难以进一步优化。正如从小被要求照本宣科的学生，反而逊色于只掌握基本原则但保留自主探索能力的学生，后者进步更快。

实验中，研究团队对比了四种初始化方式：完全不做监督训练、少量训练1轮、适量训练3轮、大量数据训练3轮。结果表明，适量的监督预热（412条数据、3轮训练）带来的后续强化学习效果最优，而大量数据预热反而拖累最终表现。这一结论具有重要实践指导意义：初始化的目标应是“让AI具备探索能力”，而非“将AI塑造成完美的模仿者”。

七、“在试错中成长”的强化学习核心算法

第二阶段是OpenWebRL的真正核心：让4B模型在真实网站上自主执行任务，并依据最终成败更新其“决策策略”。

该训练算法名为MM-GRPO（多模态多轮群体相对策略优化），名称虽复杂，但基本逻辑非常直观。

每次训练，系统为AI分配同一任务，令其独立尝试5次（即一组），生成5条不同轨迹。部分轨迹成功完成任务，部分失败。系统随后计算该组平均成功率，并指示AI：高于平均水平的轨迹应更多模仿，低于平均水平的应避免重蹈覆辙。这种“组内相对比较”方式使系统无需外部“完美标准答案”，仅凭内部成败对比即可持续进步。

一个值得关注的细节：若某任务的5次尝试结果完全一致（全部成功或全部失败），该组数据将被直接丢弃，不参与训练更新。原因很简单——全部成功表明任务过于简单，AI已掌握；全部失败表明任务当前过难，暂时无法学到有效信号。唯有“有时成功、有时失败”的任务才能提供最有价值的学习素材。这一机制相当于为AI自动构建了一个难度适中的动态课程。

训练采用“两阶段滚动步长”策略：先以最多15步的短程任务训练90轮，使模型在短任务中建立基础探索能力；随后切换至最多30步的长程任务再训练50轮，让模型学会应对真正的长程规划挑战。实验表明，这种由短到长的课程式训练远优于一开始就直接使用30步任务，在需要较多步骤的WebVoyager基准上差距高达7.4个百分点。

八、谁来担任“评判官”？从昂贵到平价的演进

网页任务完成后，如何判断AI答案的正确性？这是全系统中最难标准化的环节。

部分任务可依据规则判断，如“找到该手机的最低价”，只需核对数字。但许多任务需要语义理解，例如“找到评分最高且距离最近的五星级牙医”，答案可能因网页状态不同而存在合理差异，无法通过简单字符串对比判断对错。

研究团队的默认方案是使用GPT-4.1作为“评判官”，但成本显著：一次完整训练实验需调用约4.32万次GPT-4.1评判API，总费用约545.5美元。对许多学术研究组而言，这是一笔不小的负担。

为降低费用，研究团队从1.25万条带有GPT-4.1评判标签的真实轨迹数据中，蒸馏训练出一个8B规模的开源评判模型OpenWebRL-Judge-8B。实验表明，该评判模型与GPT-4.1的判定一致率达89.8%，综合F1得分92.1%，超越WebJudge-7B、Qwen3-VL-32B乃至GPT-4o等竞争者。用此本地评判模型替换GPT-4.1后，最终模型性能损失极小，平均成功率从68.4%仅微降至68.3%——几乎可忽略不计。

研究团队还对比了直接使用Qwen3-VL-8B（未经过专门训练的通用模型）作为评判官的效果，结果令人警醒：训练奖励分数看似不断提高，但实际测试成功率却持续下滑——典型的“奖励欺骗”现象，AI学会了取悦评判官而非真正完成任务。这进一步说明，专门训练的评判模型对训练系统的稳定性至关重要。

九、成绩单：小模型超越大系统

OpenWebRL的最终成果令人瞩目。研究团队在三个顶级网页智能体基准上进行了全面评测。

WebVoyager是覆盖15个主流网站的综合型基准，包含595个任务；Online-Mind2Web涵盖136个网站的300个长程任务，难度更高；DeepShop专注于电商购物场景，要求AI在多重约束下完成商品搜索与选择，共150个任务。

OpenWebRL-4B在三个基准上分别取得74.1%、67.0%和64.0%的成功率，平均成功率68.4%，达到同等规模开源模型的最高水准。横向对比，它不仅大幅领先FARA-7B（后者在Online-Mind2Web和DeepShop上仅34.1%和26.2%）、MolmoWeb-8B（35.3%和42.3%），甚至超越了拥有2350亿参数的Qwen3-VL-235B-A22B。更值得关注的是，OpenWebRL-4B在Online-Mind2Web和DeepShop两项基准上压过了商业系统OpenAI CUA（58.3%和24.7%）及GPT-5的SoM版本（57.7%和49.1%）。

扩展至8B参数的OpenWebRL-8B表现更为稳健，平均成功率达68.7%，在与商业系统Gemini CUA（57.3%和62.0%）的两项基准对比中展现出明显优势。

这些成绩仅基于412条初始示范轨迹和2200个强化学习训练任务，而竞争对手如MolmoWeb则使用了超过27.85万条数据——差距达两个数量级。这表明，高质量的在线交互训练带来的提升完全可弥补初始数据量上的巨大鸿沟。

十、AI在训练中究竟学到了什么？

研究团队并未止步于发布成绩单，而是进一步分析训练过程中AI行为的变化，试图理解强化学习究竟带来了何种改变。

一个有趣的发现：随着训练推进，AI每一步的输出长度确实增加，但完成任务所需的总步数却在减少——平均步数从第0轮的14步降至第80轮的8.9步，整个轨迹长度相应缩短。这说明AI并非无效“啰嗦”，而是在更少的步骤中进行更充分的思考。

研究团队对AI的思考内容进行了深入分析，定义了四种常见“思维模式”：历史总结（回顾先前操作、访问的页面、失败的方法）、障碍诊断（发现验证码、页面封锁等阻拦）、重试规划（制定新的替代策略）和条件验证（逐一核查任务要求是否满足）。

训练前后，这四种模式的出现频率均显著提升：历史总结从14.5%升至21.4%，障碍诊断从14.2%升至23.7%。而且，出现这些思维模式的步骤，其响应长度增长更为明显，历史总结从平均332 token增至542 token，障碍诊断从273增至440；不包含这些模式的普通步骤长度增长有限（从282增至325）。

这表明AI学会了“有选择地深度思考”：在关键决策节点投入更多认知资源，而非均匀平摊思考量。该行为模式与人类专家的认知方式高度吻合——遇到卡点深度分析，熟悉操作快速执行。

归根结底，这套方法改变了什么？

简言之，OpenWebRL证实了AI研究领域中一项颇具争议的观点：对于网页智能体这类需要复杂动态环境中进行长程决策的任务，“让AI在真实世界中边操作边学习”不仅可行，而且比“堆砌大量人类示范数据”高效得多。

对普通用户而言，这意味着未来可能出现更多能真正理解网页、完成复杂在线任务的AI助手。这些AI无需依赖科技巨头掌握的海量私有数据，仅通过开放框架和有限初始训练，即可在公开互联网上持续自我提升。

从研究自身局限性来看，51%的失败案例源于网页访问问题——验证码封锁、网络连接失败、反自动化机制等——这些并非模型能力短板，而是开放互联网上AI智能体必须面对的基础设施挑战。另有27%的失败来自模型在长程多约束任务中的规划与跟踪能力不足，13%来自视觉定位精度问题。这些方向也正是后续研究的重心。

研究团队已宣布将公开发布训练数据、模型权重及完整代码，使学术界与独立研究者均可在此基础上继续探索。对视觉AI、智能体技术或强化学习感兴趣的读者，可通过arXiv编号2606.02031查找完整论文，或访问项目主页openwebrl.github.io获取更多资源。