2024年浏览器自动化测试工具精选：Codex新功能实战测评与RPA应用指南

2026-05-11阅读 0热度 0

浏览器

Codex的发布节奏一直很稳：2月推出macOS桌面版，3月登陆Windows，4月更新了一批新能力，到了5月，它终于接入了Chrome。Engadget的报道曾透露，OpenAI的最终计划是将Codex、ChatGPT和自家的浏览器Atlas整合成一个超级应用。

5月7日，OpenAI没有举办发布会，也没有大张旗鼓地宣传，只是在社交媒体上发了一条推文，附上了一个Chrome网上应用店的链接。

图片

但仔细琢磨一下，这件事的意义可能比表面上看起来要大得多。

先说说 Codex 是什么

对于不太了解的朋友，可以先简单补个背景。Codex是OpenAI在今年2月推出的AI编程助手，最初是macOS桌面应用，3月推出了Windows版本。

你可以把它理解成一个真正能“上手干活”的AI。它不只是生成代码文本，而是能直接操作你的文件、运行命令、查看报错、修改代码，整个流程可以自动执行。

过去用ChatGPT写代码，是你提出需求，它给你一段文字，然后你需要自己复制粘贴到编辑器里运行调试。Codex则不同，它直接在你的本地环境里操作，你可以在旁边观察，随时打断或调整。这个区别，在实际使用中感受会非常明显。

然而，一直存在一个瓶颈：现代人的大量工作是在浏览器里完成的。无论是Salesforce、Gmail、公司内部后台，还是各种SaaS工具，这些场景，之前的Codex桌面版都触及不到。这个Chrome扩展，正是来填补这块空白的。

它的核心能力可以用一句话概括：让Codex利用你已经登录好的Chrome浏览器，在各种网页应用里替你完成任务。

想象一下，你有一批销售跟进记录需要录入Salesforce。过去，这只能一条条手动填写。现在，你可以直接把记录交给Codex，让它去Salesforce里找到对应账户并更新。因为它使用的是你自己的浏览器和登录状态，所以那些需要权限的内部页面它都能访问。

再比如，当你同时打开十几个标签页查阅资料时，Codex可以读取所有这些页面的内容，综合分析后给你一个整理好的答案，省去了你逐页翻阅的麻烦。

对于开发者而言，还有一个很实用的点：它可以一边使用Chrome DevTools进行分析，一边在旁边的标签组里执行任务，不会占用你当前正在操作的窗口。以往调试和测试需要频繁切换，现在则可以并行处理。

有个设计细节处理得相当克制：Codex的所有浏览器操作都在一个独立的“任务标签组”中进行，不会混入你正在浏览的标签页。你开着知乎，它在旁边的标签组里帮你整理CRM数据，互不干扰。

这件事更有意思的地方在于，它不再仅仅是程序员的专属工具了。以前想用AI实现一些自动化，至少需要懂点代码、会配置环境。现在，安装一个Chrome扩展就能用上。那些每天在浏览器里进行的重复性办公操作，也开始可以让AI来分担了。

使用方法很简单：在Codex的插件管理中添加Chrome插件，完成授权流程。之后，直接在对话中@它并下达指令即可，例如：

@Chrome 打开Salesforce，把这些通话记录更新到对应的客户账户里。

当然，并非所有任务都需要手动指定工具。Codex会自行判断该使用哪种方式：有专用插件的（如Jira、GitHub）就走插件；需要登录状态的网页应用则调用Chrome扩展；公开页面或本地开发环境则使用内置浏览器。这套“自动路由”逻辑用起来基本无需操心，它会做出合适的选择。

安装时，Chrome会弹出一个权限确认窗口，内容不少：访问所有网站的数据、读取你在所有已登录设备上的浏览历史、管理标签组……列表列出来时，确实会让人心里一紧。

对此，OpenAI的解释是：这些权限是让插件“有能力”执行操作，但Codex在实际动手前，还有自己的一层确认机制。默认情况下，每接触一个新的网站域名，它都会先征求你的同意，你可以选择本次允许、永久允许该域名，或者拒绝。浏览历史的访问权限是按需申请的，并且没有“永久允许”的选项。

OpenAI表示不会单独存储完整的Chrome操作记录。只有当浏览器内容被纳入Codex的对话上下文时——比如它从页面读取了什么信息、截取了什么图片——才会按照其常规的数据策略进行处理。

一个比较审慎的使用建议是：对于内容本身不太敏感的工作场景，比如整理公开数据、更新销售台账，可以放心让它执行。而真正涉及商业机密或个人敏感信息的操作，最好还是亲自把关。这个分寸，需要每个人根据自己的情况权衡。

回顾一下，Codex的节奏其实相当清晰：2月macOS，3月Windows，4月能力更新，5月接入Chrome。这背后是一条连贯的产品路径。Engadget的报道曾提及，OpenAI的最终计划是将Codex、ChatGPT和自家浏览器Atlas整合成一个超级应用。

目前的Chrome扩展，可以理解为Atlas尚未成型前的一个过渡方案。先用插件把“操控已登录浏览器”这个核心能力释放出来，让用户提前感受到智能体（Agent）在真实工作环境中能做什么。毕竟，大多数人每天真正花费时间的地方，往往不是代码编辑器，而是浏览器里那几个常驻的标签页。

此前业界讨论过Chrome 146原生支持MCP（模型上下文协议）的消息，AI操控浏览器的基础设施正在一层层铺设。OpenAI这次选择的是另一条路径：不等待行业标准完全落地，先用扩展插件把能力接进来，让用户先用起来。这两条路径，未来大概率会在某个节点交汇融合。

如果你已经是Codex的用户，现在就可以去Chrome网上应用店搜索“Codex”找到这个扩展，Windows和Mac都支持。目前安装量大约在2万左右，还处于起步阶段。

AI进入浏览器这件事已经谈论了很久，如今，通过一个插件就能率先体验。它正在将自动化能力从开发者的手中，悄然递到每一位普通办公用户的桌面上。