AI自动退款实测:Codex洗个澡功夫搞定售后
网购的快递被人偷了,联系客服,系统显示预计等待时间25分钟。
换作以前,这意味着你只能盯着聊天窗口发呆,或者开着页面干别的事,隔几分钟切回来看一眼排到没有——万一不小心退出去,又得重新排队。
OpenAI 的开发者体验工程师 Jason Liu 给出了第三种方案:把这件事交给 Codex。指令很简单——每5分钟检查一次聊天窗口;如果客服上线,改成每分钟检查一次;尽量帮我完成退款。然后他去洗了个澡。等他回来时,Codex 已经把退款办完了。
整个过程没写一行代码。一个 agent 趁你没时间、没在意,跟另一套客服系统耗着、磨着,直接把钱要了回来。
除了代替人类和客服聊天,Codex 还能通过 iPhone Mirroring 直接操作你的手机。开发者可以用它直接复现一个 App 里的 bug。每天早上扫一遍私信和新闻,把值得留的东西归档进笔记库;甚至打开一个在线音乐编辑器,重写整首曲子的和声和结构,调好节奏,存档,然后让它继续播放。
这些,都是 OpenAI 在 Codex 上最近重点推进的一项能力:让 AI 真正获得操作电脑的能力。OpenAI 的工程师 Jason Liu 专门写了一篇长文,解释 Codex 现在拥有的三种「电脑操作能力」:Computer Use、Chrome 插件、应用内浏览器。
很多人第一次看到这三种能力,都会冒出同一个问题:为什么一个 Agent,要做三套电脑操作的系统?从功能本身来说,它们都是让 Codex 接管电脑,但 Browser、Chrome 和 Computer Use 背后对应的,其实是 OpenAI 给 Agent 设计的一套行动权限体系。
不同的操作模式,各自有擅长的方向。能用插件就别去点网页,能直接调用 API 就别让 AI 用识屏操作界面。这就好比微信给 Agent 提供了接口,AI 发送消息只需要执行一次函数;而如果没有接口,Codex 就得先打开微信,找到消息,选择联系人,点击输入框,复制内容,再按发送。从结果上看,两种方式完成的是同一件事,但从效率和可靠性来看,完全不在一个量级。
所以在 OpenAI 的设计里,Computer Use 更像一个兜底方案。要搞清楚什么时候用 Computer Use,什么时候用 Chrome 来进行电脑操作,我们结合 Jason Liu 的帖子,把这三种授权模式讲清楚。
最宽的那道门
先说能力最「大」的:Computer Use。我们之前分享过不少 Codex 的使用指南,从目标管理到电脑使用和浏览器操作,里面就曾演示过,使用 Computer Use 能直接修改我们的备忘录。
Codex 能直接自动编辑我们的备忘录——它能看屏幕,能操作几乎任何图形界面,能用键盘、菜单、剪贴板,跟我们授权过的 App 打交道。没有 API 的软件它照样能用,完全依靠「看着屏幕,自己判断该点哪」。
代价是慢。结构化的插件可以直接调一个接口;Computer Use 得先看清界面、判断点哪、等 App 反应、再看下一屏,这个视觉循环相当浪费时间。那慢有什么用?最好是用在那些只有图形界面、压根没接口的地方。而且,在 Mac 上,慢不一定碍事,它能在后台安静地操作我们授权的 App,我们该干嘛干嘛,回头一看它已经默默跑完了某个流程。开头那个退款,就是这么办成的:让 Codex 慢慢找到和客服聊天的方法,我去洗澡就行了。
但一走开,也可能不放心,毕竟这是三者里最宽的一道信任边界,我们等于把整台桌面交了出去。
用 Codex 使用 Claude,问 Codex 好还是 Claude Code 好,Codex 表示不认可 Claude 的回答
OpenAI 官方反复提醒:一次只给它一个明确的 App 或流程,不相关的敏感软件该关就关;碰到钱、账户、密码、隐私、系统安全的操作,我们还是得守在旁边。它最妙的用法,可能是作为一种补位。目前大多数的 Agent 都能连接第三方的软件,比如 Gmail、Slack 等。Codex 也能直接从 Slack 读反馈、改代码、重新渲染视频,但当 Slack 集成工具没法上传文件时,Computer Use 就会出手,点一下「添加文件」,把这一步补上。
OpenAI 工程师在最后给出的建议是,当任务取决于以下情况时,请使用 Computer Use:
- 类似 Spotify 的原生桌面应用程序或金融应用程序
- iOS 模拟器、iPhone 镜像或其他纯 GUI 流程
- 系统或应用程序设置
- 没有插件或 API 的数据源
- 在多个应用程序之间切换的工作流程
- 在其他方面都很有用的结构化集成中,缺少一个步骤
带着你身份的门
第二道窄一点:Chrome 插件。它接管的,是我们已经登录好的浏览器。早些年 Agent 操作浏览器时,让它去某平台搜索点东西,经常报错说没有凭证信息。Chrome 解决的就是这件事。
Cookie、配置、登录态、开着的标签页,这些它都能用。所以 Gmail、LinkedIn、Salesforce、公司内部后台——这类需要登录才能访问的网页任务,就可以交给 Chrome 来完成。
让 Codex 操作浏览器汇总某个平台的首页资讯
关键的差别在这里:由于 Chrome 浏览器使用带着我们的身份,网站会直接把它的点击、提交、发消息,当成是我们本人在操作。能力更强,风险也更大。
Jason Liu 把一个已经打开的在线作曲页面丢给 Codex,告诉它「把音乐弄得更有意思些」。Chrome 就会自动把这个标签页连同页面自带的工具一起交给 Codex。它读完整首曲子,重写和声、改掉四分钟的曲式、调了速度、存档,最后让它接着播放。从修改编曲到最后的完美播放,Codex 全程没满屏乱找按钮,因为它能把标签页的上下文和页面提供的能力拼起来用。
Jason 还提到另一个案例:用一个常年更新的帖子的跟踪任务。指令大概是「每天用 Chrome 看看私信、读相关新闻、找找值得了解的反馈和提及,把能沉淀的都存进笔记库,但别发帖、别发消息。」Codex 就能打开相关页面,有意思的是,这个任务能日复一日回到同一个登录态里,把找到的东西跟本地文件接起来,最后交付一份能复核的结果。
所以,如果整件事都发生在浏览器里,优先用 Chrome。他也提到使用 Chrome 插件进行任务的理想界面是:
- Gmail 或 LinkedIn
- Salesforce 或支持控制台
- 内部仪表盘
- 跨多个网站的权威研究
- 取决于您的账户或浏览器扩展程序的表单
干净隔离的门
第三道最窄:应用内浏览器。它就在 Codex 的对话里,你和它看的是同一个渲染出来的页面。最要紧的一点是隔离:应用内浏览器不会使用我们平时的浏览器配置,不带 Cookie,没有插件,没有登录态。
所以,针对本地开发、调试 Web 应用、复现视觉 bug、看响应式布局,用应用内浏览器大概是最方便的。它能直接改代码、操作页面、看渲染结果、截图,改完自己再跑一遍,直到交付预期的成果。
最有意思的是批注。无论是 Vibe Coding,还是完成真实项目,我们在审核一个本地页面时,可以直接点某个元素,或者圈出一块区域,留一句话——「这个层级反了」「这块别做成卡片」「这些控件得再松一点」。Codex 会收到带着截图和元素上下文的评论,改完文件,再把同一个页面打开给你看下一版。
浏览器使用和 Chrome 使用不同的地方就在于登录状态。这也导致浏览器使用更适合在开发阶段,你可以和自己的同事一样,直接指着某个地方告诉 Codex,而不是来回甩截图和文字。页面本身,就成了需求文档。
它的代价也来自隔离:让这个 Codex 内置的浏览器去处理 Google 登录、passkey、或者依赖我们浏览器插件的网站,几乎是做不到。
根据 Jason 在博客中的总结,应用内浏览器会特别适合构建和调试 Web 应用程序:
本地开发服务器
文件支持的预览
无需登录的公共页面
重现视觉错误
检查响应式布局
留下元素级设计反馈
在这三项之外,OpenAI 工程师还提到和计算机使用相关的第四项功能:Appshots。我们之前也介绍过这项功能——在 macOS 平台上,任何场景同时按下空格键左右两边两个 Command 键,就会自动把窗口截图、窗口上下文信息,一起发给 Codex。
他专门提到这项功能,是想表达:Appshots 负责指,Browser、Chrome、Computer Use 负责动手。
一开始,我们一想到「AI 用电脑」,脑海里浮现的画面,大概都是它像人一样移动鼠标、敲键盘、一下一下点过去。好像 AI 越像人在操作电脑,就越厉害。
但 OpenAI 自己的最佳实践,指向的是相反的方向:像人一样点击,是最慢、最脆弱、信任成本最高的那条路。真正想要的,是给 agent 足够结构化的接口,让它尽量用不着去点。那个看起来最像「AI 终于会用电脑了」的视觉控制,恰恰是整套体系里兜底的一环——结构化工具走不通时,才轮到它上场。
总结下来就是:跨应用走 Computer Use,要带身份或登录态走 Chrome 扩展,干净独立的网页任务走内置浏览器。












