屏幕识别与指令流终极对决:AI打工替身到底谁更胜一筹
告别繁琐的API对接,免去密钥配置流程。
无需依赖AI视觉识别“碰运气”——只需录制一段HAR,AI即可精准执行。
脚本完成后丢入Openclaw,你安心享用龙虾大餐,它自动完成群消息推送。
2026年4月,AI领域迎来里程碑式升级。OpenAI发布的Codex重大更新,赋予了AI全新的 “Computer Use” 能力:它拥有了独立的虚拟光标,可在Mac后台“观察、点击、输入”,替你操作几乎任何桌面级别的应用程序。
全球开发者为之沸腾:“AI终于能独立完成任务了!”
然而,在聚光灯未及之处,真正的效率革命,隐藏在一个你每天使用、却从未想过能用于构建自动化的功能里——浏览器的HAR录制。
先别急着否定。如果你认为让AI“看屏幕”是唯一的自动化捷径,那你很可能在浪费宝贵的时间、资金与算力。
今天这篇文章,将为你深入剖析 “HAR录制自动化” 的核心价值,并将其与顶流的 “OpenAI Computer Use” 进行全面对比。
你会明白,为何资深玩家悄悄选择前者,而新手仍在为后者的“疑似误触”买单。
? 核心对比:为何“AI视觉操控”如同用牛刀杀鸡?
我们先正视 Codex Computer Use 的真实情况:
OpenAI 官方宣称:Codex 现在能通过 “观察、点击、输入” 的方式,如同真人般操控你的Mac电脑与应用程序。它能自主移动光标,处理“没有API的软件”,甚至实现多任务后台并行。
听起来是否无所不能?简直就是钢铁侠的贾维斯!
冷静。我们来算一笔成本账:
如果你的目标只是“每天自动创建几个GitHub Issue”或“从公司后台导出昨日报表”,让AI通过视觉(Computer Use)来完成意味着:
- ? 高昂Token消耗:每秒钟,AI都在持续截屏、识别、分析坐标。这消耗的是真金白银的API费用。以GPT-5.4 Computer Use API为例,每100万输出token需30美元,一个稍复杂的网页操作流程下来,几毛到几块钱就没了——而你原本只想节省30秒。
- ? 低效的执行效率:AI必须像初学者上网:“哦,我看到了登录框……哦,现在移动鼠标去点击……哦,我输入一个字符……”。一个5秒的手动操作,AI可能需要反复截屏验证30秒。
- ? 致命的幻觉错误:今天它能准确识别“提交”按钮,明天网站UI微调了一个像素,它可能就“视觉失灵”,对着空白区域盲目点击。
不可否认,Computer Use是操作系统级的全能方案——它存在的意义是解决那些极度非标、无法预测、缺乏API的棘手任务(例如修复Xcode里的某个游戏Bug)。
但对于你每天重复千百次的“标准化操作” 呢?用Computer Use,无异于 “用巡航导弹打蚊子”——威力强大,但成本高昂,且极易误伤。
? 效率真相:HAR录制的“精准链路”原理
HAR (HTTP Archive) 是什么?
它不是屏幕录像,而是浏览器 “数据层的完整日志” 。当你登录网页、点击按钮、填充表单时,背后的实质是你的电脑向服务器发送了一系列加密的“数据包”(网络请求)。
录制HAR,就是将这批“数据包”的格式、内容、目标地址完整无误地复制下来。
这就是 HAR录制自动化 的效率核心:
不依赖视觉,不依赖API文档——直接还原你操作背后的“数据对话”。
流程极其高效:
- 获取令牌:F12 → Application → Cookies,复制一串凭证。你的AI脚本即刻拥有你的“通行权限”。
- 录制关键交互:在Network面板点击录制,手动完成一个你想自动化的操作(如“新建任务”),然后停止。
- AI自动解析:将HAR文件提供给AI,并指令:“分析文件,找出刚才‘创建任务’的API调用,并生成Python脚本。”
- 自动化启动:AI分析出URL、Headers、Payload结构,输出一份毫秒级执行的精准脚本。
核心差异在此刻一目了然:
| 维度 | ? Computer Use (视觉流) | ? HAR 录制自动化 (数据流) |
|---|---|---|
| 核心逻辑 | 图像识别,模拟人眼与鼠标 | 直接发送请求,模拟人机交互 |
| 对UI变化的容忍度 | 零容忍 (UI样式变更即失效) | 完全免疫 (只要后端接口不变) |
| 执行速度 | 30秒起步 (加载渲染、坐标定位) | 毫秒级 (直连服务端) |
| Token / 算力消耗 | 极高 (每一帧都需处理) | 近乎忽略 (一次性分析,永久复用) |
| 编程门槛 | 无门槛 (理论上口头指令即可) | 零门槛 (你只需录制HAR,AI生成代码) |
| 最佳适用场景 | 一次性、跨平台、无API的非常规任务 | 高频、重复、标准化的业务流程 |
? 实战演示:15分钟 vs 30秒,用HAR打造飞书任务机器人
理论不如实践。我们将两种技术置于真实工作场景中检验。
场景设定:你是一名项目经理
每天你需要重复一项任务:将“用户反馈群”里的精华聊天内容,手动录入飞书多维表格进行Bug追踪。 这项任务每天耗费你30分钟,繁琐且无价值。
?️ 方案 A:使用 Codex Computer Use
- 操作:向Codex下达指令:“进入飞书群,提取今天上午10点到12点间标记为重要的消息中的关键Bug,填入‘研发排期表’。”
AI执行过程:
- AI截屏,识别飞书群窗口。
- 尝试通过图像寻找“重要消息”标签(若群聊背景色或字体改变,可能第一步即告失败)。
- 逐条滚动截屏,进行OCR文字识别。
- 切换到多维表格,通过视觉定位“添加一行”按钮。
- 输入文字(速度极慢)。
结果:
?️ 方案 B:使用 HAR 录制 + Skill 脚本
- 操作:
- Step 1 (5分钟):打开飞书网页版 → F12 → 录制 → 手动点击一条消息 → 在多维表格中新增一行。导出 task.har 文件。
- Step 2 (10分钟):将 HAR 文件提供给AI:“分析文件,定位‘发送群消息’与‘添加表格行’的API,生成一个 Skill。”
- Step 3 (0分钟):AI 生成的 Python 脚本上线并自动运行。
- 结果:
- 耗时:首次搭建15分钟;此后每日自动执行仅需 < 3秒。
- 费用:$0.000(脚本本地运行,无截屏费用)。
- 风险:即便飞书前端UI彻底改版,只要后端接口
/open-apis/bitable/...保持稳定,脚本100%稳定运行。
哪种方案更贴近效率目标?答案不言自明。
? 终极体验:当 Skill 融入 Openclaw——你开口,它执行
你可能会想:“技术确实不错,但每次运行还得手动敲终端命令?”
格局可以更大。
通过HAR录制生成的 Skill,其最终价值并非局限于本地文件夹,而是存在于一个名为 Openclaw 的平台。
Openclaw 是什么?你可以把它理解为 AI 的“执行中枢”——一个专门运行这些 SKILL.md 和 Python 脚本的智能体环境。
整个流程将变为这样一段科幻般的体验:
- 你:花费15分钟完成HAR录制,AI为你生成一个名为“飞书群发助手”的 Skill 文件夹。
- 你:将这个文件夹直接拖入 Openclaw 的对话窗口(或 @ 它并关联此技能)。
- 你:关闭所有网页,放松躺下,拿起手机,向 Openclaw 发出一句自然语言指令:
“Hey Openclaw,帮我在【摸鱼小分队】群里发一条消息:今晚小龙虾局,老地方,我请了AI代班写代码,必到。”
⚡️ 接下来的瞬间发生了什么(Codex Computer Use 无法实现)
- Codex Computer Use 的流程:
“睁开眼睛,移动鼠标定位飞书图标,双击打开,等待界面加载,定位搜索框,输入“摸鱼小分队”,点击进入,定位输入框,逐字打字,定位发送按钮,点击发送。”
耗时 45 秒,费用 $0.3,且有 15% 概率误入“工作汇报群”造成尴尬。 - Openclaw + HAR Skill 的流程:
它读取技能定义,识别触发词“发消息”和“小龙虾”。Openclaw 内部仅做了一件事:向飞书服务器发送一个极其精简的数据包。数据包内容:目标群ID为“摸鱼小分队”,消息内容为小龙虾邀约。
耗时 0.8 秒。费用 $0.000。成功率 100%。
? 为何只有 HAR 流能让你“边吃小龙虾边完成工作”?
因为 Openclaw + Skill 的组合,将 AI 的执行逻辑从 “模拟人类观察” 升级为 “机器直接执行”。
- 无需等待界面渲染:不必等待网页加载的旋转图标。
- 无需计算屏幕坐标:不必计算聊天框到屏幕左上角的具体像素位置。
- 无操作系统误触风险:你无需担心 Openclaw 会意外打开你昨晚浏览的购物页面。
这才是核心原因:
Codex Computer Use 是让 AI 替你“盯着电脑”,你仍需在旁边监督它不出错。
Openclaw + HAR Skill 是让 AI 替你“执行指令”,你完全可以关掉设备去享受生活,事情也能完美完成。
? 全面对比:三足鼎立,谁是效率王者?
| 维度 | ?️ Codex Computer Use | ? HAR 录制 | ? HAR + Openclaw (完全体) |
|---|---|---|---|
| 操作方式 | 对AI描述屏幕元素 | 在终端手动运行脚本 | 通过自然语言指令驱动 |
| 执行速度 | 分钟级 (受UI加载限制) | 毫秒级 (纯后端交互) | 即时响应 (边沟通边执行) |
| 用户体验 | 如同观看一位老人操作电脑 | 如同观看程序员运行脚本 | 如同吩咐一位专业的虚拟助理 |
| 执行安全 | 有一定概率误操作、误删 | 仅发送指定请求 | 仅执行预定义的意图 |
| 场景模拟 | 你让AI去发小龙虾邀约 | 你编写脚本定时发送邀约 | 你随口一提,Openclaw 自动完成组局 |
| 成本 | ????? | ? | ? (接近零成本) |
?️ 实战路线图:从零开始的“HAR流”操作指南
如果你已决定采用,以下是一份 “HAR流” 的简要操作步骤。
第一关:获取AI的“身份令牌”——处理认证
- Computer Use 做法:观察AI笨拙地输入账号密码,或尝试保存全屏Cookies。
- HAR流做法:直接将
Cookie字符串复制到脚本的环境变量中。这串字符是你浏览器的临时凭证,AI凭借它即可无障碍访问。
第二关:传授“核心技能”——提取关键操作
- Computer Use 做法:精心编写指令:“先看左边,找到蓝色按钮……”
- HAR流做法:直接将 HAR 文件提供给AI。 你可以这样指示:
“在此HAR文件中,找出向https://api.xxx.com/task/create发送请求的记录。提取其中的数据格式,将标题和描述替换为参数,生成可执行的脚本。”
第三关:组装“执行指令”——编写 Skill.md
无论哪种技术,AI都需要明确的指引。
- Computer Use 说明书:长达10页的屏幕坐标描述与异常处理分支。
- HAR流说明书:仅需用自然语言定义工作流:检查本地 Cookie 是否过期。执行创建任务脚本,标题使用你提供的指令。如果返回成功则反馈成功,如果返回失败则提示你重新登录网页。
第四关:终极部署——嵌入 Openclaw
- 将写好的技能说明和脚本整理到一个文件夹。
- 拖入 Openclaw。
- 从此,你仅需口头指令。
? 核心总结:AI时代的效率理念
不必再艳羡那些会自动操控鼠标的炫酷“桌面精灵”。
真正的效率解放,并非观看AI表演如何费力地操作界面,而是让AI在你视线之外 ,稳妥地完成所有工作。
今晚就去吃小龙虾吧。打开浏览器,录制你最厌恶的“发日报”操作,丢给AI生成一个 Skill,然后嵌入 Openclaw。
从明天起,你负责专注思考,它负责自动执行。
这,才是对低价值重复劳动最优雅的反击。


