屏幕识别与指令流终极对决：AI打工替身到底谁更胜一筹

2026-06-12阅读 0热度 0

告别繁琐的API对接，免去密钥配置流程。
无需依赖AI视觉识别“碰运气”——只需录制一段HAR，AI即可精准执行。
脚本完成后丢入Openclaw，你安心享用龙虾大餐，它自动完成群消息推送。

2026年4月，AI领域迎来里程碑式升级。OpenAI发布的Codex重大更新，赋予了AI全新的 “Computer Use” 能力：它拥有了独立的虚拟光标，可在Mac后台“观察、点击、输入”，替你操作几乎任何桌面级别的应用程序。

全球开发者为之沸腾：“AI终于能独立完成任务了！”

然而，在聚光灯未及之处，真正的效率革命，隐藏在一个你每天使用、却从未想过能用于构建自动化的功能里——浏览器的HAR录制。

先别急着否定。如果你认为让AI“看屏幕”是唯一的自动化捷径，那你很可能在浪费宝贵的时间、资金与算力。

今天这篇文章，将为你深入剖析 “HAR录制自动化” 的核心价值，并将其与顶流的 “OpenAI Computer Use” 进行全面对比。

你会明白，为何资深玩家悄悄选择前者，而新手仍在为后者的“疑似误触”买单。

? 核心对比：为何“AI视觉操控”如同用牛刀杀鸡？

我们先正视 Codex Computer Use 的真实情况：

OpenAI 官方宣称：Codex 现在能通过 “观察、点击、输入” 的方式，如同真人般操控你的Mac电脑与应用程序。它能自主移动光标，处理“没有API的软件”，甚至实现多任务后台并行。

听起来是否无所不能？简直就是钢铁侠的贾维斯！

冷静。我们来算一笔成本账：

如果你的目标只是“每天自动创建几个GitHub Issue”或“从公司后台导出昨日报表”，让AI通过视觉（Computer Use）来完成意味着：

? 高昂Token消耗：每秒钟，AI都在持续截屏、识别、分析坐标。这消耗的是真金白银的API费用。以GPT-5.4 Computer Use API为例，每100万输出token需30美元，一个稍复杂的网页操作流程下来，几毛到几块钱就没了——而你原本只想节省30秒。
? 低效的执行效率：AI必须像初学者上网：“哦，我看到了登录框……哦，现在移动鼠标去点击……哦，我输入一个字符……”。一个5秒的手动操作，AI可能需要反复截屏验证30秒。
? 致命的幻觉错误：今天它能准确识别“提交”按钮，明天网站UI微调了一个像素，它可能就“视觉失灵”，对着空白区域盲目点击。

不可否认，Computer Use是操作系统级的全能方案——它存在的意义是解决那些极度非标、无法预测、缺乏API的棘手任务（例如修复Xcode里的某个游戏Bug）。

但对于你每天重复千百次的“标准化操作” 呢？用Computer Use，无异于 “用巡航导弹打蚊子”——威力强大，但成本高昂，且极易误伤。

? 效率真相：HAR录制的“精准链路”原理

HAR (HTTP Archive) 是什么？

它不是屏幕录像，而是浏览器 “数据层的完整日志” 。当你登录网页、点击按钮、填充表单时，背后的实质是你的电脑向服务器发送了一系列加密的“数据包”（网络请求）。

录制HAR，就是将这批“数据包”的格式、内容、目标地址完整无误地复制下来。

这就是 HAR录制自动化 的效率核心：

不依赖视觉，不依赖API文档——直接还原你操作背后的“数据对话”。

流程极其高效：

获取令牌：F12 → Application → Cookies，复制一串凭证。你的AI脚本即刻拥有你的“通行权限”。
录制关键交互：在Network面板点击录制，手动完成一个你想自动化的操作（如“新建任务”），然后停止。
AI自动解析：将HAR文件提供给AI，并指令：“分析文件，找出刚才‘创建任务’的API调用，并生成Python脚本。”
自动化启动：AI分析出URL、Headers、Payload结构，输出一份毫秒级执行的精准脚本。

核心差异在此刻一目了然：

维度	? Computer Use (视觉流)	? HAR 录制自动化 (数据流)
核心逻辑	图像识别，模拟人眼与鼠标	直接发送请求，模拟人机交互
对UI变化的容忍度	零容忍 (UI样式变更即失效)	完全免疫 (只要后端接口不变)
执行速度	30秒起步 (加载渲染、坐标定位)	毫秒级 (直连服务端)
Token / 算力消耗	极高 (每一帧都需处理)	近乎忽略 (一次性分析，永久复用)
编程门槛	无门槛 (理论上口头指令即可)	零门槛 (你只需录制HAR，AI生成代码)
最佳适用场景	一次性、跨平台、无API的非常规任务	高频、重复、标准化的业务流程

? 实战演示：15分钟 vs 30秒，用HAR打造飞书任务机器人

理论不如实践。我们将两种技术置于真实工作场景中检验。

场景设定：你是一名项目经理

每天你需要重复一项任务：将“用户反馈群”里的精华聊天内容，手动录入飞书多维表格进行Bug追踪。 这项任务每天耗费你30分钟，繁琐且无价值。

?️ 方案 A：使用 Codex Computer Use

操作：向Codex下达指令：“进入飞书群，提取今天上午10点到12点间标记为重要的消息中的关键Bug，填入‘研发排期表’。”
AI执行过程：
- AI截屏，识别飞书群窗口。
- 尝试通过图像寻找“重要消息”标签（若群聊背景色或字体改变，可能第一步即告失败）。
- 逐条滚动截屏，进行OCR文字识别。
- 切换到多维表格，通过视觉定位“添加一行”按钮。
- 输入文字（速度极慢）。
结果：
- 耗时：约 3-5 分钟（若中途无操作失误）。
- 费用：约 $0.5 - $1.0 / 次 (取决于截屏数量)。
- 风险：一旦飞书UI改版，此自动化流程直接失效。

?️ 方案 B：使用 HAR 录制 + Skill 脚本

操作：
- Step 1 (5分钟)：打开飞书网页版 → F12 → 录制 → 手动点击一条消息 → 在多维表格中新增一行。导出 task.har 文件。
- Step 2 (10分钟)：将 HAR 文件提供给AI：“分析文件，定位‘发送群消息’与‘添加表格行’的API，生成一个 Skill。”
- Step 3 (0分钟)：AI 生成的 Python 脚本上线并自动运行。
结果：
- 耗时：首次搭建15分钟；此后每日自动执行仅需 < 3秒。
- 费用：$0.000（脚本本地运行，无截屏费用）。
- 风险：即便飞书前端UI彻底改版，只要后端接口 /open-apis/bitable/... 保持稳定，脚本100%稳定运行。

哪种方案更贴近效率目标？答案不言自明。

? 终极体验：当 Skill 融入 Openclaw——你开口，它执行

你可能会想：“技术确实不错，但每次运行还得手动敲终端命令？”

格局可以更大。

通过HAR录制生成的 Skill，其最终价值并非局限于本地文件夹，而是存在于一个名为 Openclaw 的平台。

Openclaw 是什么？你可以把它理解为 AI 的“执行中枢”——一个专门运行这些 SKILL.md 和 Python 脚本的智能体环境。

整个流程将变为这样一段科幻般的体验：

你：花费15分钟完成HAR录制，AI为你生成一个名为“飞书群发助手”的 Skill 文件夹。
你：将这个文件夹直接拖入 Openclaw 的对话窗口（或 @ 它并关联此技能）。
你：关闭所有网页，放松躺下，拿起手机，向 Openclaw 发出一句自然语言指令：

“Hey Openclaw，帮我在【摸鱼小分队】群里发一条消息：今晚小龙虾局，老地方，我请了AI代班写代码，必到。”

⚡️ 接下来的瞬间发生了什么（Codex Computer Use 无法实现）

Codex Computer Use 的流程：
“睁开眼睛，移动鼠标定位飞书图标，双击打开，等待界面加载，定位搜索框，输入“摸鱼小分队”，点击进入，定位输入框，逐字打字，定位发送按钮，点击发送。”
耗时 45 秒，费用 $0.3，且有 15% 概率误入“工作汇报群”造成尴尬。
Openclaw + HAR Skill 的流程：
它读取技能定义，识别触发词“发消息”和“小龙虾”。Openclaw 内部仅做了一件事：向飞书服务器发送一个极其精简的数据包。数据包内容：目标群ID为“摸鱼小分队”，消息内容为小龙虾邀约。
耗时 0.8 秒。费用 $0.000。成功率 100%。

? 为何只有 HAR 流能让你“边吃小龙虾边完成工作”？

因为 Openclaw + Skill 的组合，将 AI 的执行逻辑从 “模拟人类观察” 升级为 “机器直接执行”。

无需等待界面渲染：不必等待网页加载的旋转图标。
无需计算屏幕坐标：不必计算聊天框到屏幕左上角的具体像素位置。
无操作系统误触风险：你无需担心 Openclaw 会意外打开你昨晚浏览的购物页面。

这才是核心原因：

Codex Computer Use 是让 AI 替你“盯着电脑”，你仍需在旁边监督它不出错。
Openclaw + HAR Skill 是让 AI 替你“执行指令”，你完全可以关掉设备去享受生活，事情也能完美完成。

? 全面对比：三足鼎立，谁是效率王者？

维度	?️ Codex Computer Use	? HAR 录制	? HAR + Openclaw (完全体)
操作方式	对AI描述屏幕元素	在终端手动运行脚本	通过自然语言指令驱动
执行速度	分钟级 (受UI加载限制)	毫秒级 (纯后端交互)	即时响应 (边沟通边执行)
用户体验	如同观看一位老人操作电脑	如同观看程序员运行脚本	如同吩咐一位专业的虚拟助理
执行安全	有一定概率误操作、误删	仅发送指定请求	仅执行预定义的意图
场景模拟	你让AI去发小龙虾邀约	你编写脚本定时发送邀约	你随口一提，Openclaw 自动完成组局
成本	?????	?	? (接近零成本)

?️ 实战路线图：从零开始的“HAR流”操作指南

如果你已决定采用，以下是一份 “HAR流” 的简要操作步骤。

第一关：获取AI的“身份令牌”——处理认证

Computer Use 做法：观察AI笨拙地输入账号密码，或尝试保存全屏Cookies。
HAR流做法：直接将 Cookie 字符串复制到脚本的环境变量中。这串字符是你浏览器的临时凭证，AI凭借它即可无障碍访问。

第二关：传授“核心技能”——提取关键操作

Computer Use 做法：精心编写指令：“先看左边，找到蓝色按钮……”
HAR流做法：直接将 HAR 文件提供给AI。 你可以这样指示：
“在此HAR文件中，找出向 https://api.xxx.com/task/create 发送请求的记录。提取其中的数据格式，将标题和描述替换为参数，生成可执行的脚本。”

第三关：组装“执行指令”——编写 Skill.md

无论哪种技术，AI都需要明确的指引。

Computer Use 说明书：长达10页的屏幕坐标描述与异常处理分支。
HAR流说明书：仅需用自然语言定义工作流：检查本地 Cookie 是否过期。执行创建任务脚本，标题使用你提供的指令。如果返回成功则反馈成功，如果返回失败则提示你重新登录网页。

第四关：终极部署——嵌入 Openclaw

将写好的技能说明和脚本整理到一个文件夹。
拖入 Openclaw。
从此，你仅需口头指令。

? 核心总结：AI时代的效率理念

不必再艳羡那些会自动操控鼠标的炫酷“桌面精灵”。

真正的效率解放，并非观看AI表演如何费力地操作界面，而是让AI在你视线之外 ，稳妥地完成所有工作。

今晚就去吃小龙虾吧。打开浏览器，录制你最厌恶的“发日报”操作，丢给AI生成一个 Skill，然后嵌入 Openclaw。

从明天起，你负责专注思考，它负责自动执行。
这，才是对低价值重复劳动最优雅的反击。