屏幕识别与指令流终极对决:AI打工替身到底谁更胜一筹

2026-06-12阅读 0热度 0
ai

告别繁琐的API对接,免去密钥配置流程。
无需依赖AI视觉识别“碰运气”——只需录制一段HAR,AI即可精准执行。
脚本完成后丢入Openclaw,你安心享用龙虾大餐,它自动完成群消息推送。

2026年4月,AI领域迎来里程碑式升级。OpenAI发布的Codex重大更新,赋予了AI全新的 “Computer Use” 能力:它拥有了独立的虚拟光标,可在Mac后台“观察、点击、输入”,替你操作几乎任何桌面级别的应用程序。

全球开发者为之沸腾:“AI终于能独立完成任务了!”

然而,在聚光灯未及之处,真正的效率革命,隐藏在一个你每天使用、却从未想过能用于构建自动化的功能里——浏览器的HAR录制

先别急着否定。如果你认为让AI“看屏幕”是唯一的自动化捷径,那你很可能在浪费宝贵的时间、资金与算力。

今天这篇文章,将为你深入剖析 “HAR录制自动化” 的核心价值,并将其与顶流的 “OpenAI Computer Use” 进行全面对比。

你会明白,为何资深玩家悄悄选择前者,而新手仍在为后者的“疑似误触”买单。


? 核心对比:为何“AI视觉操控”如同用牛刀杀鸡?

我们先正视 Codex Computer Use 的真实情况:

OpenAI 官方宣称:Codex 现在能通过 “观察、点击、输入” 的方式,如同真人般操控你的Mac电脑与应用程序。它能自主移动光标,处理“没有API的软件”,甚至实现多任务后台并行。

听起来是否无所不能?简直就是钢铁侠的贾维斯!

冷静。我们来算一笔成本账:

如果你的目标只是“每天自动创建几个GitHub Issue”或“从公司后台导出昨日报表”,让AI通过视觉(Computer Use)来完成意味着:

  • ? 高昂Token消耗:每秒钟,AI都在持续截屏、识别、分析坐标。这消耗的是真金白银的API费用。以GPT-5.4 Computer Use API为例,每100万输出token需30美元,一个稍复杂的网页操作流程下来,几毛到几块钱就没了——而你原本只想节省30秒。
  • ? 低效的执行效率:AI必须像初学者上网:“哦,我看到了登录框……哦,现在移动鼠标去点击……哦,我输入一个字符……”。一个5秒的手动操作,AI可能需要反复截屏验证30秒。
  • ? 致命的幻觉错误:今天它能准确识别“提交”按钮,明天网站UI微调了一个像素,它可能就“视觉失灵”,对着空白区域盲目点击。

不可否认,Computer Use是操作系统级的全能方案——它存在的意义是解决那些极度非标、无法预测、缺乏API的棘手任务(例如修复Xcode里的某个游戏Bug)。

但对于你每天重复千百次的“标准化操作” 呢?用Computer Use,无异于 “用巡航导弹打蚊子”——威力强大,但成本高昂,且极易误伤。


? 效率真相:HAR录制的“精准链路”原理

HAR (HTTP Archive) 是什么?

它不是屏幕录像,而是浏览器 “数据层的完整日志” 。当你登录网页、点击按钮、填充表单时,背后的实质是你的电脑向服务器发送了一系列加密的“数据包”(网络请求)。

录制HAR,就是将这批“数据包”的格式、内容、目标地址完整无误地复制下来。

这就是 HAR录制自动化 的效率核心:

不依赖视觉,不依赖API文档——直接还原你操作背后的“数据对话”。

流程极其高效:

  1. 获取令牌:F12 → Application → Cookies,复制一串凭证。你的AI脚本即刻拥有你的“通行权限”。
  2. 录制关键交互:在Network面板点击录制,手动完成一个你想自动化的操作(如“新建任务”),然后停止。
  3. AI自动解析:将HAR文件提供给AI,并指令:“分析文件,找出刚才‘创建任务’的API调用,并生成Python脚本。
  4. 自动化启动:AI分析出URL、Headers、Payload结构,输出一份毫秒级执行的精准脚本。

核心差异在此刻一目了然:

维度? Computer Use (视觉流)? HAR 录制自动化 (数据流)
核心逻辑图像识别,模拟人眼与鼠标直接发送请求,模拟人机交互
对UI变化的容忍度零容忍 (UI样式变更即失效)完全免疫 (只要后端接口不变)
执行速度30秒起步 (加载渲染、坐标定位)毫秒级 (直连服务端)
Token / 算力消耗极高 (每一帧都需处理)近乎忽略 (一次性分析,永久复用)
编程门槛无门槛 (理论上口头指令即可)零门槛 (你只需录制HAR,AI生成代码)
最佳适用场景一次性、跨平台、无API的非常规任务高频、重复、标准化的业务流程

? 实战演示:15分钟 vs 30秒,用HAR打造飞书任务机器人

理论不如实践。我们将两种技术置于真实工作场景中检验。

场景设定:你是一名项目经理

每天你需要重复一项任务:将“用户反馈群”里的精华聊天内容,手动录入飞书多维表格进行Bug追踪。 这项任务每天耗费你30分钟,繁琐且无价值。

?️ 方案 A:使用 Codex Computer Use

  1. 操作:向Codex下达指令:“进入飞书群,提取今天上午10点到12点间标记为重要的消息中的关键Bug,填入‘研发排期表’。”
  2. AI执行过程

    • AI截屏,识别飞书群窗口。
    • 尝试通过图像寻找“重要消息”标签(若群聊背景色或字体改变,可能第一步即告失败)。
    • 逐条滚动截屏,进行OCR文字识别。
    • 切换到多维表格,通过视觉定位“添加一行”按钮。
    • 输入文字(速度极慢)。
  3. 结果

    • 耗时:约 3-5 分钟(若中途无操作失误)。
    • 费用:约 $0.5 - $1.0 / 次 (取决于截屏数量)。
    • 风险:一旦飞书UI改版,此自动化流程直接失效

?️ 方案 B:使用 HAR 录制 + Skill 脚本

  1. 操作
    • Step 1 (5分钟):打开飞书网页版 → F12 → 录制 → 手动点击一条消息 → 在多维表格中新增一行。导出 task.har 文件。
    • Step 2 (10分钟):将 HAR 文件提供给AI:“分析文件,定位‘发送群消息’与‘添加表格行’的API,生成一个 Skill。”
    • Step 3 (0分钟):AI 生成的 Python 脚本上线并自动运行。
  2. 结果
    • 耗时首次搭建15分钟;此后每日自动执行仅需 < 3秒
    • 费用$0.000(脚本本地运行,无截屏费用)。
    • 风险:即便飞书前端UI彻底改版,只要后端接口 /open-apis/bitable/... 保持稳定,脚本100%稳定运行

哪种方案更贴近效率目标?答案不言自明。


? 终极体验:当 Skill 融入 Openclaw——你开口,它执行

你可能会想:“技术确实不错,但每次运行还得手动敲终端命令?”

格局可以更大。

通过HAR录制生成的 Skill,其最终价值并非局限于本地文件夹,而是存在于一个名为 Openclaw 的平台。

Openclaw 是什么?你可以把它理解为 AI 的“执行中枢”——一个专门运行这些 SKILL.md 和 Python 脚本的智能体环境。

整个流程将变为这样一段科幻般的体验:

  1. :花费15分钟完成HAR录制,AI为你生成一个名为“飞书群发助手”的 Skill 文件夹。
  2. :将这个文件夹直接拖入 Openclaw 的对话窗口(或 @ 它并关联此技能)。
  3. :关闭所有网页,放松躺下,拿起手机,向 Openclaw 发出一句自然语言指令

“Hey Openclaw,帮我在【摸鱼小分队】群里发一条消息:今晚小龙虾局,老地方,我请了AI代班写代码,必到。

⚡️ 接下来的瞬间发生了什么(Codex Computer Use 无法实现)

  • Codex Computer Use 的流程
    “睁开眼睛,移动鼠标定位飞书图标,双击打开,等待界面加载,定位搜索框,输入“摸鱼小分队”,点击进入,定位输入框,逐字打字,定位发送按钮,点击发送。”
    耗时 45 秒,费用 $0.3,且有 15% 概率误入“工作汇报群”造成尴尬。
  • Openclaw + HAR Skill 的流程
    它读取技能定义,识别触发词“发消息”和“小龙虾”。Openclaw 内部仅做了一件事:向飞书服务器发送一个极其精简的数据包。数据包内容:目标群ID为“摸鱼小分队”,消息内容为小龙虾邀约。
    耗时 0.8 秒。费用 $0.000。成功率 100%。

? 为何只有 HAR 流能让你“边吃小龙虾边完成工作”?

因为 Openclaw + Skill 的组合,将 AI 的执行逻辑从 “模拟人类观察” 升级为 “机器直接执行”

  • 无需等待界面渲染:不必等待网页加载的旋转图标。
  • 无需计算屏幕坐标:不必计算聊天框到屏幕左上角的具体像素位置。
  • 无操作系统误触风险:你无需担心 Openclaw 会意外打开你昨晚浏览的购物页面。

这才是核心原因:

Codex Computer Use 是让 AI 替你“盯着电脑”,你仍需在旁边监督它不出错。
Openclaw + HAR Skill 是让 AI 替你“执行指令”,你完全可以关掉设备去享受生活,事情也能完美完成。


? 全面对比:三足鼎立,谁是效率王者?

维度?️ Codex Computer Use? HAR 录制? HAR + Openclaw (完全体)
操作方式对AI描述屏幕元素在终端手动运行脚本通过自然语言指令驱动
执行速度分钟级 (受UI加载限制)毫秒级 (纯后端交互)即时响应 (边沟通边执行)
用户体验如同观看一位老人操作电脑如同观看程序员运行脚本如同吩咐一位专业的虚拟助理
执行安全有一定概率误操作、误删仅发送指定请求仅执行预定义的意图
场景模拟你让AI去发小龙虾邀约你编写脚本定时发送邀约你随口一提,Openclaw 自动完成组局
成本??????? (接近零成本)

?️ 实战路线图:从零开始的“HAR流”操作指南

如果你已决定采用,以下是一份 “HAR流” 的简要操作步骤。

第一关:获取AI的“身份令牌”——处理认证

  • Computer Use 做法:观察AI笨拙地输入账号密码,或尝试保存全屏Cookies。
  • HAR流做法:直接将 Cookie 字符串复制到脚本的环境变量中。这串字符是你浏览器的临时凭证,AI凭借它即可无障碍访问。

第二关:传授“核心技能”——提取关键操作

  • Computer Use 做法:精心编写指令:“先看左边,找到蓝色按钮……”
  • HAR流做法直接将 HAR 文件提供给AI。 你可以这样指示:
    “在此HAR文件中,找出向 https://api.xxx.com/task/create 发送请求的记录。提取其中的数据格式,将标题和描述替换为参数,生成可执行的脚本。”

第三关:组装“执行指令”——编写 Skill.md

无论哪种技术,AI都需要明确的指引。

  • Computer Use 说明书:长达10页的屏幕坐标描述与异常处理分支。
  • HAR流说明书:仅需用自然语言定义工作流:检查本地 Cookie 是否过期。执行创建任务脚本,标题使用你提供的指令。如果返回成功则反馈成功,如果返回失败则提示你重新登录网页。

第四关:终极部署——嵌入 Openclaw

  • 将写好的技能说明和脚本整理到一个文件夹。
  • 拖入 Openclaw。
  • 从此,你仅需口头指令。

? 核心总结:AI时代的效率理念

不必再艳羡那些会自动操控鼠标的炫酷“桌面精灵”。

真正的效率解放,并非观看AI表演如何费力地操作界面,而是让AI在你视线之外 ,稳妥地完成所有工作。

今晚就去吃小龙虾吧。打开浏览器,录制你最厌恶的“发日报”操作,丢给AI生成一个 Skill,然后嵌入 Openclaw。

从明天起,你负责专注思考,它负责自动执行。
这,才是对低价值重复劳动最优雅的反击。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策