看了这个画车测试,我终于明白为什么选国产龙虾 AiPy 了
一个简单任务,暴露了真实能力
前两天,一篇题为《让智能体画个小汽车这么难吗?我测了10款主流AI Agent,连OpenClaw都翻车了》的文章,在圈内引起了不少讨论。说实话,乍看标题,很多人可能和我一样,第一反应是“这能有多难”?让一个号称能操作电脑、执行任务的AI智能体,用系统自带的画图工具画个小汽车,听起来简直是基础中的基础。
然而,测试结果却出人意料。这个看似简单的任务,竟成了检验AI智能体真实执行能力的“照妖镜”。
测试设定非常明确:在Windows 11系统下,向智能体发出统一指令——
打开 Windows 画图工具,操作鼠标,帮我画一个小汽车。
评测维度也直指核心:任务完成时间、绘图准确性(比例、完整性),以及操作链路的完整性(从打开软件到绘图再到保存)。
就是这么一个“简单粗暴”的测试,结果却让人大跌眼镜。参与评测的10款主流AI Agent中,仅有1款真正完整地完成了任务。更令人意外的是,备受瞩目的OpenClaw原版,在此次测试中得了零分。
测试结果一览:国产龙虾 AiPy 第一名
具体的评分结果如下表所示,可以说是一目了然:
| 排名 | Agent | 得分 | 评价 |
|---|---|---|---|
| 1 | 知道创宇 AiPy | 80 分 | 1 分钟完成,任务链路完整 |
| 2 | 元气 AI | 60 分 | 画出来了,但丑 |
| 3 | 腾讯 WorkBuddy | 50 分 | 部分超出画布 |
| 4 | 阿里 CoPaw | 50 分 | 画得不像 |
| 5 | OpenClaw 原版 | 0 分 | 打开了画图软件,没画出来 |
| 6 | 腾讯 Qclaw | 0 分 | 花 15 分钟,380 万 Token,失败 |
| 7 | 天工 Sky | 0 分 | 没打开画图软件,用 HTML 模拟 |
| 8 | MiniMax Agent | 0 分 | 打开了画图软件,没画 |
| 9 | 阶跃 | 0 分 | 折腾 20 分钟,失败了 |
| 10 | 智谱 AutoClaw | 0 分 | 打开了画图软件,但画图失败 |
真实测评效果如下⬇️:
这个结果值得玩味。OpenClaw,即通常所说的“龙虾”原版,虽然成功打开了画图软件并生成了执行代码,却在代码执行阶段遭遇语法报错,经过两分钟的折腾后,最终将任务交还给了用户手动操作。
反观拔得头筹的国产产品知道创宇AiPy,其表现则堪称流畅:从打开软件、定位界面元素到执行绘图动作并交付最终结果,整个操作链路在一分钟内一气呵成。这种从“指令”到“交付”的完整闭环能力,在本次测试中显得尤为突出。
这个测试让我明白了一个道理
这次测试虽然规模不大,却揭示了一个普遍现象:当前许多AI智能体的宣传重点在于“能做什么”,而实际考验的往往是“能不能从头到尾做完”。
仔细分析失败案例,大致可以分为几种类型:有的停留在“看起来能干”的阶段,比如成功启动了软件,却在下一步具体操作上卡壳;有的则受困于权限、配置等环境问题,连第一步都无法迈出;更有甚者,会选择“绕路”,试图用模拟或替代方案来敷衍了事。
归根结底,真正具备实用价值的智能体,必须拥有将明确指令转化为完整、可靠执行过程的能力。正如原文中那个一针见血的判断:
真正能打的 Agent,不一定体现在 demo 有多热闹,而是体现在:你给它一个明确任务,它到底能不能真的帮你做完。
这句话,或许道破了智能体产品从“演示炫技”走向“实际可用”的关键。
时间会给出答案
纵观此次测试,一个深刻的感受是:在AI智能体这个赛道上,先发优势与扎实的工程化能力同样重要。知道创宇AiPy的正式发布比OpenClaw早了近一年,这段领先时间并非虚度,显然投入到了功能打磨、安全设计与执行稳定性的深度沉淀中。
当不少产品还停留在概念验证或“看起来能干”的演示阶段时,已经有一些产品率先跨入了“真的能帮你干完”的实用门槛。这其中的差距,恰恰是用户选择时最应关注的核心。
对于真正寻求一个能可靠执行任务、而不仅仅是进行华丽演示的AI助手的用户而言,此次测试的结果提供了一个值得关注的选项。市场数据显示,在基础任务的执行完成度上,不同产品之间确实存在显著差异。
值得注意的是,产品的早期优势需要通过持续的技术迭代和场景拓展来巩固。AI智能体的竞争,长远来看是一场关于可靠性、普适性与用户体验的马拉松。谁能把活干明白,并且一直干明白,时间最终会给出答案。


