开源模型本地Agent效率榜单:比Codex快4倍

2026-06-13阅读 0热度 0
开源模型

最近明显感觉到,Agent执行任务的稳定性大幅提升。但效率——也就是任务的响应速度——依旧是关键短板。如何让Agent跑得更快,已成为当前最棘手的实际问题。

阶跃开源了最新模型Step 3.7 Flash,官方声称其Agent能力强劲,原生支持多模态理解,作为Flash系列模型,推理速度极快。

github.com/stepfun-ai/…

实测接入Codex后,Step 3.7 Flash的输出速度轻松碾压GPT-5.5的最快模式,快了接近4倍。

Codex+GPT-5.5最快速的模式:

*注:专门将两者生成的文字复制到飞书文档对比,字数均在2500-2600字之间,step3.7 flash输出2500多字,GPT-5.5输出2600多字。

Step 3.7 Flash是一个198B参数的开源多模态大模型,视觉编码器1.8B,激活参数11B。原生支持图像理解,结合工具链可处理视频素材,拥有256K长上下文支持,最高生成速度达到400 Tokens/s。

为了优化本地Agent在特定场景下的任务执行效率,我将Step 3.7 Flash接入了本地Claude Code。官方已提供现成的接入指南。

*原计划接入Codex,但为了适配Codex需额外安装一个Codex++的中间件,操作繁琐且适配体验不够顺畅,折腾一段时间后放弃了。

几天体验下来,发现Step 3.7 Flash在以下几个场景中表现十分出色。

1. 视频提示词逆向工程,纯提示词复刻视频

整个测试过程中,Step 3.7 Flash的视觉能力给我留下深刻印象,尤其适合执行需要密集视觉理解的推理任务。

例如,让它逆向分析精彩视频的提示词,仅用提示词复刻视频。工作流极其简洁:将一段短视频丢给它分析,让它逆向还原出该视频的核心提示词,然后将提取的提示词输入到新的视频生成AI中重新生成,效果出乎意料。

今后,无论你看到哪条效果炸裂的短视频,都可以快速“解构”它、模仿它、再创作它。对短视频从业者、品牌方、内容创作者而言,这套工具组合能真正节省时间。而且是开源方案,API调用成本极低。

流程如下:将Step 3.7的Step Plan接入Claude Code,直接调用Step的API,在工具链支持下,把视频素材交给Step 3.7 Flash分析,让它撰写一份用于复刻原视频的详细分镜文档。

得益于Step 3.7的高效速度,分析过程极为迅速,生成了近两百行的分镜文档。每个镜头的prompt、音乐节奏考量和甚至AI工具使用的注意事项,都囊括其中。

随后,将整个逆向提取的提示词文档直接投入Seedance2.0,一次性就输出了结果。

这套流程完全可以封装成自动化工作流,批量复刻有趣的短视频。Step 3.7 Flash在整个环节中能大幅节省时间和Token消耗。

2. 视频理解:精准定位违反物理规律的时间点

这是DeepSeek V4 Pro一次性生成的小球运动动画,肉眼能轻易识别出明显bug,存在违背物理规律的缺陷。

让Step 3.7进行视频理解分析,看它能否准确找出问题,并给出精准的时间点。

结果它确实成功定位,时间点标注相当准确。

AI视频生成团队应该会喜欢这项能力。过去每条视频都需要人工一帧帧检查物理错误,现在只需丢给它过一遍,能省下大量人力成本。

3. 视觉分析 + 图片联网推理定位地点

不仅限于视频识别,它还能将视觉线索与实时联网检索结合,这个功能非常实用。

比如这张朋友圈里的风景照,你能一眼认出是哪里吗?

看到图中姑娘的服饰,如果没有额外信息,只能推测是少数民族地区(比如新疆)。我试探性地给Step 3.7 Flash出了这道题。

Step 3.7先进行了一轮思考,注意到画面背景中有“CCTV”字样——这也是我第一眼没留意到的细节。接着它发现了半露出的招牌,写着“公羊”二字。然后结合其他辅助信息进行联网搜索,再推理一轮,最终精确到具体地点:新疆伊犁哈萨克自治州伊宁市六星街的黑公羊餐厅。

这个结果有点震撼。本来以为能知道大概哪个市就算不错了,没想到精确到了具体店铺。

4. 解决Win11经典Bug:系统服务内存泄漏

最近将系统升级到Win11,一早醒来发现内存占用爆红。打开任务管理器,发现一个进程占用近2.4GB内存但CPU使用率为零,行为异常。

将这张截图发给接入了Step 3.7 Flash的Claude Code询问。它分析指出,这是一个系统服务的内存泄漏问题,属于Windows 10/11持续了近10年的“经典级”已知Bug,微软多次修复但从未彻底根除。

出于系统安全考虑,Claude Code未能获得最高系统权限。可以看到Step 3.7 Flash积极采用了多种手段:重启服务、杀掉进程、修改注册表等,尽力解决问题,但因权限不足未能成功。它很快意识到这一点,随即转向向我请求帮助,并写好了详细步骤引导我手动执行。

按照步骤操作完成后,让它检查,我重新查看任务管理器——内存泄漏已被成功清除,不必要的系统服务也被停用。以后再也不用担心内存泄漏问题了,省下近2GB内存,可以多开几个Claude Code实例。

所以,Step 3.7 Flash的实际任务执行能力确实扎实。

5. GeoGebra专业动画教学视频:导入理解后用HTML复刻

GeoGebra是数学教育专业硕士的必修课程,需专门学习制作动画演示。整个过程比较繁琐,朋友经常为此头疼。上课听不懂,只能去B站找教学视频一步步模仿,但时间一长又忘了,得从头再学一遍。

下载了这段B站教学视频,导入给Step 3.7 Flash,想看看它能否直接复刻。这是GeoGebra软件的教学视频,时长1分钟。目前能理解1分钟视频内容的国产大模型不多,我不太确定Step 3.7能否胜任。

1分钟的视频信息量密集,我担心它可能会理解偏误。但最终发现低估了它——它完全正确理解了内容,并且能按要求输出每个函数的动画过程。

我同意了这个计划,它就开始疯狂写代码了。一边写代码,一边自动在浏览器上打开自己生成的HTML,逐个按钮进行交互测试。

这里有个小插曲:Step 3.7 Flash的速度太快了,没来得及录屏它就已经搞定。所以我只好让它再操作一遍,说我要录屏。

于是它真的重来一遍,再检查一遍,逐个按钮点击切换、播放动画。下面录屏显示,左边是它操作交互的过程,右边是它的思考过程,一边思考一边操作。

我全程没有点击任何按钮,浏览器也不是我打开的,全是它自己一边写代码一边操作的。

没想到它直接输出成果,而且是四个函数一口气全部完成。虽然和原视频不是100%一致,但已经一次性完成了接近90%,确实有东西。

关于价格

很多次评论区都会问到相关模型和工具的价格,这次一并解答。

Step 3.7 Flash有Step Plan套餐,价格不算特别便宜,但实际用量非常耐用。

按每5小时的使用次数限制,和Codex的订阅制类似。限时按次使用最舒服,完全不用操心Token消耗了多少。真的很耐用。一开始还怕便宜套餐不够用,直接上了Pro……结果连续跑了几天,连额度的零头都没用完。

这种模式非常适合Claude Code和Codex,给Agent当视觉辅助工具,关键是识别和输出速度都很快。如果用量不大,也可以直接用API额度:

最后

整体用下来,Step 3.7 Flash算不上那种顶尖的视觉模型,毕竟参数量摆在那。但它的视觉理解能力扎实,代码能力也不错,推理性能在线,速度极快,而且非常耐用。

在适合的应用场景中,它算是一款高性价比的模型。当然,让它执行高度复杂的任务,肯定还是比不上Codex+GPT-5.5。但在很多不那么复杂的场景里完全够用,关键就是快,让习惯了Codex“老爷车”速度的我,一时间还有点不适应。

前两天参加腾讯云的AI峰会,被采访时问到一个问题:“你觉得今年的Agent跟去年的Agent有什么不一样?”

我简单思考后回答:“今年的Agent执行任务越来越稳了,但完成任务所需的时间也更长了。”

在Agent任务稳定性持续提升之后,效率一定是Agent下一阶段追求的核心指标。时间 > 金钱,用钱能换来时间,绝对划算。目前看来,更合理的分工是:强模型负责深度思考难题,快模型负责执行干活。这或许才是Agent正确的打开方式。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策