开源模型本地Agent效率榜单:比Codex快4倍
最近明显感觉到,Agent执行任务的稳定性大幅提升。但效率——也就是任务的响应速度——依旧是关键短板。如何让Agent跑得更快,已成为当前最棘手的实际问题。
阶跃开源了最新模型Step 3.7 Flash,官方声称其Agent能力强劲,原生支持多模态理解,作为Flash系列模型,推理速度极快。
github.com/stepfun-ai/…
实测接入Codex后,Step 3.7 Flash的输出速度轻松碾压GPT-5.5的最快模式,快了接近4倍。
Codex+GPT-5.5最快速的模式:
*注:专门将两者生成的文字复制到飞书文档对比,字数均在2500-2600字之间,step3.7 flash输出2500多字,GPT-5.5输出2600多字。
Step 3.7 Flash是一个198B参数的开源多模态大模型,视觉编码器1.8B,激活参数11B。原生支持图像理解,结合工具链可处理视频素材,拥有256K长上下文支持,最高生成速度达到400 Tokens/s。
为了优化本地Agent在特定场景下的任务执行效率,我将Step 3.7 Flash接入了本地Claude Code。官方已提供现成的接入指南。
*原计划接入Codex,但为了适配Codex需额外安装一个Codex++的中间件,操作繁琐且适配体验不够顺畅,折腾一段时间后放弃了。
几天体验下来,发现Step 3.7 Flash在以下几个场景中表现十分出色。
1. 视频提示词逆向工程,纯提示词复刻视频
整个测试过程中,Step 3.7 Flash的视觉能力给我留下深刻印象,尤其适合执行需要密集视觉理解的推理任务。
例如,让它逆向分析精彩视频的提示词,仅用提示词复刻视频。工作流极其简洁:将一段短视频丢给它分析,让它逆向还原出该视频的核心提示词,然后将提取的提示词输入到新的视频生成AI中重新生成,效果出乎意料。
今后,无论你看到哪条效果炸裂的短视频,都可以快速“解构”它、模仿它、再创作它。对短视频从业者、品牌方、内容创作者而言,这套工具组合能真正节省时间。而且是开源方案,API调用成本极低。
流程如下:将Step 3.7的Step Plan接入Claude Code,直接调用Step的API,在工具链支持下,把视频素材交给Step 3.7 Flash分析,让它撰写一份用于复刻原视频的详细分镜文档。
得益于Step 3.7的高效速度,分析过程极为迅速,生成了近两百行的分镜文档。每个镜头的prompt、音乐节奏考量和甚至AI工具使用的注意事项,都囊括其中。
随后,将整个逆向提取的提示词文档直接投入Seedance2.0,一次性就输出了结果。
这套流程完全可以封装成自动化工作流,批量复刻有趣的短视频。Step 3.7 Flash在整个环节中能大幅节省时间和Token消耗。
2. 视频理解:精准定位违反物理规律的时间点
这是DeepSeek V4 Pro一次性生成的小球运动动画,肉眼能轻易识别出明显bug,存在违背物理规律的缺陷。
让Step 3.7进行视频理解分析,看它能否准确找出问题,并给出精准的时间点。
结果它确实成功定位,时间点标注相当准确。
AI视频生成团队应该会喜欢这项能力。过去每条视频都需要人工一帧帧检查物理错误,现在只需丢给它过一遍,能省下大量人力成本。
3. 视觉分析 + 图片联网推理定位地点
不仅限于视频识别,它还能将视觉线索与实时联网检索结合,这个功能非常实用。
比如这张朋友圈里的风景照,你能一眼认出是哪里吗?
看到图中姑娘的服饰,如果没有额外信息,只能推测是少数民族地区(比如新疆)。我试探性地给Step 3.7 Flash出了这道题。
Step 3.7先进行了一轮思考,注意到画面背景中有“CCTV”字样——这也是我第一眼没留意到的细节。接着它发现了半露出的招牌,写着“公羊”二字。然后结合其他辅助信息进行联网搜索,再推理一轮,最终精确到具体地点:新疆伊犁哈萨克自治州伊宁市六星街的黑公羊餐厅。
这个结果有点震撼。本来以为能知道大概哪个市就算不错了,没想到精确到了具体店铺。
4. 解决Win11经典Bug:系统服务内存泄漏
最近将系统升级到Win11,一早醒来发现内存占用爆红。打开任务管理器,发现一个进程占用近2.4GB内存但CPU使用率为零,行为异常。
将这张截图发给接入了Step 3.7 Flash的Claude Code询问。它分析指出,这是一个系统服务的内存泄漏问题,属于Windows 10/11持续了近10年的“经典级”已知Bug,微软多次修复但从未彻底根除。
出于系统安全考虑,Claude Code未能获得最高系统权限。可以看到Step 3.7 Flash积极采用了多种手段:重启服务、杀掉进程、修改注册表等,尽力解决问题,但因权限不足未能成功。它很快意识到这一点,随即转向向我请求帮助,并写好了详细步骤引导我手动执行。
按照步骤操作完成后,让它检查,我重新查看任务管理器——内存泄漏已被成功清除,不必要的系统服务也被停用。以后再也不用担心内存泄漏问题了,省下近2GB内存,可以多开几个Claude Code实例。
所以,Step 3.7 Flash的实际任务执行能力确实扎实。
5. GeoGebra专业动画教学视频:导入理解后用HTML复刻
GeoGebra是数学教育专业硕士的必修课程,需专门学习制作动画演示。整个过程比较繁琐,朋友经常为此头疼。上课听不懂,只能去B站找教学视频一步步模仿,但时间一长又忘了,得从头再学一遍。
下载了这段B站教学视频,导入给Step 3.7 Flash,想看看它能否直接复刻。这是GeoGebra软件的教学视频,时长1分钟。目前能理解1分钟视频内容的国产大模型不多,我不太确定Step 3.7能否胜任。
1分钟的视频信息量密集,我担心它可能会理解偏误。但最终发现低估了它——它完全正确理解了内容,并且能按要求输出每个函数的动画过程。
我同意了这个计划,它就开始疯狂写代码了。一边写代码,一边自动在浏览器上打开自己生成的HTML,逐个按钮进行交互测试。
这里有个小插曲:Step 3.7 Flash的速度太快了,没来得及录屏它就已经搞定。所以我只好让它再操作一遍,说我要录屏。
于是它真的重来一遍,再检查一遍,逐个按钮点击切换、播放动画。下面录屏显示,左边是它操作交互的过程,右边是它的思考过程,一边思考一边操作。
我全程没有点击任何按钮,浏览器也不是我打开的,全是它自己一边写代码一边操作的。
没想到它直接输出成果,而且是四个函数一口气全部完成。虽然和原视频不是100%一致,但已经一次性完成了接近90%,确实有东西。
关于价格
很多次评论区都会问到相关模型和工具的价格,这次一并解答。
Step 3.7 Flash有Step Plan套餐,价格不算特别便宜,但实际用量非常耐用。
按每5小时的使用次数限制,和Codex的订阅制类似。限时按次使用最舒服,完全不用操心Token消耗了多少。真的很耐用。一开始还怕便宜套餐不够用,直接上了Pro……结果连续跑了几天,连额度的零头都没用完。
这种模式非常适合Claude Code和Codex,给Agent当视觉辅助工具,关键是识别和输出速度都很快。如果用量不大,也可以直接用API额度:
最后
整体用下来,Step 3.7 Flash算不上那种顶尖的视觉模型,毕竟参数量摆在那。但它的视觉理解能力扎实,代码能力也不错,推理性能在线,速度极快,而且非常耐用。
在适合的应用场景中,它算是一款高性价比的模型。当然,让它执行高度复杂的任务,肯定还是比不上Codex+GPT-5.5。但在很多不那么复杂的场景里完全够用,关键就是快,让习惯了Codex“老爷车”速度的我,一时间还有点不适应。
前两天参加腾讯云的AI峰会,被采访时问到一个问题:“你觉得今年的Agent跟去年的Agent有什么不一样?”
我简单思考后回答:“今年的Agent执行任务越来越稳了,但完成任务所需的时间也更长了。”
在Agent任务稳定性持续提升之后,效率一定是Agent下一阶段追求的核心指标。时间 > 金钱,用钱能换来时间,绝对划算。目前看来,更合理的分工是:强模型负责深度思考难题,快模型负责执行干活。这或许才是Agent正确的打开方式。