开源模型本地Agent效率榜单：比Codex快4倍

2026-06-13阅读 0热度 0

开源模型

最近明显感觉到，Agent执行任务的稳定性大幅提升。但效率——也就是任务的响应速度——依旧是关键短板。如何让Agent跑得更快，已成为当前最棘手的实际问题。

阶跃开源了最新模型Step 3.7 Flash，官方声称其Agent能力强劲，原生支持多模态理解，作为Flash系列模型，推理速度极快。

github.com/stepfun-ai/…

实测接入Codex后，Step 3.7 Flash的输出速度轻松碾压GPT-5.5的最快模式，快了接近4倍。

Codex+GPT-5.5最快速的模式：

*注：专门将两者生成的文字复制到飞书文档对比，字数均在2500-2600字之间，step3.7 flash输出2500多字，GPT-5.5输出2600多字。

Step 3.7 Flash是一个198B参数的开源多模态大模型，视觉编码器1.8B，激活参数11B。原生支持图像理解，结合工具链可处理视频素材，拥有256K长上下文支持，最高生成速度达到400 Tokens/s。

为了优化本地Agent在特定场景下的任务执行效率，我将Step 3.7 Flash接入了本地Claude Code。官方已提供现成的接入指南。

*原计划接入Codex，但为了适配Codex需额外安装一个Codex++的中间件，操作繁琐且适配体验不够顺畅，折腾一段时间后放弃了。

几天体验下来，发现Step 3.7 Flash在以下几个场景中表现十分出色。

1. 视频提示词逆向工程，纯提示词复刻视频

整个测试过程中，Step 3.7 Flash的视觉能力给我留下深刻印象，尤其适合执行需要密集视觉理解的推理任务。

例如，让它逆向分析精彩视频的提示词，仅用提示词复刻视频。工作流极其简洁：将一段短视频丢给它分析，让它逆向还原出该视频的核心提示词，然后将提取的提示词输入到新的视频生成AI中重新生成，效果出乎意料。

今后，无论你看到哪条效果炸裂的短视频，都可以快速“解构”它、模仿它、再创作它。对短视频从业者、品牌方、内容创作者而言，这套工具组合能真正节省时间。而且是开源方案，API调用成本极低。

流程如下：将Step 3.7的Step Plan接入Claude Code，直接调用Step的API，在工具链支持下，把视频素材交给Step 3.7 Flash分析，让它撰写一份用于复刻原视频的详细分镜文档。

得益于Step 3.7的高效速度，分析过程极为迅速，生成了近两百行的分镜文档。每个镜头的prompt、音乐节奏考量和甚至AI工具使用的注意事项，都囊括其中。

随后，将整个逆向提取的提示词文档直接投入Seedance2.0，一次性就输出了结果。

这套流程完全可以封装成自动化工作流，批量复刻有趣的短视频。Step 3.7 Flash在整个环节中能大幅节省时间和Token消耗。

2. 视频理解：精准定位违反物理规律的时间点

这是DeepSeek V4 Pro一次性生成的小球运动动画，肉眼能轻易识别出明显bug，存在违背物理规律的缺陷。

让Step 3.7进行视频理解分析，看它能否准确找出问题，并给出精准的时间点。

结果它确实成功定位，时间点标注相当准确。

AI视频生成团队应该会喜欢这项能力。过去每条视频都需要人工一帧帧检查物理错误，现在只需丢给它过一遍，能省下大量人力成本。

3. 视觉分析 + 图片联网推理定位地点

不仅限于视频识别，它还能将视觉线索与实时联网检索结合，这个功能非常实用。

比如这张朋友圈里的风景照，你能一眼认出是哪里吗？

看到图中姑娘的服饰，如果没有额外信息，只能推测是少数民族地区（比如新疆）。我试探性地给Step 3.7 Flash出了这道题。

Step 3.7先进行了一轮思考，注意到画面背景中有“CCTV”字样——这也是我第一眼没留意到的细节。接着它发现了半露出的招牌，写着“公羊”二字。然后结合其他辅助信息进行联网搜索，再推理一轮，最终精确到具体地点：新疆伊犁哈萨克自治州伊宁市六星街的黑公羊餐厅。

这个结果有点震撼。本来以为能知道大概哪个市就算不错了，没想到精确到了具体店铺。

4. 解决Win11经典Bug：系统服务内存泄漏

最近将系统升级到Win11，一早醒来发现内存占用爆红。打开任务管理器，发现一个进程占用近2.4GB内存但CPU使用率为零，行为异常。

将这张截图发给接入了Step 3.7 Flash的Claude Code询问。它分析指出，这是一个系统服务的内存泄漏问题，属于Windows 10/11持续了近10年的“经典级”已知Bug，微软多次修复但从未彻底根除。

出于系统安全考虑，Claude Code未能获得最高系统权限。可以看到Step 3.7 Flash积极采用了多种手段：重启服务、杀掉进程、修改注册表等，尽力解决问题，但因权限不足未能成功。它很快意识到这一点，随即转向向我请求帮助，并写好了详细步骤引导我手动执行。

按照步骤操作完成后，让它检查，我重新查看任务管理器——内存泄漏已被成功清除，不必要的系统服务也被停用。以后再也不用担心内存泄漏问题了，省下近2GB内存，可以多开几个Claude Code实例。

所以，Step 3.7 Flash的实际任务执行能力确实扎实。

5. GeoGebra专业动画教学视频：导入理解后用HTML复刻

GeoGebra是数学教育专业硕士的必修课程，需专门学习制作动画演示。整个过程比较繁琐，朋友经常为此头疼。上课听不懂，只能去B站找教学视频一步步模仿，但时间一长又忘了，得从头再学一遍。

下载了这段B站教学视频，导入给Step 3.7 Flash，想看看它能否直接复刻。这是GeoGebra软件的教学视频，时长1分钟。目前能理解1分钟视频内容的国产大模型不多，我不太确定Step 3.7能否胜任。

1分钟的视频信息量密集，我担心它可能会理解偏误。但最终发现低估了它——它完全正确理解了内容，并且能按要求输出每个函数的动画过程。

我同意了这个计划，它就开始疯狂写代码了。一边写代码，一边自动在浏览器上打开自己生成的HTML，逐个按钮进行交互测试。

这里有个小插曲：Step 3.7 Flash的速度太快了，没来得及录屏它就已经搞定。所以我只好让它再操作一遍，说我要录屏。

于是它真的重来一遍，再检查一遍，逐个按钮点击切换、播放动画。下面录屏显示，左边是它操作交互的过程，右边是它的思考过程，一边思考一边操作。

我全程没有点击任何按钮，浏览器也不是我打开的，全是它自己一边写代码一边操作的。

没想到它直接输出成果，而且是四个函数一口气全部完成。虽然和原视频不是100%一致，但已经一次性完成了接近90%，确实有东西。

关于价格

很多次评论区都会问到相关模型和工具的价格，这次一并解答。

Step 3.7 Flash有Step Plan套餐，价格不算特别便宜，但实际用量非常耐用。

按每5小时的使用次数限制，和Codex的订阅制类似。限时按次使用最舒服，完全不用操心Token消耗了多少。真的很耐用。一开始还怕便宜套餐不够用，直接上了Pro……结果连续跑了几天，连额度的零头都没用完。

这种模式非常适合Claude Code和Codex，给Agent当视觉辅助工具，关键是识别和输出速度都很快。如果用量不大，也可以直接用API额度：

最后

整体用下来，Step 3.7 Flash算不上那种顶尖的视觉模型，毕竟参数量摆在那。但它的视觉理解能力扎实，代码能力也不错，推理性能在线，速度极快，而且非常耐用。

在适合的应用场景中，它算是一款高性价比的模型。当然，让它执行高度复杂的任务，肯定还是比不上Codex+GPT-5.5。但在很多不那么复杂的场景里完全够用，关键就是快，让习惯了Codex“老爷车”速度的我，一时间还有点不适应。

前两天参加腾讯云的AI峰会，被采访时问到一个问题：“你觉得今年的Agent跟去年的Agent有什么不一样？”

我简单思考后回答：“今年的Agent执行任务越来越稳了，但完成任务所需的时间也更长了。”

在Agent任务稳定性持续提升之后，效率一定是Agent下一阶段追求的核心指标。时间 > 金钱，用钱能换来时间，绝对划算。目前看来，更合理的分工是：强模型负责深度思考难题，快模型负责执行干活。这或许才是Agent正确的打开方式。