开源Agent王者MiMo-V2.5 Pro深度评测：Token效率与架构演进实战解析

2026-05-18阅读 0热度 0

OpenClaw

北京时间凌晨，AI开源社区发生标志性事件：小米正式开源其旗舰模型 MiMo-V2.5 系列。核心版本 MiMo-V2.5-Pro 在权威 Agent 基准测试中位列开源模型首位，性能表现超越 DeepSeek V4-Pro、Kimi K2.6 及 GLM 5.1 等主流竞品。

开源节奏远超行业预期。在结束公测仅5天后，小米罗福莉团队便将 MiMo-V2.5-Pro 与 MiMo-V2.5 的完整模型权重及分词器（tokenizer）同步发布至 Hugging Face 平台。

两款模型均原生支持1M（百万级）上下文长度，并采用高度宽松的 MIT 开源协议。此举彻底解除了商用限制，开发者可自由进行模型部署、持续预训练、LoRA 微调及二次开发，为技术生态的快速构建扫清了障碍。

同步启动的“Xiaomi MiMo Orbit 百万亿Token 创造者激励计划”，旨在推动基于 MiMo 模型的创新应用开发，为开源社区注入新的增长动力。

值得关注的是，模型负责人罗福莉近期接受了一次深度技术访谈，系统分享了其近两个月在 Agent 产品实践中的认知演进，内容涵盖持久化记忆设计、Agent自学习路径及对当前技术范式的批判性思考。

下文将首先解析 MiMo-V2.5 系列在 Agent 基准测试中的技术优势，随后深入探讨罗福莉对 Agent 技术前沿的洞察。

Agent能力稳居开源榜首

MiMo-V2.5 系列包含两款定位分明的模型。MiMo-V2.5-Pro 专攻复杂 Agent 任务与编码场景，采用 1.02T 总参数与 42B 激活参数设计。MiMo-V2.5 则定位为具备强大 Agent 能力的原生全模态模型，总参数 310B，激活参数 15B。

评估其 Agent 能力需聚焦三大核心基准：

GDPVal-AA（Elo）：该基准模拟真实世界44种职业的专业工作流，采用 Elo 评级系统，仅依据最终产出质量进行排名。

τ³-Bench：模拟多轮长对话客服场景，重点评估 Agent 在多次运行中保持状态一致性与策略遵循的稳定性。

ClawEval（pass^3）：2026年发布的端到端评估基准，要求 Agent 在全程透明、可被干扰的环境中完成300个真实任务。其特色在于“轨迹感知评分”机制，需提供执行轨迹、审计日志与环境快照三重证据，且要求3次独立运行全部成功。

MiMo-V2.5-Pro 在上述基准中表现卓越：GDPVal-AA（Elo）得分1581，ClawEval（pass^3）达到63.8，τ³-Bench 取得72.9。三项成绩不仅领跑开源领域，更与 Gemini 3.1Pro、GPT-5.4、Claude Opus 4.6 等闭源顶级模型处于同一梯队。

在效率层面，V2.5-Pro 的 Token 处理效率较 Kimi K2.6 提升约42%，编码能力逼近 DeepSeek V4 Pro 的同时具备更优的推理成本。V2.5 模型同样展现出良好的经济效益。

部署层面，两款模型在 Hugging Face 支持一键下载，并与社区协作实现了在 vLLM 和 SGLang 推理框架上的当日适配。模型原生支持 FP8 混合精度，量化后可在消费级显卡上运行长上下文任务，显著降低了应用门槛。

罗福莉关于Agent的见解

访谈伊始，罗福莉指出，过去两个月深度使用 OpenClaw 的经历，重塑了她对 AI 技术演进路径的理解。

罗福莉的 OpenClaw 使用经历

她坦言，今年一月首次接触 OpenClaw 时，其观感与大众无异，认为它“仅是 Claude Code 叠加即时通讯界面”。然而，春节期间的深度体验彻底扭转了这一认知。她感受到系统内嵌的自主性与独特的“人格化”特质，这种由精细设计带来的关怀感与温度感令人印象深刻。

以 search.md 这类设计为例。再如一个基础细节：系统如何感知时间？它会在每轮对话的上下文自动嵌入当前时间戳。诸如此类细微之处的‘上下文精细编排’，在无人关注的角落实现了恰到好处的信息组织。

使用次日，她就“团队好奇心激发”议题与 OpenClaw 进行了长达一小时的深度讨论，并将产出转化为一组可用的 Skills。此后，在人才选拔与团队管理决策中，她频繁咨询 OpenClaw，使其逐渐成为其“数字分身”。

第三天，她的思考进入更深层次：“在 Agent 框架下工作，应如何设计多轮交互？”这需要构建用户 Agent 模拟。围绕“如何构建优质用户 Agent”，她与 OpenClaw 探讨了一至两小时，并基本实现了原型构建。

该用户 Agent 可与现有后训练（post-training）框架结合，用于生成更丰富的智能体场景数据。无论进行有监督微调（SFT）还是强化学习（RL），这一用户 Agent 都扮演着核心数据源角色。

回顾此过程，她经历了三次认知跃迁：“从最初感知其产品设计的灵魂与温度，到依赖其分担工作与生活决策，最终它直接推动了我的研究方向。”系统每日都能带来新的启发。

此后，她开始系统性分析 OpenClaw 框架优于 Claude Code 的底层原因：

首要优势在于其更持久、更健壮的记忆系统。这种耐用性体现在记忆的分层与分级管理机制上，这是使用 Claude Code 时无法获得的体验。其次，是多模型协同调度能力超出预期。例如，当面对视频理解任务时，在 OpenClaw 中仅需输入视频，系统会自动调度能力更强的专用视频模型，无需用户手动干预。

她总结道，OpenClaw 的核心产品逻辑在于“通过一整套 Agent 编排流程，系统性弥补底层模型的能力短板”。

为验证此观点，团队将 MiMo V2 Flash 及一个近期训练的 3B 端侧小模型接入 OpenClaw 框架，发现它们仍能完成部分原以为小模型无法胜任的任务。这证实了“复杂且原始的 Agent 框架设计能极大补偿模型自身的能力不足”，这正是“OpenClaw 相比 Claude Code 的差异化优势”。

持久化记忆设计

罗福莉指出，持久化记忆是优秀 Agent 框架的基本特征之一。

OpenClaw 的设计借鉴了 Claude Code 的记忆系统思路，“例如在会话上下文接近容量上限时进行压缩存储，任务完成后根据计划执行记忆操作，确保跨会话的上下文能有效共享。”

但 OpenClaw 的思考更为前瞻，它聚焦于如何端到端优化任务完成率，并针对当前模型在端到端任务中的短板进行专项设计，由此催生了持久化记忆等机制。这些优秀设计后来也被 Claude Code 完全吸收。

基于此，她提出一个观察：这种新型 Agent 框架配合“中档”能力模型，或许“能在 85% 的任务上达到与 Claude Sonnet 同等的性能水平”。这揭示了框架设计对模型能力放大的巨大潜力。

Agent 的“自学习”

关于 Agent 的“自学习”路径，罗福莉分享了她的推演：模型与 Agent 架构必须同步演进。

随着模型通过强化学习等方式持续进步，整个 Agent 框架也在被重塑。这包含两部分：一是发送给模型的静态信息（如记忆库、Skill 文件夹等在新会话开始时传递的内容），这些应在训练过程中动态更新；二是动态信息，即 Agent 架构设计本身，这一点至关重要。

不同应用场景（如软件工程领域的 Claude Code 与金融分析 Agent）需要不同的架构设计。因此，在提升模型底层能力的同时，必须同步增强 Agent 框架对该模型的适配度与泛化能力，二者协同进化方能实现真正的“自学习”。

Agent 框架/ Harness

当被问及 Agent 框架是否等同于“产品”时，罗福莉给出了明确区分。

她认为，“产品”通常指人机交互中用户可直接感知的层面。而 Agent 框架位于交互界面之下，定义了用户与模型沟通的底层逻辑与调度策略。这正是今年 AI 领域热议的“Harness”（驾驭层）概念。

她进一步解释，成熟的 Agent 框架需深刻理解所调度模型的能力边界与优缺点，知晓如何为效果或成本进行最优调度。这个介于人与模型之间的中间层可以承载大量复杂性，而前端用户界面则可变得极简，不再成为关键瓶颈。

她还指出了关键区别：“Claude Code 本身就是一个极其复杂的 Agent 框架，只是其设计封闭。而 OpenClaw 是开源的，你可以审视并修改其设计。这种‘可改变性’至关重要。”

MLA 机制不符合 Agent 的范式

讨论模型架构时，罗福莉提出了一个挑战性观点：MLA（多头潜在注意力机制）虽在长文本对话场景中表现出色，能有效减少 KV Cache，但她认为其不符合 Agent 的范式。

MLA 的原始设计目标，是在当时的 H 系列芯片上优化访存计算比，突破访存瓶颈，避免算力浪费。在此设计约束下，模型架构本身的发挥空间实际上非常有限。

那么，在保留重要 KV Cache 的同时追求推理速度，是否存在其他方案？她提到了 MTP（多Token预测）技术，该技术可从另一维度将实际推理速度提升数倍。

问题在于，MLA 结构下很难实现 MTP。因为 MLA 已在压缩与访存间达到了精妙平衡。若强行加入 MTP，瓶颈将从访存转移至计算，变得不经济。因此，目前所有基于 MLA 结构的模型（如 GLM、Kimi），据推测均未采用 MTP，这也是它们在部分场景下推理速度相对较慢的原因之一。

她与团队选择了不同的解决方案：利用滑动窗口（Sliding Window）节省的注意力计算量，来“喂养” MTP。他们在架构上进行了创新：

我们将全量注意力层与滑动窗口层的混合比例推至 7:1 的极致。通过滑动窗口层减少 KV Cache 占用，使模型处理长文本时更高效，支持更长上下文。节省的算力则用于支持 MTP。

通过此设计，在实际推理中实现了访存与计算的平衡，同时兼顾了长文本处理的经济性与推理速度。

参考链接

https://www.youtube.com/watch?v=V9eI-t3TApE

https://x.com/_LuoFuli/status/2048851054662762618?s=20