小米MiMo-V2.5大模型深度测评：深夜突袭背后的技术实力与未来展望

2026-05-19阅读 0热度 0

其他

距离上一代发布仅36天，小米MiMo大模型家族再次迎来密集迭代。本次更新涵盖四款新模型：旗舰推理模型MiMo-V2.5与全模态智能体模型V2.5-Pro已启动公测并计划开源；V2.5-TTS系列与V2.5-ASR模型也即将发布。

此次快速推进由小米MiMo大模型负责人罗福莉主导。这位前DeepSeek核心成员，在AI领域以卓越的技术洞察力著称。值得注意的是，她在上一代模型发布时已明确表态“模型稳定后将走向开源”，如今这一路线正稳步兑现。

延续上一代的产品逻辑，MiMo-V2.5全系列的核心定位仍是“为智能体场景深度优化”。其中，MiMo-V2.5-Pro专攻长链条、高复杂度的智能体任务，而MiMo-V2.5则旨在覆盖更广泛的通用智能体应用。官方指南给出了清晰建议：V2.5原生支持图像、音频、视频全模态智能体能力，相比Pro版本平均推理速度更快，更适合对响应延迟敏感的业务场景。

除性能迭代外，本次新模型的一个关键突破在于Token效率的显著提升。官方数据显示，在达到智能体基准榜单ClawEval同等分数时，MiMo-V2.5-Pro相比本周刚发布的Kimi开源旗舰多模态模型Kimi K2.6，可节省高达42%的Token；而MiMo-V2.5相比Meta本月初发布的闭源多模态推理模型Muse Spark，更是节省了50%的Token。这意味着在实现相近能力的前提下，用户的实际调用成本有望大幅降低。

伴随新模型发布，小米同步优化了其模型订阅计划Token Plan。主要调整包括：取消了此前1 Token消耗4 Credits的计费方式，统一了不同上下文窗口长度的计费倍率，并新增了夜间专属优惠时段与自动续费模式。回顾该计划上线初期，部分用户曾反馈定价偏高、基础套餐Token量不足，此次调整可视为对市场声音的直接回应。

那么，新模型的实际工程表现如何？以MiMo-V2.5-Pro为例，在接到“开发一款3D横版格斗游戏”的指令后，模型在数分钟内生成了1123行代码，输出了一款名为“龙虎格斗”的可运行游戏。该游戏界面完整包含了血条、角色名、倒计时等核心元素，并实现了命中火花、格挡碎片、镜头震动等交互反馈系统，具备基础可玩性。当然，目前生成的角色造型在细节上仍相对简化，差异化主要通过颜色与帽子等元素体现。

龙虎格斗游戏界面

一个值得玩味的背景是，今年3月，小米的MiMo-V2-Pro曾以匿名模型“Hunter Alpha”的身份出现在OpenRouter平台，一度被开发者社区猜测为即将发布的DeepSeek V4。如今，小米新一代模型已正式亮相，而DeepSeek V4也传闻将于本周发布，两者间的微妙关联，为行业观察留下了想象空间。

01.MiMo-V2.5-Pro：攻坚长难智能体任务，4.3小时完成本科生数周课业

根据小米官方定义，MiMo-V2.5-Pro是当前MiMo家族中能力最强的模型。在通用智能体能力、复杂软件工程及长程任务处理等维度，其表现已可对标Claude Opus 4.6、GPT-5.4等全球顶尖的智能体模型，较上一代MiMo-V2-Pro有显著提升。

内部测试表明，在适配合适的运行框架后，MiMo-V2.5-Pro能够稳定执行单次涉及近千轮工具调用的超长链条任务。更重要的是，在智能体场景下，其指令遵循能力得到强化，不仅能捕捉上下文中的隐性需求，还能在超长任务周期内保持逻辑一致性。

基于小米自研的评估套件MiMo Coding Bench评测，MiMo-V2.5-Pro与Claude Opus 4.6的差距进一步缩小，得分分别为73.7分和77.1分，而上代MiMo-V2-Pro得分为71.5分。

有开发者用一道经典的逻辑题对其进行测试：“我想去洗车，洗车店离我50米远，我应该走着去还是开车去？” MiMo-V2.5-Pro给出了符合常识的正确答案。

官方公布的几个实操案例，更能直观界定其能力边界。

第一个案例是“用Rust实现完整的SysY编译器”。该任务的挑战在于，模型需独立完成从词法分析、语法分析、AST构建，到Koopa IR代码生成、RISC-V汇编后端，乃至性能优化的全流程。模型采取了分层构建策略，先搭建完整的编译器流水线框架，再逐一实现各模块。在各项细分评分中，其在Koopa IR、RISC-V后端和性能优化上均获满分。首次编译实现了59%的冷启动通过率，这意味着在运行任何测试前，其基础架构已基本正确。即便在任务后期（第512轮）出现一次导致测试回退的重构，模型也能自行诊断问题、恢复状态并继续推进。该项目是北京大学《编译原理》课程作业，本科生通常需数周完成，而MiMo-V2.5-Pro仅用4.3小时，经过672次工具调用，即在隐藏测试集上取得满分。

第二个案例是开发一个视频编辑器Web应用。MiMo-V2.5-Pro最终交付的应用具备多轨道时间线、片段裁剪、交叉淡化、音频混合及导出等完整功能。整个项目代码量达8192行，历经1868次工具调用，在11.5小时的自主工作中完成。

第三个案例涉及模拟电路EDA任务，要求“基于台积电180nm CMOS工艺，从零设计并优化一款完整的翻转电压跟随器低压差线性稳压器（FVF-LDO）”。任务过程中，模型需确定功率晶体管尺寸、调整补偿网络、选择偏置电压，以使相位裕度、线路调整率等六个关键指标同步达标。经验丰富的模拟电路设计师完成此类项目通常需数天。研究人员将MiMo-V2.5-Pro接入ngspice仿真循环，使用Claude Code作为仿真框架，经过约一小时的闭环迭代，模型即生成满足所有指标的设计，其中四个关键指标相比初始版本提升了一个数量级。

02.MiMo-V2.5：原生全模态能力，胜任通用智能体场景

如果说V2.5-Pro是攻坚克难的“特种兵”，那么MiMo-V2.5便是应对日常任务的“多面手”。作为一款为智能体场景打造的原生全模态模型，它能同步处理视觉、听觉和文本信息，并基于感知结果驱动行动。

此次升级，V2.5实现了两项关键进步：其智能体能力全面超越了上一代旗舰基座模型MiMo-V2-Pro，而其多模态感知能力则全面超越了上一代全模态智能体模型MiMo-V2-Omni。

在面向AI智能体的端到端评测基准Claw-Eval中，MiMo-V2.5的表现已超越MiMo-V2-Pro，同时API调用成本降低了约50%。在VideoMME、CharXiv、MMMU-Pro等涉及跨模态推理、视频理解和图表分析的基准测试中，其表现已逼近甚至超越了Claude Opus 4.6、Gemini 3 Pro、GPT-5.4等闭源模型。

在编程能力方面，根据小米内部的MiMo编程基准测试，MiMo-V2.5在日常编程任务中已超越Gemini 3.1 Pro，但与Claude Opus 4.6相比，差距依然存在。

03.Token Plan：夜间时段享8折优惠，包年订阅最高省近千元

与新模型同步更新的，是其订阅式API调用套餐MiMo Token Plan的优化。该计划允许用户调用MiMo系列的全部8款模型，包括旗舰推理模型MiMo-V2-Pro和V2.5-Pro，全能多模态模型MiMo-V2-Omni和V2.5，以及语音合成模型MiMo-V2-TTS、V2.5-TTS、V2.5-TTS-VoiceClone、V2.5-TTS-VoiceDesign（后三款待发布）。

计费方式迎来更优调整：取消了原先1 Token消耗4 Credits的规则，也不再区分256k和1M上下文窗口的计费倍率。

新模型的计费标准如下：

MiMo-V2.5：1x（消耗1 Token = 1 Credit）

MiMo-V2.5-Pro：2x（消耗1 Token = 2 Credits）

作为对比，下图是MiMo Token Plan初始发布时的计费方式：

此外，计划新增了夜间专属优惠：每日00:00至08:00，所有模型的Credits消耗速率在原有基础上再享8折优惠。

在付费模式上，此前预告的连续包月与包年订阅也已上线。连续包月方面，老用户开通自动续费可享次月7折，新用户享次月77折；包年订阅则享受全年88折，折算下来最高可节省近1000元。

需注意，官方公告称，截至北京时间4月22日22:00前，所有已购买Token Plan用户的Credits额度将被重置清零，但套餐的使用计时不会重置。

04.结语：小米持续加码，能否跑通系统级原生智能体？

纵观MiMo V2.5系列的升级，核心聚焦于两点：智能体场景的性能突破，以及Token使用效率的优化。在保障长链推理、复杂工具调用、多任务协同等核心能力的同时，大幅降低资源消耗与推理成本，这印证了一个趋势：经过优化的轻量化模型同样能在智能体表现上对标超大模型，更好地平衡实用性与经济性。

此次旗舰模型的快速迭代，也标志着小米作为终端硬件厂商，正加速将自研底层大模型、系统级权限与全生态服务进行深度整合。其目标明确：构建深度融入操作系统的原生智能体，从而推动其“人车家全生态”AI战略的规模化落地。这条路径的可行性，值得业界持续观察。

小米MiMo-V2.5大模型深度测评：深夜突袭背后的技术实力与未来展望

01.MiMo-V2.5-Pro：攻坚长难智能体任务，4.3小时完成本科生数周课业

02.MiMo-V2.5：原生全模态能力，胜任通用智能体场景

03.Token Plan：夜间时段享8折优惠，包年订阅最高省近千元

04.结语：小米持续加码，能否跑通系统级原生智能体？

相关阅读

最新教程

最新资讯