小米MiMo-V2.5大模型深度测评:深夜突袭背后的技术实力与未来展望
距离上一代发布仅36天,小米MiMo大模型家族再次迎来密集迭代。本次更新涵盖四款新模型:旗舰推理模型MiMo-V2.5与全模态智能体模型V2.5-Pro已启动公测并计划开源;V2.5-TTS系列与V2.5-ASR模型也即将发布。
此次快速推进由小米MiMo大模型负责人罗福莉主导。这位前DeepSeek核心成员,在AI领域以卓越的技术洞察力著称。值得注意的是,她在上一代模型发布时已明确表态“模型稳定后将走向开源”,如今这一路线正稳步兑现。
延续上一代的产品逻辑,MiMo-V2.5全系列的核心定位仍是“为智能体场景深度优化”。其中,MiMo-V2.5-Pro专攻长链条、高复杂度的智能体任务,而MiMo-V2.5则旨在覆盖更广泛的通用智能体应用。官方指南给出了清晰建议:V2.5原生支持图像、音频、视频全模态智能体能力,相比Pro版本平均推理速度更快,更适合对响应延迟敏感的业务场景。
除性能迭代外,本次新模型的一个关键突破在于Token效率的显著提升。官方数据显示,在达到智能体基准榜单ClawEval同等分数时,MiMo-V2.5-Pro相比本周刚发布的Kimi开源旗舰多模态模型Kimi K2.6,可节省高达42%的Token;而MiMo-V2.5相比Meta本月初发布的闭源多模态推理模型Muse Spark,更是节省了50%的Token。这意味着在实现相近能力的前提下,用户的实际调用成本有望大幅降低。
伴随新模型发布,小米同步优化了其模型订阅计划Token Plan。主要调整包括:取消了此前1 Token消耗4 Credits的计费方式,统一了不同上下文窗口长度的计费倍率,并新增了夜间专属优惠时段与自动续费模式。回顾该计划上线初期,部分用户曾反馈定价偏高、基础套餐Token量不足,此次调整可视为对市场声音的直接回应。
那么,新模型的实际工程表现如何?以MiMo-V2.5-Pro为例,在接到“开发一款3D横版格斗游戏”的指令后,模型在数分钟内生成了1123行代码,输出了一款名为“龙虎格斗”的可运行游戏。该游戏界面完整包含了血条、角色名、倒计时等核心元素,并实现了命中火花、格挡碎片、镜头震动等交互反馈系统,具备基础可玩性。当然,目前生成的角色造型在细节上仍相对简化,差异化主要通过颜色与帽子等元素体现。
龙虎格斗游戏界面
一个值得玩味的背景是,今年3月,小米的MiMo-V2-Pro曾以匿名模型“Hunter Alpha”的身份出现在OpenRouter平台,一度被开发者社区猜测为即将发布的DeepSeek V4。如今,小米新一代模型已正式亮相,而DeepSeek V4也传闻将于本周发布,两者间的微妙关联,为行业观察留下了想象空间。
01.MiMo-V2.5-Pro:攻坚长难智能体任务,4.3小时完成本科生数周课业
根据小米官方定义,MiMo-V2.5-Pro是当前MiMo家族中能力最强的模型。在通用智能体能力、复杂软件工程及长程任务处理等维度,其表现已可对标Claude Opus 4.6、GPT-5.4等全球顶尖的智能体模型,较上一代MiMo-V2-Pro有显著提升。
内部测试表明,在适配合适的运行框架后,MiMo-V2.5-Pro能够稳定执行单次涉及近千轮工具调用的超长链条任务。更重要的是,在智能体场景下,其指令遵循能力得到强化,不仅能捕捉上下文中的隐性需求,还能在超长任务周期内保持逻辑一致性。
基于小米自研的评估套件MiMo Coding Bench评测,MiMo-V2.5-Pro与Claude Opus 4.6的差距进一步缩小,得分分别为73.7分和77.1分,而上代MiMo-V2-Pro得分为71.5分。
有开发者用一道经典的逻辑题对其进行测试:“我想去洗车,洗车店离我50米远,我应该走着去还是开车去?” MiMo-V2.5-Pro给出了符合常识的正确答案。
官方公布的几个实操案例,更能直观界定其能力边界。
第一个案例是“用Rust实现完整的SysY编译器”。该任务的挑战在于,模型需独立完成从词法分析、语法分析、AST构建,到Koopa IR代码生成、RISC-V汇编后端,乃至性能优化的全流程。模型采取了分层构建策略,先搭建完整的编译器流水线框架,再逐一实现各模块。在各项细分评分中,其在Koopa IR、RISC-V后端和性能优化上均获满分。首次编译实现了59%的冷启动通过率,这意味着在运行任何测试前,其基础架构已基本正确。即便在任务后期(第512轮)出现一次导致测试回退的重构,模型也能自行诊断问题、恢复状态并继续推进。该项目是北京大学《编译原理》课程作业,本科生通常需数周完成,而MiMo-V2.5-Pro仅用4.3小时,经过672次工具调用,即在隐藏测试集上取得满分。
第二个案例是开发一个视频编辑器Web应用。MiMo-V2.5-Pro最终交付的应用具备多轨道时间线、片段裁剪、交叉淡化、音频混合及导出等完整功能。整个项目代码量达8192行,历经1868次工具调用,在11.5小时的自主工作中完成。
第三个案例涉及模拟电路EDA任务,要求“基于台积电180nm CMOS工艺,从零设计并优化一款完整的翻转电压跟随器低压差线性稳压器(FVF-LDO)”。任务过程中,模型需确定功率晶体管尺寸、调整补偿网络、选择偏置电压,以使相位裕度、线路调整率等六个关键指标同步达标。经验丰富的模拟电路设计师完成此类项目通常需数天。研究人员将MiMo-V2.5-Pro接入ngspice仿真循环,使用Claude Code作为仿真框架,经过约一小时的闭环迭代,模型即生成满足所有指标的设计,其中四个关键指标相比初始版本提升了一个数量级。
02.MiMo-V2.5:原生全模态能力,胜任通用智能体场景
如果说V2.5-Pro是攻坚克难的“特种兵”,那么MiMo-V2.5便是应对日常任务的“多面手”。作为一款为智能体场景打造的原生全模态模型,它能同步处理视觉、听觉和文本信息,并基于感知结果驱动行动。
此次升级,V2.5实现了两项关键进步:其智能体能力全面超越了上一代旗舰基座模型MiMo-V2-Pro,而其多模态感知能力则全面超越了上一代全模态智能体模型MiMo-V2-Omni。
在面向AI智能体的端到端评测基准Claw-Eval中,MiMo-V2.5的表现已超越MiMo-V2-Pro,同时API调用成本降低了约50%。在VideoMME、CharXiv、MMMU-Pro等涉及跨模态推理、视频理解和图表分析的基准测试中,其表现已逼近甚至超越了Claude Opus 4.6、Gemini 3 Pro、GPT-5.4等闭源模型。
在编程能力方面,根据小米内部的MiMo编程基准测试,MiMo-V2.5在日常编程任务中已超越Gemini 3.1 Pro,但与Claude Opus 4.6相比,差距依然存在。
03.Token Plan:夜间时段享8折优惠,包年订阅最高省近千元
与新模型同步更新的,是其订阅式API调用套餐MiMo Token Plan的优化。该计划允许用户调用MiMo系列的全部8款模型,包括旗舰推理模型MiMo-V2-Pro和V2.5-Pro,全能多模态模型MiMo-V2-Omni和V2.5,以及语音合成模型MiMo-V2-TTS、V2.5-TTS、V2.5-TTS-VoiceClone、V2.5-TTS-VoiceDesign(后三款待发布)。
计费方式迎来更优调整:取消了原先1 Token消耗4 Credits的规则,也不再区分256k和1M上下文窗口的计费倍率。
新模型的计费标准如下:
MiMo-V2.5:1x(消耗1 Token = 1 Credit)
MiMo-V2.5-Pro:2x(消耗1 Token = 2 Credits)
作为对比,下图是MiMo Token Plan初始发布时的计费方式:
此外,计划新增了夜间专属优惠:每日00:00至08:00,所有模型的Credits消耗速率在原有基础上再享8折优惠。
在付费模式上,此前预告的连续包月与包年订阅也已上线。连续包月方面,老用户开通自动续费可享次月7折,新用户享次月77折;包年订阅则享受全年88折,折算下来最高可节省近1000元。
需注意,官方公告称,截至北京时间4月22日22:00前,所有已购买Token Plan用户的Credits额度将被重置清零,但套餐的使用计时不会重置。
04.结语:小米持续加码,能否跑通系统级原生智能体?
纵观MiMo V2.5系列的升级,核心聚焦于两点:智能体场景的性能突破,以及Token使用效率的优化。在保障长链推理、复杂工具调用、多任务协同等核心能力的同时,大幅降低资源消耗与推理成本,这印证了一个趋势:经过优化的轻量化模型同样能在智能体表现上对标超大模型,更好地平衡实用性与经济性。
此次旗舰模型的快速迭代,也标志着小米作为终端硬件厂商,正加速将自研底层大模型、系统级权限与全生态服务进行深度整合。其目标明确:构建深度融入操作系统的原生智能体,从而推动其“人车家全生态”AI战略的规模化落地。这条路径的可行性,值得业界持续观察。














