小米全模态Agent模型MiMo-V2.5深度测评：核心能力与场景解析

2026-05-14阅读 0热度 0

大模型

小米大模型团队正式推出MiMo-V2.5系列，这是一个包含V2.5、V2.5-Pro、V2.5-TTS和V2.5-ASR四个版本的全模态Agent模型家族。该系列以清晰的功能定位和互补的能力矩阵，原生支持超长上下文处理与强大的工具调用，为企业级AI应用提供了新的技术栈选择。

MiMo-V2.5的主要功能

MiMo-V2.5系列针对不同应用场景进行了专项优化：

MiMo-V2.5：作为基础版，它定位为原生全模态Agent，能够无缝协同处理图像、音频与视频数据，并将多模态理解转化为可执行的Agent行动。该版本在中等复杂度的跨模态推理任务中表现稳定，其API调用成本较上一代降低约50%。在VideoMME、CharXiv等权威多模态评测基准上，其性能已接近顶级闭源模型。
MiMo-V2.5-Pro：专为长程复杂任务设计，能够稳定执行近千轮的工具调用序列。在软件工程领域，其能力已对标Claude Opus 4.6与GPT-5.4。两个关键案例验证了其工程实力：一是使用Rust语言从零实现完整的SysY编译器，历时4.3小时，完成672次调用，并在隐藏测试集上获得满分；二是仅凭简单指令，即构建出可运行的多轨道视频编辑器Web应用，自动生成代码超过8000行。
语音能力：V2.5-TTS系列提升了语音合成的自然度与音色多样性，V2.5-ASR则优化了语音识别的准确率与实时性，两者均增强了对多语种及方言的鲁棒性支持。

开发者和用户可通过以下两种主要途径接入：

在技术选型前，需明确以下核心信息：

相较于市场同类产品，MiMo-V2.5系列具备以下差异化技术优势：

Token效率革命：在达到同等性能基准时，V2.5-Pro比竞品Kimi K2.6节省42%的Token消耗，V2.5比Muse Spark节省50%。这对于高频API调用的企业级应用而言，直接转化为可观的运营成本降低。
长程任务稳定性：模型在执行超长任务链时能保持逻辑一致性，并具备自我诊断与修正能力。例如在编译器构建任务中，模型在第512轮调用后自主识别并恢复了执行错误。
全模态原生融合：文本、图像、音频、视频处理能力集成于单一模型架构，避免了多模型切换带来的系统复杂性与延迟。
推理速度：V2.5的平均推理速度达到100~150 tokens/s，更复杂的V2.5-Pro也保持在60~80 tokens/s，为基础版在实时交互场景中的应用提供了性能保障。

获取该系列的官方新闻、技术白皮书及详细文档，请访问其项目官网。

维度	MiMo-V2.5-Pro	Claude Opus 4.6	GPT-5.4	Kimi K2.6
定位	长程 Agent / 复杂软件工程	顶级推理与 Agent	通用多模态旗舰	开源多模态 Agent
SWE-bench Pro	57.2%	领先	领先	—
MiMo Coding Bench	73.7	77.1	—	—
Token 效率 (ClawEval)	比 Kimi K2.6 省 42%	—	—	基准
上下文窗口	1M	200K	1M	1M
全模态原生支持	Pro 为文本+代码；V2.5 支持全模态	支持	支持	支持
开源计划	即将开源	闭源	闭源	开源
定价 (每百万 Token)	$1 输入 / $3 输出	更高	更高	—

基于其技术特性，MiMo-V2.5系列在以下场景具有明确的应用价值：