小米Mimo V2.5 API价格大幅下调:精选永久授权方案与性价比排行榜
小米旗下MiMo大模型于5月27日宣布,其MiMo-V2.5系列API实施永久性降价并重构计费机制。此举旨在通过底层技术突破,实质性降低开发者的调用成本与应用门槛。
一、API费率大幅下调,最高降幅达99%
本次价格调整已于北京时间5月27日0点全球生效,覆盖MiMo-V2.5与MiMo-V2.5Pro两大主力版本。小米取消了按上下文长度分级计价的复杂模式,使定价逻辑更统一透明。
具体费率调整如下:
| 模型版本 | 输入缓存命中单价 | 最高降幅 | 输出单价 | 最高降幅 |
| MiMo-V2.5Pro | 0.025元/百万 tokens | 99% | 6元/百万 tokens | 86% |
| MiMo-V2.5 | 0.02元/百万 tokens | 98% | 2元/百万 tokens | 93% |
二、计费机制升级:实现扩容不提价
除直接降价外,小米对计费体系进行了系统性升级,核心是“同等预算,更大规模”。
- 额度倍增:在订阅价格不变的前提下,用户可用Token总量提升至原有的5到8倍。固定预算的开发者或企业,其AI应用的调用规模可实现数倍扩张。
- 计费可视化:新体系引入“Credits(积分)”作为统一计量单位,取代了以往繁琐的多维度计费规则。开发者可更清晰地监控Token消耗与支出,简化预算管理流程。
三、技术驱动:底层突破实现降本增效
大幅降价的底气源于大模型推理基础设施的关键技术突破。
- SWA加速推理:基于SGLang HiCache完整集成SWA(滑动窗口注意力)技术,将KV Cache在GPU显存、CPU内存与SSD间的三级数据迁移量压缩至原方案的1/7。数据传输量锐减直接提升了效率并降低了成本。
- 缓存能力跃升:系统高效缓存的Token数量增长近5倍。缓存命中率的大幅提升,使得重复或类似请求无需完整计算,有效摊薄了单次推理的平均开销。
- 集群吞吐强化:通过融合专家并行(MoE)架构与输入长度动态分桶策略,显著提升了集群的整体输入处理吞吐量。在保障响应质量与系统稳定的前提下,服务器集群处理海量请求的效率更高,持续降低了每Token的边际服务成本。
行业分析指出,小米此举是对大模型商业化竞争的一次主动破局。当API接入成本降至新低,MiMo系列模型的性价比优势将加速释放,推动AI能力更深入、更广泛地融入各行业及开发者的日常研发与创新。当前的价格竞争,本质已是硬核技术降本能力的较量。

