小米大模型永久降价榜单 最高降幅99%精选
过去几个月,通过 MiMo Orbit 与百万亿 Token 创造者激励计划等实战活动,我们让更多开发者真正上手 MiMo,解决真实业务场景中的问题——这标志着 MiMo 正式迈入规模化落地的关键阶段。
如今底层推理架构持续迭代,我们终于能推进一项更彻底的变革:全面重构模型定价体系,实现永久性价格下调。
核心调整要点如下:
- MiMo-V2.5 系列 API 永久降价
- Token Plan 计费模型升级,可用额度提升至原有的 5~8 倍
- 百万亿 Token 创造者激励计划圆满结束
- 现有 Token Plan 用户额度一次性重置
以上变更将于北京时间 2026 年 5 月 27 日 0 点正式生效。
MiMo-V2.5 系列 API 永久降价
相较于早期版本 API 定价,新价格最高降幅达 99%,且不再区分上下文窗口长度,统一执行最低价。
全球同步生效,北京时间 5 月 27 日 0:00 起可接入体验,欢迎各位开发者即刻测试。
Token Plan 计费体系优化
- 额度翻倍不加价:可用 Token 数量直接提升至原有水平的 5 到 8 倍,释放生产力瓶颈。
- 以 Agent 或 Code 场景为例,不同套餐的 Token 容量变化如下——
- 计费规则同步简化,逻辑更透明,真正做到用量与费用一目了然。
百万亿 Token 创造者激励计划圆满收官
自 4 月 28 日启动以来,「百万亿 Token 创造者激励计划」获得全球用户的热烈响应。截至北京时间 5 月 26 日 16:08,100T Tokens 已全部提前发放完毕。活动正式收官,感谢每一位参与者的积极贡献。
提醒:Apache 软件基金会成员专属福利活动仍在长期有效进行,不受到此次收官影响。
惊喜:现有 Token Plan 用户额度全量重置
所有当前仍在有效期内的 Token Plan 订阅用户——无论是通过激励计划、常规订阅还是 Apache 软件基金会专属福利获取的额度——其 Credits 将于北京时间 5 月 27 日 0:00 全量重置,并按照新计费规则执行。
此外,针对 Token Plan 已过期的历史付费用户,我们额外准备了专属福利,未来一周内将正式公布,敬请期待。
推理技术优化说明
此次价格调整的底层支撑,来自小米技术团队在推理系统上的持续精进。
团队基于 SGLang HiCache 完整实现了 SWA(Sliding Window Attention),将 KV Cache 在 GPU 显存、CPU 内存、SSD 等多级存储间的数据搬运量降低至优化前的近 1/7。同时,可缓存 token 数量提升至优化前的近 5 倍,显著提高了缓存命中率与推理吞吐效率。
在此基础上,团队进一步优化了专家并行策略与输入长度分桶方案,大幅提升集群的输入吞吐能力。这些举措确保服务质量不降级的同时,单位 token 的服务成本持续走低。
后续我们将发布更详细的技术博客,深入解析推理性优化细节,欢迎持续关注。
结语
技术的真正价值,体现在被大规模、高频率地使用。
通过持续的技术创新,我们致力于提供低成本与顶尖能力兼备的模型服务,激发真实、持续、规模化的推理需求,加速 AI 基础设施全链条的成熟。
让更多人用上更好的模型——这是 MiMo 不变的使命。




