小米Mimo V2.5 API价格大幅下调:精选永久授权方案与性价比排行榜

2026-05-28阅读 0热度 0
小米

小米旗下MiMo大模型于5月27日宣布,其MiMo-V2.5系列API实施永久性降价并重构计费机制。此举旨在通过底层技术突破,实质性降低开发者的调用成本与应用门槛。

一、API费率大幅下调,最高降幅达99%

本次价格调整已于北京时间5月27日0点全球生效,覆盖MiMo-V2.5与MiMo-V2.5Pro两大主力版本。小米取消了按上下文长度分级计价的复杂模式,使定价逻辑更统一透明。

具体费率调整如下:

模型版本 输入缓存命中单价 最高降幅 输出单价 最高降幅
MiMo-V2.5Pro 0.025元/百万 tokens 99% 6元/百万 tokens 86%
MiMo-V2.5 0.02元/百万 tokens 98% 2元/百万 tokens 93%

二、计费机制升级:实现扩容不提价

除直接降价外,小米对计费体系进行了系统性升级,核心是“同等预算,更大规模”。

  • 额度倍增:在订阅价格不变的前提下,用户可用Token总量提升至原有的5到8倍。固定预算的开发者或企业,其AI应用的调用规模可实现数倍扩张。
  • 计费可视化:新体系引入“Credits(积分)”作为统一计量单位,取代了以往繁琐的多维度计费规则。开发者可更清晰地监控Token消耗与支出,简化预算管理流程。

三、技术驱动:底层突破实现降本增效

大幅降价的底气源于大模型推理基础设施的关键技术突破。

  1. SWA加速推理:基于SGLang HiCache完整集成SWA(滑动窗口注意力)技术,将KV Cache在GPU显存、CPU内存与SSD间的三级数据迁移量压缩至原方案的1/7。数据传输量锐减直接提升了效率并降低了成本。
  2. 缓存能力跃升:系统高效缓存的Token数量增长近5倍。缓存命中率的大幅提升,使得重复或类似请求无需完整计算,有效摊薄了单次推理的平均开销。
  3. 集群吞吐强化:通过融合专家并行(MoE)架构与输入长度动态分桶策略,显著提升了集群的整体输入处理吞吐量。在保障响应质量与系统稳定的前提下,服务器集群处理海量请求的效率更高,持续降低了每Token的边际服务成本。

行业分析指出,小米此举是对大模型商业化竞争的一次主动破局。当API接入成本降至新低,MiMo系列模型的性价比优势将加速释放,推动AI能力更深入、更广泛地融入各行业及开发者的日常研发与创新。当前的价格竞争,本质已是硬核技术降本能力的较量。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策