MiniMax-M1:全球首个开源混合架构推理模型评测
深入解析MiniMax最新开源力作——M1推理模型。作为开源社区首个大规模混合架构模型,M1的核心竞争力清晰可见:在生产力导向的复杂任务中,它稳居开源模型第一梯队,性能超越国内闭源模型,逼近海外顶尖水平,同时成本效率达到行业最优。
M1最突出的技术亮点,是支持业界最高100万token的上下文窗口——与闭源阵营的Google Gemini 2.5 Pro持平,是DeepSeek R1的8倍。推理输出长度同样达到业内最长的8万token。
这一成绩源于独创的混合架构,核心是闪电注意力机制。在处理长上下文推理与深度思考时,该架构展现出极高效率。实测表明,用8万token进行深度推理,仅需DeepSeek R1约30%的算力消耗。这种效率优势贯穿训练与推理全流程。
此外,团队提出了更快的强化学习算法CISPO。通过裁剪重要性采样权重(而非传统token更新)来加速收敛。在AIME基准实验中,CISPO的收敛速度是字节近期发布的DAPO算法的两倍,也显著优于DeepSeek早期采用的GRPO方案。
两项技术突破带来了极为高效的强化训练。整个强化学习阶段仅使用512块H800 GPU,耗时三周,总租赁成本仅为53.74万美元——比初始预算低了一个数量级。
在17个主流评测集上,M1的表现为:
在软件工程、长上下文理解及工具使用等生产力密集型场景中,优势尤其明显。MiniMax-M1-40k与MiniMax-M1-80k在SWE-bench验证集上分别达到55.6%和56.0%,略低于DeepSeek-R1-0528的57.6%,但大幅领先其他开源模型。依托百万级上下文窗口,M1在长上下文任务中全面碾压所有开源权重模型,甚至超越OpenAI o3与Claude 4 Opus,全球排名第二,仅以微小差距落后于Gemini 2.5 Pro。在袋内工具使用(TAU-bench)中,MiniMax-M1-40k同样位居所有开源权重模型之首,并击败了Gemini-2.5 Pro。
值得特别关注的是,MiniMax-M1-80k在大多数基准测试中均优于MiniMax-M1-40k——这有效验证了扩展测试时计算带来的性能提升。
完整技术报告与模型权重已同步发布在官方Hugging Face及GitHub仓库。vLLM与Transformer两大开源框架均已提供推理部署支持,与SGLang的集成适配也正在推进中。
由于训练与推理算力使用极为高效,MiniMax APP及Web端均保持不限量免费使用,API定价亦为行业最低。0-32k输入长度:输入0.8元/百万token,输出8元/百万token;32k-128k输入长度:输入1.2元/百万token,输出16元/百万token;128k-1M输入长度:输入2.4元/百万token,输出24元/百万token。前两种模式的性价比均超越DeepSeek-R1,最后一种模式DeepSeek模型不支持。
除M1外,未来四个工作日还将陆续发布更多更新,值得保持关注。
与每个人共享智能。




