MiniMax M3系列AI模型深度评测:性能对比与核心优势解析
5月27日,MiniMax通过其官方X平台账号正式预告了M3系列模型的发布。
该预告同步引述了一篇发布于arXiv预印本平台的论文《The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence》。这篇论文系统性地阐释了已发布的M2.x系列模型的技术架构与设计哲学。
论文揭示了M2.x系列的核心技术指标。模型总参数量为2299亿,但凭借其创新的稀疏激活机制,每个词元(token)实际调用的参数仅为98亿。这一“小激活,大智能”的架构旨在以显著降低的计算开销,实现更优的实际性能表现。模型支持192K的上下文长度,其预训练数据规模达到了29.2万亿词元。
在模型结构层面,M2系列基于62层的解码器式Transformer构建。其关键创新在于集成了256个细粒度专家(Expert),并为每个输入词元动态路由,仅激活其中8个。这种混合专家模型(MoE)设计是达成高效稀疏计算的基础。
论文进一步披露了其在训练系统上的突破。MiniMax团队开发了名为“Forge”的强化学习系统,专为智能体(Agent)优化而设计。Forge系统能够统一调度白盒与黑盒智能体,通过将训练、推理与智能体逻辑解耦,结合窗口化FIFO调度、前缀树合并及专用推理加速技术,大幅降低了长序列任务(long-horizon tasks)的训练成本。
在M2.7版本中,模型展现出“自我进化”能力的早期雏形。根据论文描述,该模型已能自主诊断训练失败原因、解析系统日志并修改相关脚手架代码,从而在内部任务上实现多达100轮的自主迭代优化。
实际应用数据显示,这套自我进化机制已能处理团队30%至50%的日常迭代工作。在一项内部编程脚手架优化任务中,它带来了30%的性能提升。这表明模型正逐步融入其自身开发与优化的技术闭环,虽然处于初级阶段,但技术路径已清晰可见。
相关论文:《The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence》。
