月之暗面 Kimi 开源 Moonlight：30 亿 / 160 亿参数混合专家模型

2026-05-01阅读 0热度 0

其他

月之暗面Kimi开源Moonlight：30亿/160亿参数混合专家模型

技术圈传来新动静。2月24日消息，月之暗面Kimi团队在昨日发布了一份关于“Muon优化器可扩展用于大语言模型训练”的技术报告，同时揭晓了基于此技术训练的模型产品“Moonlight”——一个包含30亿和160亿参数版本的混合专家模型。关键之处在于，它仅使用了5.7万亿个token进行训练，却在消耗更低计算量（FLOPs）的条件下，实现了更优的性能表现，直接改写了当前效率的“帕累托边界”。

根据报告，团队在研究中发现，Muon优化器可以通过一系列技术进行有效扩展。具体来说，就是通过引入权重衰减机制，并对每个参数的更新幅度进行精细校准。这一发现带来了一个显著的实用亮点：

这些技术让Muon能够直接应用于大规模训练场景，几乎不需要额外调整超参数。扩展性实验证明，与遵循计算最优法则训练的AdamW优化器相比，Muon实现了约两倍的计算效率提升。

这次论文中展示的核心模型是Moonlight-16B-A3B。它的总参数量达到152.9亿，激活参数量为22.4亿。正是基于Muon优化器，并在5.7万亿token的庞大数据集上训练，才取得了上述突破性成绩。

可以确定的是，该模型不仅突破了现有的帕累托效率边界，更在训练所需计算量大幅缩减的前提下，达到了超越以往模型的性能水平。

团队同时开源了经过内存和通信效率优化的分布式Muon实现。此外，他们还发布了预训练模型、指令微调模型以及多个中间训练检查点，目的很明确：为后续的同行研究提供扎实的基础设施。

相关资源链接如下：

GitHub：点此前往

Hugging Face：点此前往

月之暗面 Kimi 开源 Moonlight：30 亿 / 160 亿参数混合专家模型

月之暗面Kimi开源Moonlight：30亿/160亿参数混合专家模型

相关阅读

最新教程

最新资讯