月之暗面 Kimi 开源 Moonlight:30 亿 / 160 亿参数混合专家模型
月之暗面Kimi开源Moonlight:30亿/160亿参数混合专家模型
技术圈传来新动静。2月24日消息,月之暗面Kimi团队在昨日发布了一份关于“Muon优化器可扩展用于大语言模型训练”的技术报告,同时揭晓了基于此技术训练的模型产品“Moonlight”——一个包含30亿和160亿参数版本的混合专家模型。关键之处在于,它仅使用了5.7万亿个token进行训练,却在消耗更低计算量(FLOPs)的条件下,实现了更优的性能表现,直接改写了当前效率的“帕累托边界”。
根据报告,团队在研究中发现,Muon优化器可以通过一系列技术进行有效扩展。具体来说,就是通过引入权重衰减机制,并对每个参数的更新幅度进行精细校准。这一发现带来了一个显著的实用亮点:
- 这些技术让Muon能够直接应用于大规模训练场景,几乎不需要额外调整超参数。扩展性实验证明,与遵循计算最优法则训练的AdamW优化器相比,Muon实现了约两倍的计算效率提升。
这次论文中展示的核心模型是Moonlight-16B-A3B。它的总参数量达到152.9亿,激活参数量为22.4亿。正是基于Muon优化器,并在5.7万亿token的庞大数据集上训练,才取得了上述突破性成绩。
- 可以确定的是,该模型不仅突破了现有的帕累托效率边界,更在训练所需计算量大幅缩减的前提下,达到了超越以往模型的性能水平。
- 团队同时开源了经过内存和通信效率优化的分布式Muon实现。此外,他们还发布了预训练模型、指令微调模型以及多个中间训练检查点,目的很明确:为后续的同行研究提供扎实的基础设施。
相关资源链接如下:
- GitHub:点此前往
- Hugging Face:点此前往
