大模型多领域训练方法测评:Branch-Train-MiX高效方案
2026-06-20阅读 0热度 0
ai
人工智能
训练一个同时精通编程、数学推理和世界知识的大型语言模型是否贪多嚼不烂?Branch-Train-MiX(BTX)为此提供了一种高效训练方案。其核心思路简洁:从种子模型出发,并行分支训练多个专注不同领域的专家模型,再将这些专家前馈参数混合到统一的混合专家(MoE)层,最后通过MoE微调学会按token动态分配路由。这种方法既继承了Branch-Train-Merge的并行优势,也吸收了MoE的路由灵活性,同时规避了各自单一模式的短板。简言之,BTX在准确性与效率之间实现了出色的平衡。
整个过程分为三个步骤:分支(Branch)、训练(Train)、混合(MiX)。首先,选取一个预训练的种子LLM(如Llama-2 7B),复制多个初始副本;然后,将这些副本分别送入不同数据子集单独训练——例如数学、编程、维基百科——使其分别成为各细分领域的专家;最后,将这些专家LLM合并成一个采用混合专家前馈层的统一模型,再进行一轮微调,使路由机制学会在每个token上做出最优选择。

实验中,BTX以Llama-2 7B为种子,在数学、编程和维基百科三个子集上分别训练专家模型,并将原始Llama-2 7B权重作为第四个专家一并加入,随后对合并后的MoE模型进行相对较短的微调。结果极具说服力:
- 与种子模型Llama-2 7B相比,BTX(无论Sample Top-1还是Top-2激活模式)在数学、编程和世界知识三个专家领域均有提升,且在常识推理等非目标任务上未出现性能下降。
- 采用默认Top-2专家设置时,BTX在数学和编程上逼近专门模型Llemma 7B和CodeLlama 7B的最高水平,而在这些专门模型不擅长的世界知识和常识推理方面,BTX领先优势显著。
- 与其他持续预训练方法(如Dense和BTM)比较,BTX的平均性能更优,尤其在数学和编程上差距微小,整体大幅超越BTM——这表明通过MoE微调学习token级路由确实有效。
- 更值得注意的是,即使Llama-2 13B使用了更多训练计算资源且活跃参数略多,BTX在所有任务上依然表现更优,显示出它是一种更能抵抗多任务干扰的持续预训练方法。
最后,研究者对BTX训练中的不同路由方法进行了消融分析,并深入探讨了路由决策规律。BTX优势明确,未来可探索更多领域扩展、优化MoE实现,以及研究专家在MoE中的专业化问题。这些方向均值得持续关注。
Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLMhttps://arxiv.org/pdf/2403.07816.pdf