大模型多领域训练方法测评：Branch-Train-MiX高效方案

2026-06-20阅读 0热度 0

ai 人工智能

训练一个同时精通编程、数学推理和世界知识的大型语言模型是否贪多嚼不烂？Branch-Train-MiX（BTX）为此提供了一种高效训练方案。其核心思路简洁：从种子模型出发，并行分支训练多个专注不同领域的专家模型，再将这些专家前馈参数混合到统一的混合专家（MoE）层，最后通过MoE微调学会按token动态分配路由。这种方法既继承了Branch-Train-Merge的并行优势，也吸收了MoE的路由灵活性，同时规避了各自单一模式的短板。简言之，BTX在准确性与效率之间实现了出色的平衡。整个过程分为三个步骤：分支（Branch）、训练（Train）、混合（MiX）。首先，选取一个预训练的种子LLM（如Llama-2 7B），复制多个初始副本；然后，将这些副本分别送入不同数据子集单独训练——例如数学、编程、维基百科——使其分别成为各细分领域的专家；最后，将这些专家LLM合并成一个采用混合专家前馈层的统一模型，再进行一轮微调，使路由机制学会在每个token上做出最优选择。

实验中，BTX以Llama-2 7B为种子，在数学、编程和维基百科三个子集上分别训练专家模型，并将原始Llama-2 7B权重作为第四个专家一并加入，随后对合并后的MoE模型进行相对较短的微调。结果极具说服力： - 与种子模型Llama-2 7B相比，BTX（无论Sample Top-1还是Top-2激活模式）在数学、编程和世界知识三个专家领域均有提升，且在常识推理等非目标任务上未出现性能下降。 - 采用默认Top-2专家设置时，BTX在数学和编程上逼近专门模型Llemma 7B和CodeLlama 7B的最高水平，而在这些专门模型不擅长的世界知识和常识推理方面，BTX领先优势显著。 - 与其他持续预训练方法（如Dense和BTM）比较，BTX的平均性能更优，尤其在数学和编程上差距微小，整体大幅超越BTM——这表明通过MoE微调学习token级路由确实有效。 - 更值得注意的是，即使Llama-2 13B使用了更多训练计算资源且活跃参数略多，BTX在所有任务上依然表现更优，显示出它是一种更能抵抗多任务干扰的持续预训练方法。最后，研究者对BTX训练中的不同路由方法进行了消融分析，并深入探讨了路由决策规律。BTX优势明确，未来可探索更多领域扩展、优化MoE实现，以及研究专家在MoE中的专业化问题。这些方向均值得持续关注。

Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLMhttps://arxiv.org/pdf/2403.07816.pdf

大模型多领域训练方法测评：Branch-Train-MiX高效方案

相关阅读

最新教程

最新资讯