专家合并法：三星与米拉联手革新AI模型压缩，高效瘦身不损性能

2026-05-15阅读 0热度 0

AI大模型

这项研究由三星人工智能蒙特利尔实验室、米拉魁北克人工智能研究院、蒙特利尔理工学院、蒙特利尔大学、麦吉尔大学及三星韩国人工智能中心共同完成，并于2026年4月以预印本形式发布于arXiv，论文编号为arXiv:2604.04356v1。

当前AI部署面临一个核心瓶颈：当大语言模型的参数量级攀升至数千亿时，其巨大的内存占用使得实际产品化部署成本高昂。问题的根源并非算力，而是模型的“体积”——仅将其加载到内存就足以挑战多数硬件的极限。针对这一根本性的内存墙问题，研究团队提出了REAM（路由器加权专家激活合并）方法。其核心逻辑可以类比企业重组：是直接裁撤部分岗位，还是将职能重叠的岗位合并优化？REAM选择了后者，其整个技术框架都建立在“合并优于删除”的理念之上。

一、为什么大模型会有这么多“专家”，他们又为何会变成负担

理解这项研究，需要先了解“专家混合”（Mixture-of-Experts， MoE）架构。与传统模型不同，MoE模型内部包含大量被称为“专家”的专用子网络。在处理每个输入时，模型仅动态激活其中一小部分专家，其余则保持闲置。这类似于一家综合医院，患者只需根据病症前往对应科室，无需动员全院医生。这种设计在维持较低计算开销的同时，通过庞大的专家池储备了海量知识。

然而，矛盾由此产生。以先进的Qwen3模型为例，其单层可能包含128个专家，但每次仅激活其中8个。这意味着，尽管大部分专家处于“休眠”状态，但所有128个专家的完整参数都必须常驻内存。对于参数量达数百亿乃至千亿的顶级模型，这种内存开销使得许多实际部署场景变得不切实际。

深入研究进一步揭示，庞大的专家群体中存在显著的功能冗余，许多专家执行着高度相似的任务，如同医院设置了过多职能交叉的科室。这一发现为模型压缩提供了关键切入点：若能精准识别并处理这些冗余专家，就有可能在保留核心能力的前提下，安全地缩减模型规模。

二、“解雇”还是“兼并”：两种瘦身思路各有利弊

在REAM问世前，压缩MoE模型主要有两种路径，恰似企业精简的两条策略。

第一种是“专家剪枝”，相当于直接“裁员”——将判定为不重要的专家从模型中永久移除。该方法直接高效，但代价是被移除专家所承载的特定知识永久丢失。若后续任务恰好依赖这些“冷门”专家，模型性能就会出现明显缺陷。此前最先进的剪枝方法是REAP，它通过评估每个专家对最终输出的实际贡献来决定去留，比单纯依据调用频率更为精准。

第二种是“专家合并”，类似于“业务整合”——将功能相近的专家参数进行加权融合，形成一个新的综合专家。此法的优势在于知识得以保留，但风险在于：若合并决策失误，将专长迥异的专家强行融合，可能产生一个能力平庸的“杂合体”，其效果甚至不如合并前。

REAP方法曾指出，早期合并技术存在一个缺陷：合并操作会干扰“路由器”的权重分配，引入误差。基于此，REAP团队得出了“剪枝优于合并”的结论。但REAM的研究者认为，这一结论有失偏颇——问题根源在于过往的合并方法过于粗糙，而非合并思路本身。若能实现足够精细的合并操作，完全可以在保全知识的同时有效控制误差。REAM正是基于这一理念构建的。

三、REAM的四把手术刀：精细合并的完整方案

REAM并非单一技巧，而是一个由四个精密组件构成的完整技术栈，每一部分都针对前人方法的不足进行了针对性优化。

第一把手术刀：更聪明的“相似度测量”。判断哪些专家应该合并，首要任务是准确衡量它们的相似度。传统方法要么只关注专家输出结果的相似性，要么仅依赖路由器调度分数的匹配度。REAM将这两个维度综合考量，并引入了一个关键权重：路由器对每个专家的“置信度”。当一个专家在处理特定任务时被路由器高度信赖（获得高分），那么它在此类任务上的输出就应在相似度计算中占据更高权重。这类似于评估两位员工：不仅要看其工作内容的相似性，更要考量他们各自被委以重任的程度和具体场景。

第二把手术刀：“伪剪枝”分组策略。这是REAM的核心创新。传统合并方法通常将所有专家均匀分组，强制每组融合成一个新专家。REAM的策略截然不同：首先，根据重要性分数筛选出最重要的专家作为“组长”，组长数量等于压缩后期望保留的专家总数。随后，从最重要的组长开始，依次吸纳与其最相似的非组长专家，但每个组长有固定的“吸纳名额”。由于待吸纳的普通专家总数远少于所有组长的总容量，最终结果是：仅有少数几个组长真正吸收了其他成员，而大多数组长保持独立，形成单人组。这种结构在形式上属于合并，但在效果上更接近剪枝——重要专家基本保持原状，同时又将冗余专家的知识整合进来，而非简单丢弃。

第三把手术刀：“双轨对齐”权重校准。合并专家参数时，不能简单地进行加权平均，因为两个专家内部的神经元排列顺序可能不同。这好比两份记录同一旋律但音符顺序不同的乐谱，直接叠加只会产生噪音。正确做法是先找到正确的对应关系，即“排列对齐”。REAM的创新在于结合了两种信息进行匹配：既考虑神经元权重参数的静态相似性，也考察神经元在实际数据上的动态激活模式是否一致。仅依赖权重可能忽略模型运行时的动态规律；仅依赖激活又可能受单批数据偶然性影响。两者结合，才能做出最可靠的配对决策。

第四把手术刀：“顺序合并”流程。常规方法会一次性收集模型所有层的统计信息，然后统一进行压缩。但这存在一个问题：当第一层被压缩后，其输出数据已经改变，这意味着基于原始模型收集的第二层统计信息已经“过时”。REAM采用“逐层推进”的策略：压缩完当前层后，立即用更新后的该层重新计算输出，并将这份新数据作为下一层的输入。这好比翻修一栋大楼，不是一次性绘制所有楼层的施工图，而是修完一层后，根据实际效果再调整下一层的方案。此过程虽然增加了约50%的时间成本（例如从1小时增至1.5小时），但换来了更精准的压缩质量。考虑到合并通常只需执行一次，研究团队认为这笔“时间投资”是值得的。

四、校准数据：一个被忽视却至关重要的变量

REAM的整个压缩流程是“数据驱动”的，需要一批“校准数据”来观察模型行为，以评估专家重要性和相似度。这里潜藏着一个关键风险：如果校准数据中缺乏某一领域的内容（例如编程代码），那么该领域的相关专家可能因从未被激活而被误判为“不重要”，从而在压缩中被牺牲。当用户真正需要模型执行代码生成任务时，性能便会急剧下降。

研究团队对此进行了深入探索。他们混合使用了三类数据源作为校准集：C4（通用网页文本）代表日常语言，NuminaMath代表数学推理，The-Stack-Smol代表代码生成。通过设计十种不同的混合比例，他们全面测试了校准数据组成对最终压缩效果的影响。

评估从两个维度展开：一类是“判断题”式的多项选择测评，涵盖八个任务，考察模型的通用知识与理解能力；另一类是“问答题”式的生成型测评，涵盖六个任务，考察模型在实际应用场景中的真实能力。

实验结果揭示了一个关键规律：对于REAM、REAP等依赖数据的方法，校准数据中通用文本（C4）的比例越高，模型在选择题测评上的表现就越好，但在生成型测评上的表现却越差，两者呈现强烈的负相关。反之，代码数据比例越高，生成型测评表现越好，选择题测评则越差。数学数据的影响相对微弱，这表明数学推理能力在模型中可能是分散存储的，而非集中于少数几个专家。

这一发现意味着：在实际部署中，选择什么样的校准数据，本质上是在决定“我希望这个压缩后的模型擅长什么”。这是一把双刃剑——它赋予了用户定制化压缩的能力，但也宣告了不存在一种“万能”的校准配方能在所有任务上都达到最优。

五、关键结论：REAM在大多数情况下优于竞争对手

在将专家数量从128个压缩至96个（压缩率25%）的设定下，当使用最优校准比例（数学:代码=5:5）时，REAM在生成型测评上的平均分达到69.8分，与未压缩原始模型的70.9分相比，差距仅有1.1分。这意味着经过REAM处理后，模型的能力损失微乎其微，完全处于可接受范围内。

与REAP相比，REAM在生成型任务上整体表现更优，尤其在指令遵循和实时代码评测上优势明显。REAP在最优校准比例下的生成型平均分为68.6分，比REAM低了1.2分。另一个合并基准方法HC-SMoE得分为67.4分，频率剪枝方法则为67.6分。

研究团队还引入了“超体积”指标来综合衡量各方法在所有校准比例下的整体表现。REAM的超体积为920.3，高于REAP的878.0和HC-SMoE的853.3，频率剪枝仅为429.7。更重要的是，REAM有7种校准比例达到了帕累托最优（即没有其他比例能在两类测评上都超越它），而HC-SMoE只有2种。这说明REAM的优势具有普遍性，在整个校准数据空间中都保持了竞争力。

HC-SMoE的情况则颇为耐人寻味。由于其分组决策几乎不依赖校准数据，因此无论使用什么数据，其表现都稳定在一个狭窄的区间内。这种稳定性看似是优点，实则意味着它无法从有针对性的校准数据中获益，用户失去了通过调整数据来优化特定任务性能的灵活性。

在更激进的50%压缩率（从128个专家压缩到64个）设定下，REAM依然保持了最大的超体积（910.7），但此时REAP的超体积（931.4）略高，表明在极端压缩场景下，两者的优劣差距开始缩小。

六、换一批模型测试：REAM的泛化能力经受考验

为验证REAM的普适性，研究团队在三个更大规模的模型上重复了实验。

在拥有512个专家、800亿参数的Qwen3-Coder-Next模型上，压缩掉25%的专家后，REAM在生成型测评上的平均分达到72.9分，与原始模型完全持平——这几乎是一次无损压缩。在数学竞赛题上，REAM的得分（80.0分）与原始模型一致，而REAP只有70.0分。在代码生成任务上，REAM和REAP甚至取得了94.5分，略微超过了原始模型的92.7分。这表明，专注于代码领域的校准数据能帮助压缩方法更好地保留相关专家，甚至实现了局部性能的“反超”。

在另外两个大规模模型——800亿参数的Qwen3-Next-80B-A3B-Instruct和1060亿参数的GLM-4.5-Air上，REAM压缩后的性能均一致地超越了REAP。这强烈表明，REAM的优势源于其方法本身更合理的设计，而非对特定模型结构的过拟合。值得注意的是，在所有模型和压缩方法下，博士级科学问答任务都出现了明显的性能下降，这说明这类需要深度专业知识的任务对专家压缩尤为敏感，是未来需要重点攻关的方向。

七、逐一拆解：哪个组件贡献最大

为厘清REAM四个组件的各自贡献，研究团队进行了系统的消融实验——每次移除一个组件，观察性能变化。

影响最大的是用于评估专家重要性的“REAP显著性得分”。如果将其替换为简单的调用频率，生成型平均分会骤降8.7分。这再次印证了一个关键洞见：专家被调用的次数多寡并不等同于其重要性，真正的贡献取决于每次被调用时其输出对最终结果的实际影响力。

第二大影响来自相似度计算中的路由器置信度加权。移除这个权重后，生成型平均分下降5.9分。这验证了一个直觉：两个专家即使在某些输出上相似，但如果路由器对它们的信任程度（置信度）差异巨大，意味着它们承担的任务范围和核心程度可能截然不同，强行合并代价高昂。

伪剪枝分组策略的移除会导致整体性能平均下降3.6分，证明了其分组方式对合并质量有实质性影响。相比之下，顺序合并流程的影响约为1.0分，双轨对齐中权重轨道的贡献约为0.5分。虽然后者影响较小，但研究团队认为它对于方法的稳定性仍有意义。如果将所有组件全部移除，REAM便退化为最简单的MC-SMoE合并方法。

研究团队还进行了一项“排名分析”：他们测量了压缩后模型内部特征向量的数学秩（可理解为信息丰富度和多样性），并发现该指标与最终测评分数高度相关。对于REAM，其相关系数高达0.95，是所有方法中最高的。这意味着，未来若要快速预测哪种校准数据组合能产生最佳压缩效果，或许只需计算压缩后模型的这个“秩”指标即可，无需运行耗时的完整测评，这为快速筛选方案提供了一条捷径。

总结与启示

归根结底，这项研究回答的核心问题并非“删除与合并孰优孰劣”，而是“如何将合并做到足够精细，使其真正超越删除”。REAM给出的答案是：必须同时考虑路由器的调度逻辑和专家的实际输出；必须采用伪剪枝而非均等分组来决定合并关系；必须在参数对齐时参考权重和激活两个维度；还必须在逐层压缩时实时更新数据流。当这四件事都做对时，合并产生的精简模型就有可能在大多数任务上追平甚至接近原始完整模型。

另一个至关重要的发现是：模型在选择题测评上的表现与其在生成题测评上的表现，存在根本性的此消彼长关系。没有任何一种校准数据能同时将两类性能推向顶峰。这意味着，在实际部署压缩模型前，必须首先明确模型的主要用途，然后据此选择对应的校准数据类型，而不是奢望找到一个“放之四海而皆准”的压缩配方。

Q&A

Q1：REAM和REAP有什么本质区别，为什么REAM在生成型任务上更强？

A：REAP是直接删除评分低的专家，其承载的知识随之消失；REAM则是将评分低的专家合并到最相似的重要专家中，知识得以保留。这使得REAM在处理如代码生成、数学解题等生成型任务时更具优势，因为这些任务往往依赖于一些不常被调用、但在特定场景下至关重要的“专家”。在Qwen3系列模型的25%压缩测试中，REAM的生成型平均分比REAP高出约1至2分。

Q2：校准数据的选择对MoE模型压缩效果影响有多大？

A：影响极为显著。以Qwen3-30B模型为例，使用不含代码的校准集压缩后，其在代码生成评测上的得分可能接近零；而换用代码比例较高的校准集后，同样的方法可使得分恢复到90分以上，前后差距超过40分。通用文本数据有利于选择题测评，代码数据则有利于生成型测评，两者之间存在根本性的权衡关系，无法同时最大化。

Q3：REAM的伪剪枝分组和普通合并分组有什么不同？

A：普通合并分组通常将所有专家均等地分成若干小组，强制每组合并成一个新专家。REAM的伪剪枝策略则先根据重要性筛选出目标数量的“组长”，然后允许每个组长吸纳有限数量的、最相似的“组员”。由于需要被吸纳的专家总数远少于组长们的总吸纳容量，结果是大多数组长保持独立，只有少数组长真正吸收了其他专家。这使得最终结构更接近剪枝的效果——重要专家基本保持不变，同时又整合了被压缩专家的知识，而非简单丢弃。