新加坡科研机构发布AI大模型“调光开关”,专家按需调节

2026-06-07阅读 0热度 0
AI大模型

2026年5月30日,新加坡科学技术研究局高性能计算研究院与上海工程技术大学联合发布了一项预印本研究,论文编号arXiv:2606.00761。需要深挖具体技术方案的研究者,可直接通过该编号调取完整论文进行查阅。

研究背景:被忽视的“调光旋钮”

现代大型语言模型,尤其是那些支撑问答、写作、多任务处理的AI系统,其内部运作机制远超常规理解。为了在保持高性能的同时控制计算开销,工程师引入了一种名为“专家混合”(MoE)的架构。可以将其视作一家巨型企业,内部设有成百上千个专业化部门。当新任务抵达时,企业的“前台”(路由器)会判定应由哪几个部门接单,其余部门则保持空闲。这种设计实现了总参数量庞大,但每次推理仅激活少数专家的高效模式。

在此架构中,每个专家处理信息的方式高度依赖于一个名为SwiGLU的激活机制。它本质上是一个信号门控,决定每条信息通路是被放大、抑制还是原样保留。但长期以来,这个门控的“灵敏度”是预设固定且全局一致的——无论任务复杂度或数据特性如何,它都采用同一套标准。本研究的关键贡献在于,为这个固定门控加装了一个“动态调节旋钮”,使其能够根据当前任务的路由置信度自动调整灵敏度。研究团队将其命名为κ-SwiGLU(读作“卡帕-SwiGLU”)。

一、先搞清楚“开关”和“路由”是什么

在深入探讨这一改进方案之前,有必要先厘清两个核心机制。

首先是SwiGLU的运行原理。当输入进入某个专家单元时,专家内部拥有多条并行的信息通道。SwiGLU为每条通道配备了一个门控——该门控依据输入信号强度决定信号是否通过或被截停。具体实现采用SiLU函数:强输入信号时,门控开度大,信号几乎无损通过;输入接近零时,门控趋近关闭;输入为负值时,门控完全锁死,信号被屏蔽。这一机制使模型能够选择性激活对当前任务有益的特征,同时压制无关噪音。

其次是“路由确信度”的概念。在MoE架构中,路由器通过计算输入向量与每个专家“特征向量”之间的相似度来分配任务——相似度越高,表示该专家越适合处理此问题,路由器分配给它的“置信度”也越高。这个相似度对应一个具体的数值,被称为路由逻辑值(router logit)。数值越大,说明路由器对此次分配的把握越大。

这里有一个关键的物理意义:在高维空间中,被路由到同一专家的所有输入向量,其方向均与该专家的特征向量方向存在一定重叠。重叠程度越高,说明该输入与专家“专业领域”的契合度越高。研究人员通过实验验证了这一点——在一个8层MoE模型的第7层,被路由到某个专家的所有输入向量与该专家特征向量的余弦相似度,稳定在0.075到0.25之间,均值约为0.15。在512维空间中,这个数值意义重大:对于随机分布的单位向量而言,满足该相似度条件的向量在全体空间中占比仅为0.03%左右。这意味着被路由的输入并非随机落入,而是真实地聚集在专家特征方向附近。

二、一个意外发现:专家开关和路由器在“私下勾连”

研究团队在深入分析MoE的训练过程时,发现了一个此前从未被系统观测到的现象——专家内部的门控投影方向,会在训练过程中自动向路由器的特征方向靠拢,或向其相反方向偏移。

用企业比喻来理解:前台(路由器)判断某个任务是否该交给某个部门,使用一套评分标准;而部门内部处理任务时的“筛选机制”(门控投影),在训练过程中会悄然调整自己的筛选标准,使其与前台的标准越来越相似,或越来越相反。这意味着什么?

这意味着当一个任务被高置信度地分配给某个专家时,该任务向量与路由器方向高度重叠,而此时专家的门控投影向量也与路由器方向高度对齐(或反向对齐)。因此,门控信号的输入值会被系统性地放大(或压制)。换言之,路由器的置信度高低,会通过这种“隐性偏移”效应,自动影响专家内部的门控强度——高置信度的任务会落在门控曲线的更活跃区域,而低置信度的任务则可能落在更不活跃的区域。

研究人员在7个独立训练的8层MoE模型上系统测量了这种对齐现象。结果显示,在训练开始的几百步内,门控投影便迅速与路由器方向形成了0.2到0.4的余弦相似度峰值。尽管这种对齐强度随着训练推进有所衰减,但始终维持非零水平。更有意思的是,不同层的对齐方向存在差异——例如第4层在训练初期呈正向对齐,但后来转变为一致的负向对齐;而第7层则在大部分训练时间内保持正向对齐。这表明,路由器与门控之间的耦合是一种普遍存在的现象,但其具体表现形式因层而异。

研究人员还进一步量化了这种隐性偏移对门控输入的实际影响。通过分解门控投影向量的平行分量和垂直分量,可以计算出由路由器方向引起的系统性偏移量。在两个代表性层上,所有专家中排名前5%和后5%的偏移量,分别在整个训练过程中稳定维持正值和负值。这说明,这种双向的、非对称的门控偏移是真实存在且持续发生的。

三、κ-SwiGLU:给“开关”装上随机应变的调光旋钮

发现这种隐性耦合后,研究团队产生了一个自然想法:既然路由器的置信度已经在悄悄影响门控行为,为何不将这种影响做得更显式、更可控、更灵活?

标准SiLU函数的形状是固定的,其过渡区域宽度(即从“关闭”到“开启”所需的输入变化范围)是不可调的。研究人员为这个形状引入了一个控制参数κ——当κ大于1时,过渡区域变窄,门控变得“非此即彼”,类似一个精确开关,小幅度的输入变化即可导致门控状态的剧烈切换;当κ小于1时,过渡区域变宽,门控变得“平滑宽容”,能够对更广泛的输入范围做出响应。标准SiLU对应的是κ=1的特殊情况。

κ-SwiGLU的核心思路是,让每个专家的每个门控单元,根据当前输入的路由置信度动态计算自己的κ值。具体公式为:κ值通过一个关于路由逻辑值的线性变换,再经有界映射得到。线性变换包含两个可学习的标量参数:α(缩放系数)和b(偏置项)。线性变换的输出会经过一个`U^tanh(z)`的有界映射,其中U是一个超参数,设置为3——这意味着κ的取值范围被严格限制在(1/3, 3)之间,以防止极端κ值破坏训练稳定性。当α和b均为0时,κ=1,κ-SwiGLU退化为标准SwiGLU,保证了向后兼容性。

值得注意的是,κ-SwiGLU对标准SwiGLU的修改仅作用于“门控”部分,而不影响信息通路部分。在整个计算过程中,路由逻辑值在前向传播中本就是现成可用的,计算κ只需要几个元素级的运算,不涉及任何额外的矩阵乘法。

从直觉上理解,这一机制允许每个专家根据“我对这个问题有多确定”来调整自身处理信息的方式。当路由器非常确信该输入适合此专家时(高置信度),专家可以学会使用更锋利的门控来精准筛选特征;当路由器仅为勉强分配时(低置信度),专家则可以采用更宽容的门控来保留更多信息。当然,具体采用哪种策略更优,由训练数据决定,不同专家可以习得不同的策略。

四、如何训练这个新机制而不让它失控

为模型增加新机制,最令人担忧的是训练不稳定——新参数一旦失控,可能导致整个训练过程崩溃。为此,研究团队设计了几项保障措施。

首先是“冷启动”策略:α和b在训练的前1/10时间内被冻结为0,此时κ-SwiGLU完全等同于标准SwiGLU,让模型先建立稳定的路由行为和专家表示,再引入动态门控。这好比新员工入职先观察公司运作,摸清情况后再提改进建议,而非第一天就大刀阔斧地改变流程。

其次是L2正则化:对α和b施加惩罚,防止其无限增大,即防止门控偏离标准SiLU过远。正则化系数分别设为λα=0.02和λb=0.01。经过调试,这组参数在抑制过拟合的同时,保留了足够的学习灵活性。

在学习率方面,κ-SwiGLU的专属学习率方案是线性预热至0.12,再线性衰减至0.06。与主模型参数的优化器不同,α和b使用AdamW优化器单独管理,学习率为0.3。

五、实验设置:在多个模型规模上反复验证

研究团队在名为FineWeb-Edu的教育内容数据集上训练了一系列MoE语言模型,覆盖从8层到28层的多种配置,全部使用4块H200 GPU完成。为在有限显存下探索更多配置,团队采用了两种架构策略:标准MoE(8到14层,其中6到10层为MoE层)和“三明治”MoE(16到28层,但MoE层仅有中间的2层,其余均为普通全连接层)。

全部8种配置中,最小的MoE-8L模型总参数量约2700万,但每次处理一个词仅激活约269万参数,训练数据量27亿个词;最大的Sandwich-28L模型总参数约3300万,每次激活约849万参数,训练数据量142亿个词。每种配置均对标准SwiGLU和κ-SwiGLU各训练3个独立运行(随机种子24、26、28),报告均值和标准差。

评估指标使用名为CORE的基准测试,包含22个涵盖常识推理、知识问答和语言建模等方向的数据集,汇总成一个“中心化CORE分数”——该分数减去随机猜测基线,因此能更准确地反映模型的真实能力提升。

六、实验结果:8种配置中7种得到改善

结果相当清晰。在4种标准MoE配置上,κ-SwiGLU的CORE分数均高于标准SwiGLU:MoE-8L从13.5提升至14.5(提升1.0个百分点),MoE-10L从17.5提升至18.3(提升0.9),MoE-12L从20.1提升至20.8(提升0.7),MoE-14L从23.3提升至23.9(提升0.6)。浅层模型的改善幅度略大,研究团队推测其原因在于浅层模型使用了更大的专家池(最多64个专家),MoE特性更加突出,因此动态门控的收益更为明显;而深层标准MoE为节约显存被迫减少专家数量至16个,MoE的稀疏性有所减弱。

在4种三明治MoE配置上,除最浅的Sandwich-16L略有下降(从14.3降至14.1,差距在误差范围内)外,其余三种均有提升:Sandwich-20L从18.1提升至18.5(+0.5),Sandwich-24L从19.7提升至20.3(+0.6),Sandwich-28L从21.3提升至21.9(+0.6)。即便整个模型仅有两个MoE层,动态门控的效果依然稳定存在。

研究团队特别指出,单看每个配置的改善幅度,与运行间的随机波动相比并不总是显著,但8个配置中7个一致向好,这种跨配置的一致性本身就是强有力的信号——改善并非偶发的噪声,而是方法本身带来的系统性收益。

七、剥丝抽茧:到底是哪个部分起了作用

为理解κ-SwiGLU改善的来源,研究团队进行了消融实验,将κ参数分成两部分单独测试。第一种变体(κ-SwiGLU-α)去掉了与路由逻辑值相关的缩放项,仅保留偏置项b;第二种变体(κ-SwiGLU-b)去掉了偏置项b,仅保留缩放项α·s(x);第三种是完整的κ-SwiGLU。

在MoE-8L和MoE-10L上的结果非常清晰:去掉与路由置信度直接相关的缩放项α·s(x),性能与标准SwiGLU相差无几甚至略差(MoE-8L:13.4 vs 13.5基线);而去掉偏置项b,性能依然接近完整版(MoE-8L:13.9 vs 14.5完整版,MoE-10L:18.5 vs 18.3,在误差范围内基本持平)。这说明路由置信度驱动的动态缩放是核心收益来源,而偏置项提供的额外灵活性调节,重要性不及前者。

八、计算代价:几乎可以忽略的小小代价

任何新方法都有计算代价,κ-SwiGLU也不例外。研究团队在最大的MoE-14L模型上进行了详细的开销测量。结果显示:额外引入的激活参数仅增加0.02%,完全可以忽略不计。训练吞吐量(每秒处理词数)从153,200降至142,500,下降约7%;推理吞吐量从24,600降至23,729,下降约3.5%。这些开销完全来自计算κ所需的少量额外元素级运算。研究团队表示,通过进一步的底层算子优化,这些开销有望降至可忽略水平。

九、κ值是怎么变化的:训练过程的内部观察

研究团队还深入分析了κ值在训练过程中的动态变化,在12层MoE的第9层进行了详细追踪。结果呈现出一个有趣的“先分化,再收敛”的模式。

在训练前1/10时间内,κ被冻结为1,门控行为与标准SwiGLU完全相同。解冻之后,κ值迅速分化:排名前5%的门控单元的κ值急剧攀升至约2.5,而排名后5%的门控单元的κ值急剧下滑至约0.4。这意味着,一部分门控变得极其锋利,另一部分则变得极其宽容。随着训练继续推进,两组κ值均缓慢向1靠拢,但在训练结束时仍明显偏离1——大约分别维持在1.2-1.5和0.6-0.8的范围。

这种“先大幅探索,再适度收敛”的模式,说明模型并未走向极端,也未退化为均匀调整;而是在充分探索了门控弹性空间之后,学习到了一个持续有效的适度调制策略。与此同时,对α和b参数的追踪显示,α的贡献远大于b——在训练中期,以典型路由逻辑值2.5为例,α·s(x)项对最终κ的贡献约是b项的1.675倍,进一步验证了消融实验的结论。

研究的局限与未来展望

本研究本身也坦诚指出了若干局限。所有实验均在相对小规模的MoE模型上进行,最大的模型与当前前沿的商业MoE系统(如GPT-4、DeepSeek等)相比,规模差距仍然较大。在更大的参数量、更长的训练时间和更大规模的预训练数据上,是否能观察到同样的改善趋势,尚待验证。

评估维度也相对集中,主要依赖CORE这套预训练基准。在指令跟随、长文本处理、推理密集型任务等更贴近实际应用的场景下,动态门控的效果仍需进一步探索。此外,当前的κ参数化方案使用的是路由逻辑值的简单线性变换;是否存在更好的置信度信号来源、更合适的变换形式、更优的初始化和正则化策略,都是值得后续研究的方向。未来的工作也可考虑将这一思路推广至语言模型以外的其他MoE应用场景。

归根结底,κ-SwiGLU所做的可以用一句话概括:让专家在接到自己最擅长的任务时,将筛选标准调得更严格、更精准;在接到稍显陌生的任务时,则放宽标准,多保留一些可能有用的信息。这一机制的计算代价微乎其微,却在跨越多种模型架构和模型深度的实验中,一次次带来了稳定的性能提升。

对于希望在现有MoE模型上进行低成本改进的研究者和工程师来说,这个方向值得认真考量。而对于普通用户而言,这项研究意味着未来的AI助手在处理它“更擅长”的问题时,可能会给出更精准、更聚焦的回答,而不再千篇一律地采用相同处理方式对待所有问题。

有兴趣深入了解技术细节的读者,可通过论文编号arXiv:2606.00761查阅完整研究报告。

Q&A

Q1:κ-SwiGLU和普通SwiGLU有什么实质区别?

A:普通SwiGLU的门控灵敏度是固定的,无论什么问题进来都用同一套标准筛选信息。κ-SwiGLU则根据路由器对“当前问题交给这个专家处理”的置信程度,动态调整门控的灵敏度——置信度高时门控更锋利,置信度低时门控更宽容。这两个参数每个专家独立学习,整体新增参数量不到原来的0.02%。

Q2:“路由器-门控隐性耦合”是什么意思,为什么重要?

A:在MoE模型训练过程中,研究人员发现专家内部的门控投影向量会自动向路由器的特征向量方向对齐或反向对齐。这导致路由置信度高的问题在专家内部会得到系统性的门控偏移,相当于路由器和专家之间存在一条隐藏的“信息通道”。这一现象此前从未被系统研究过,正是这一发现激发了κ-SwiGLU的设计思路。

Q3:κ-SwiGLU的训练为什么要先冻结κ参数一段时间?

A:如果一开始就让κ参数自由变化,模型的路由行为和专家表示尚不稳定,动态门控可能会引入混乱。研究团队将α和b在训练前10%的步骤内冻结为0,此时κ=1,模型与标准SwiGLU完全相同,先让路由和专家表示趋于稳定。之后再解冻κ参数,让门控在稳固的基础上逐步学习动态调整策略,从而保证训练稳定性。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策