DeepSeek V4架构首曝,直击Transformer致命缺陷

2026-06-19阅读 0热度 0
ai

刚刚,DeepSeek又放出了一篇新论文,而且这次梁文锋亲自署名了。

这次他们联手北大,直接瞄准了Transformer最要命的一块短板:“记忆”

现在的MoE(混合专家模型)虽然是主流架构,但骨子里还是Transformer。问题出在,它缺少一种原生的“知识查找”机制。很多本该是“查一下就知道”的事,硬是被模型用大量计算去模拟检索,效率很低。

这篇33页的论文里,团队是怎么干的呢?他们提出了一个和MoE互补的“条件记忆”稀疏轴,并通过一个全新模块——Engram 来实现:

简单说,就是把经典的哈希N-gram方法现代化,塞进模型里,实现近似O(1)的确定性知识查找。

论文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

更妙的是,通过一种叫“稀疏分配”(Sparsity Allocation)的建模方法,他们意外发现,MoE和Engram之间,存在一个 “U形scaling law”

这意味着,你需要调整两者之间的资源比例,让计算和静态记忆之间找到那个最优的平衡点。

顺着这个规律,他们把Engram扩展到27B参数,在严格等参数、等FLOPs的条件下,效果明显优于纯粹的MoE基线。

说得直白点:MoE只解决“怎么少算”,而Engram直接解决“别瞎算”。

它把该查的东西交给O(1)的记忆,把注意力从那些琐碎的局部模式中解放出来。结果就是,模型不仅更会“背知识”,推理、代码、数学的能力也跟着一起提升。

这很可能成为稀疏LLM下的一条主流路线。更重要的是,传说中的下一代V4,有极大的概率会集成这个新方法。

不再苦算,给Transformer插入“电子脑”

现在,把LLM做大已经成了“铁律”。一条熟悉的路径是:把参数做大,同时让计算变得“稀疏”。

混合专家模型(MoE)就是这里的典型代表。每个token只激活少数几个专家,通过“条件计算”让参数规模飙升,同时还能控制FLOPs。

从 Artifical Analysis 榜单也能看出来,现在主流的稀疏大模型,基本全是MoE。

但核心问题一直没解决:Transformer缺少原生的“知识查找”能力。所以,很多本可以像检索一样O(1)搞定的事,被迫用一大堆计算去“模拟检索”,性价比很低。

北大和DeepSeek这篇论文带出了一个很有意思的视角:稀疏化,不只是为“计算”服务,也可以为“记忆”服务。

基于这个思路,他们提出了Engram,把语言建模中大量“固定、局部、刻板”的模式,交给一个可扩展的查表模块来承担。

这样一来,Transformer主干就能把注意力和深度,用在更需要“组合与推理”的地方。

语言建模,两类任务

论文里,作者明确把语言建模拆成了两类子任务:

一部分任务需要“组合与推理”:比如上下文关系、长程依赖、逻辑推理、链式推理。

另一部分任务更像是“模式检索”:比如实体名、固定搭配、常见短语、语法片段、重复出现的局部结构。

后者的共同点很明显:它们通常是局部的、稳定的、重复出现的。

如果非要用多层注意力和FFN去“算”这些模式,模型当然也能做到,但成本极高,还会挤占早期层的表达空间。

比如,为了让模型记住“戴安娜,威尔士王妃”(Diana, Princess of Wales)这个名字,LLM得消耗多层注意力和FFN去逐步组合特征。而这个过程,理论上一次知识查找操作就能完成。

Engram想做的事很直接——

把这些“局部静态模式”,转移到一个廉价的知识查找原语里去。它用确定性的查表快速给出候选信息,再由上下文决定是否采纳。

Engram核心架构:暴力查表 + 记忆开关

“Engram”这个词源自神经学,本意是“记忆痕迹”。在这里,它是一个可扩展、可检索的记忆单元。用来存储LLM在推理过程中可能接触过的模式和信息片段。

你可以把Engram理解为:把经典的“哈希N-gram”进行现代化改造,做成一个插在Transformer中间层的“可扩展查表模块”。

如图1所示,Engram是一个条件记忆模块。它的目的是通过把静态模式存储与动态计算分离开,来增强Transformer骨干网络。

用公式来表达:给定输入序列X=(x_1, …, x_T)和第l层的隐藏状态H^(l)∈R^Txd,这个模块会分两步来处理每个位置t:检索和融合。

接下来,具体看看Engram的几个关键设计点。

基于哈希N-gram的稀疏检索

第一阶段,负责把局部上下文映射到静态的记忆条目里。这主要通过分词器压缩和确定性哈希检索嵌入来实现。

分词器压缩

为了最大化语义密度,作者引入了一个词表投影层。他们预先计算了一个满射函数P:V→V',利用归一化的文本等价性(比如NFKC、小写化等)把原始Token ID坍缩成规范标识符。这个过程能让128k大小的分词器的有效词表大小减少23%。

多头哈希

想直接参数化所有可能的N-gram组合,计算上是不可能的。作者采用了基于哈希的方法。为了减少冲突,给每个N-gram阶数n分配了K个不同的哈希头。每个头k通过一个确定性函数φ_n,k,把压缩后的上下文映射到嵌入表E_n,k中的一个索引。

上下文感知门控

检索到的嵌入e_t,本质上是一种上下文无关的先验信息。但这玩意儿容易受到哈希冲突或多义词的干扰。为了增强表达能力并解决歧义,作者设计了一套受注意力机制启发的上下文感知门控机制。

他们用当前的隐藏状态h_t作为动态的Query,而检索到的记忆e_t则作为Key和Value投影的来源。

其中W_K,W_V是可学习的投影矩阵。为了保证梯度稳定性,在计算标量门α_t∈(0,1)之前,先对Query和Key进行RMSNorm处理。

最后,为了扩大感受野并增强模型的非线性,还引入了一个短的深度因果卷积。

门控可视化

为了验证Engram是否按预期工作,作者在图7里可视化了Engram-27B在各种样本上的门控标量α_t。

结果展示出明显的选择性模式。门控机制在遇到局部、静态模式时会一致激活(显示为红色)。

比如在英文里,观察到了在多Token命名实体(如Alexander the Great、the Milky Way)和固定短语(如By the way、Princess of Wales)上有强烈的激活。

关键是,这种行为能有效地跨语言泛化。在中文示例中,Engram能识别并检索到独特的习语表达和历史实体,比如“四大发明”和“张仲景”。

这些结果证实了,Engram成功识别并处理了固定的语言依赖关系,把Transformer骨干网络从记忆这些静态关联的任务中解放了出来。

系统效率:计算与存储解耦

扩展记忆增强型模型,往往会受限于GPU高带宽内存(HBM)的容量。但Engram的确定性检索机制,天生就支持把参数存储与计算资源解耦。

与依赖运行时隐藏状态进行动态路由的MoE不同,Engram的检索索引只取决于输入的Token序列。这种可预测性为训练和推理提供了专门的优化策略,如图2所示。

训练阶段,为了容纳大规模嵌入表,他们采用标准的模型并行策略,把表分片存储在不同的GPU上。推理阶段,这种确定性特性使得“预取和重叠”策略成为可能。

U型Scaling Law,揭秘最优分配比

Engram作为条件记忆的一种实现形式,在结构上与MoE提供的条件计算是互补的。这里,主要研究了两个关键问题:

  1. 有限约束下的分配。
  2. 无限内存场景。

作者通过三个参数指标来分析MoE和Engram之间的权衡:

  • P_tot:总可训练参数,不包括词表嵌入和LM头。
  • P_act:每个Token的激活参数量。这个数值决定了训练成本(FLOPs)。
  • P_sparse ≜ P_tot - P_act:非激活参数,这代表了“免费”的参数预算,可以在不增加计算成本的情况下扩展模型规模。

作者将分配比例ρ∈[0,1]定义为:分配给MoE专家容量的非激活参数预算的比例。

直观来说:

ρ=1对应纯MoE模型(所有非激活参数都是参与路由的专家)。ρ<1则减少路由专家的数量,并把释放出来的参数重新分配给Engram嵌入槽位。

结果与分析

图3(左)展示了验证损失与分配比例ρ之间,存在一条非常清晰的U型关系。

这条U型关系,证实了两个模块之间的结构互补性:

  • MoE主导(ρ→100%):模型缺乏用于存储静态模式的专用内存,迫使它只能通过增加深度和计算量来低效地重建这些模式。
  • Engram主导(ρ→0%):模型失去了条件计算能力,损害了那些需要动态、上下文依赖推理的任务。在这种场景下,记忆无法替代计算。

接下来,作者探索了一种互补的设置:激进的内存扩展。图3(右)表明,扩展内存槽位的数量能带来清晰且一致的验证损失改善。在探索的范围内,曲线遵循严格的幂律,这表明Engram提供了一种可预测的扩展调节手段:更大的内存能持续带来收益,而无需额外的计算量。

关于扩展效率,有至关重要的一点:虽然OverEncoding的直接平均方法也能受益于更大的内存表,但Engram在相同的内存预算下,解锁了更大的扩展潜力。

结合分配定律,这些结果验证了——

条件记忆可以作为稀疏容量的一个独特且可扩展的维度,和MoE的条件计算相辅相成。

爆杀传统MoE,知识推理数学全面涨

基于Engram架构和实验得出的分配定律,作者把Engram扩展到了数十亿参数的级别,来验证其在真实世界LLM预训练中的有效性。

他们训练了以下四个模型:

  • Dense-4B (总参数4.1B)
  • MoE-27B (总参数26.7B)
  • Engram-27B (总参数26.7B)
  • Engram-40B (总参数39.5B)

实验结果

首先,和先前文献的结论一致,稀疏架构表现出优于密集模型的扩展定律。在相同的训练计算预算下,所有三个稀疏变体(MoE-27B,Engram-27B/40B)在所有基准测试中都显著击败了等FLOPs的Dense-4B基线。

更重要的是,Engram-27B始终优于等参数且等FLOPs的MoE-27B基线

有趣的是,这些收益并不仅限于知识密集型任务(MMLU:+3.0,MMLU-Pro:+1.8,CMMLU:+4.0)。

在通用推理领域(BBH:+5.0,ARC-Challenge:+3.7,DROP:+3.3),以及代码和数学推理(HumanEval:+3.0,MBPP:+1.6,GSM8K:+2.2,MATH:+2.4)中,提升更为显著。

这些结果支持了他们的假设:引入一个专用的知识查找原语所带来的表示效率提升,要超过将所有稀疏预算都分配给条件计算的效果。

最后,扩展到Engram-40B进一步降低了预训练损失,并在大多数基准测试中提升了性能。可以观察到,Engram-40B与基线之间的训练损失差距在训练后期仍在持续扩大,这表明扩大的内存容量在当前的Token预算内尚未完全饱和。

注意力彻底解放,32k上下文性能狂飙

通过把局部依赖建模的任务卸载给静态查找,Engram架构保留了宝贵的注意力容量来管理全局上下文。通过长上下文扩展训练,作者证明了Engram在长程检索和推理任务上带来了显著的提升。

实验结果

  1. 超越注意力机制的长上下文能力

虽然注意力机制和位置编码提供了处理上下文的结构基础,但结果表明,长上下文性能并非仅由架构先验决定。轨迹显示,长上下文性能与基座模型的通用建模能力本质上是挂钩的。因此,严格的架构比较必须通过对齐基座模型的Loss来控制这一干扰变量,而不仅仅是简单地对齐训练步数。

  1. 受控设定下的架构优越性

在上述原则的指导下,作者将Engram与MoE基线进行了对比。当控制了基座能力后,Engram模块的效率增益就变得非常明显:

  • 等Loss设定(46k vs. 基线):当对比预训练Loss对齐的Engram-27B(46k)和完全训练的MoE-27B(50k)时,Engram展现出了显著的增益。
  • 等FLOPs设定(50k vs. 基线):在标准的等计算预算下,Engram-27B(50k)进一步拉大了这一差距,确立了全面的最佳性能。
  • 极端设定(≈82%计算量):即便是提前停止训练的Engram-27B(41k),在面对完全训练的MoE-27B(50k)时依然极具竞争力。这凸显了Engram架构内在的优越性。

计算+记忆双轴时代,直接融入V4?

DeepSeek这篇论文,打开了稀疏化的第二条路,一条非常有启发性的路线:

稀疏化模型,正式进入了“计算+记忆”双轴时代

  • MoE:继续负责动态计算与推理。
  • Engram:负责存储与检索静态知识与局部模式。

上面的U型scaling law已经证明,把稀疏预算全部给MoE,并不是全局最优的。留出一部分给Engram,整体更强。

  1. 稀疏化目标变得更丰富了

条件计算解决了FLOPs,条件记忆解决了容量与模式检索,两者可以互补。

  1. Engram的收益带有结构性

它让LLM的知识能力暴涨的同时,也间接提升了推理、数学、代码的性能,因为Transformer主干的深度和注意力计算,效用变得更“值钱”了。

  1. 确定性查表,很适合系统优化

模型的预取和卸载空间很大,为“更大参数、同等吞吐”提供了一条可行的工程路线。

现在,全网都在猜测,春节档的V4有很大概率会把Engram融入主干架构。

回看DeepSeek的路线:

  • DeepSeek V2曾引入MLA,大幅提升推理效率和KV缓存友好度。
  • DeepSeek V3持续优化MoE,实现无损负载均衡,训练更稳定,成本更低。

如果V4真的把Engram落地,那将不只是参数规模的提升,更是架构范式的又一次跃迁。

再加上前段时间爆出的消息,V4的代码实力可能赶超Claude、ChatGPT系列。今年的春节大礼,真是让人充满期待。

作者介绍

Xin Cheng

Xin Cheng目前在北京大学读博,主攻自然语言处理方向,研究重点是大语言模型和检索增强生成。作为一名学术新秀,他在圈内已经做出了不少成绩,尤其在NeurIPS、ACL和EMNLP这些顶会上,发表了多篇一作论文。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策