DeepSeek V4最大的遗憾
henry 发自 凹非寺
量子位 | 公众号 QbitAI
翻开DeepSeek-V4的技术报告,mHC、CSA、HCA、Muon、FP4……这些技术名词一个不少。
唯独缺了那个名字:Engram。
它去哪儿了?
这个话题,一度成了技术社区里的小热点。毕竟,Engram在今年1月由DeepSeek和北京大学联合开源时,主打的就是解决大模型的记忆与效率难题。自打论文挂上arXiv,围绕它的讨论就没停过。
大家期待它,不仅仅因为它是V4的技术前奏,更在于它的核心承诺:像“伦敦是英国首都”这类事实性知识,模型不必再动用整个深层网络去费力推导,直接查询即可。
这不仅能节省宝贵的显存,更能将深层网络的算力容量释放出来,专注于更高阶的推理任务。
正因如此,自一月初论文发表以来,业界几乎形成了一种共识:Engram将成为V4的架构基石。所有人都在等待它的登场。
以至于V4论文发布后,许多人的第一反应就是按下Command+F,在文档里搜索“Engram”这个词——可惜,一无所获。
这种落差,让不少关注者甚至觉得,缺少了Engram的V4,似乎总有些不完整。
可以说,Engram的缺席,或许是DeepSeek-V4留给外界最大的一个悬念。
不过,故事并未就此终结。Engram并未消失,而是在随后的三个月里,以另一种方式延续着它的生命——三篇值得注意的后续研究论文接力出现:
- CXL内存池化版本: 将Engram嵌入多机共享的CXL内存池,旨在解决大模型分布式部署中的存储瓶颈。
- 无冲突热层实验: 对Engram的多头哈希机制进行了实证检验,结果证伪了一些看似直觉的优化方案。
- 视觉Tiny Engram: AutoArk团队成功将文本领域的Engram思想迁移至视觉模态,拓展了其应用边界。
所以,尽管V4最终没有集成Engram,但它的设计理念、探索路径以及后续的衍生应用,已然悄然铺开,为下一代模型的演进埋下了伏笔。
Engram到底是什么
让我们把时间拨回2026年1月12日。
那一天,DeepSeek与北京大学合作,发布了一篇长达33页的论文《Conditional Memory via Scalable Lookup》。论文的第一作者是Cheng Xin,一位曾署名DeepSeek-V3的北大博士生。而最后一位作者,则是梁文锋。
用一句话概括,Engram是一个为Transformer架构设计的原生知识查表模块。其核心思想很直接:能查的,就别费劲去算。
研究团队观察到一个关键问题:语言建模实际上混合了两种性质迥异的任务。一种是需要深度动态计算的组合式推理,另一种则是对静态知识的检索。
传统Transformer的症结在于,它将这两件事混杂在一起处理。当模型需要识别一个实体时,不得不消耗数层注意力机制和前馈网络的资源,逐层拼凑特征。
论文里举了个生动的例子:“Diana, Princess of Wales”(戴安娜王妃)。模型需要走过整整6层网络才能完成识别。前几层还在纠结“Wales是英国的一个地区”、“Princess of Wales是某种头衔”这些中间状态,直到最后一层才恍然大悟:哦,这是戴安娜王妃。
这种“用昂贵的运行时计算去重建一个静态查找表”的工作,本可以让位于更高级的推理任务。
对此,Engram的解决思路异常清晰:既然经典的N-gram模型就能以O(1)的时间复杂度捕获这类局部依赖,何不将这种能力直接嵌入Transformer?
打个比方,就像学生做数学题,该用的公式不必每次从头推导,直接查表代入即可。而之前的Transformer没有这张“表”,每道题都得从公理开始推演。Engram,就等于把这张公式表交到了模型手中。
具体实现上,Engram模块被插入到Transformer的第2层与第15层之间。每个位置的输入会触发一次哈希查找,将当前token与前几个token组成的N-gram映射到一个巨大的嵌入表中,直接取出对应的向量。
一个精巧的门控机制确保了查表内容的准确性:当检索到的内容与当前上下文不匹配时,该机制会自动屏蔽输出。例如,“张”是一个常见姓氏,但“张仲景”三个字组合在一起,就构成了一个固定的历史人物实体,门控机制负责识别这种细微差别。
Engram的定位,是区别于MoE(混合专家)的另一条稀疏化路径。MoE实现的是计算的稀疏化,只激活部分专家网络。而Engram实现的是存储的稀疏化,只查询部分记忆条目。两者互补,并行不悖。
论文中最核心的实验之一,是在固定总参数量和每token激活参数量的前提下,让MoE专家和Engram记忆模块“竞争”参数预算,结果得到了一条U形曲线。
实验表明,纯MoE架构并非最优解。当将大约20%-25%的稀疏参数分配给Engram时,模型的损失函数达到最低点。
依据这条曲线指导,团队将Engram扩展至270亿参数规模进行验证。模型激活参数为38亿,训练数据达2620亿tokens,与同规模的MoE-27B基线模型严格对齐。
结果令人印象深刻:知识密集型任务(如MMLU、CMMLU)的提升符合预期,但通用推理和代码数学任务(如BBH、ARC-Challenge、HumanEval、MATH)的提升超出了预期。尤其在长上下文场景下,效果更为显著,Multi-Query NIAH指标从84.2%跃升至97.0%。
那么,一个记忆模块为何能反过来提升推理能力?
LogitLens和CKA(中心核对齐)分析给出了答案:Engram-27B模型第5层的表征,与MoE基线模型第12层的表征最为相似。
这意味着,Engram将模型的早期层从“重建静态知识”这类繁重工作中解放了出来。这部分被释放的网络深度,得以转向处理更复杂的推理。因此,Engram不仅是新增了一块记忆,它实质上变相加深了网络的有效深度。
在工程实现上,论文展示了将一个拥有1000亿条目的Engram表完全放置在主机DRAM中,在H800 GPU上运行推理,对于一个80亿参数的稠密模型,吞吐损失仅为2.8%。
其秘诀在于Engram索引的确定性——它只取决于输入的token序列,完全可以提前计算。这使得CPU能够异步预取数据,与GPU的计算过程重叠进行。
可以说,这个模块天生就不依赖昂贵的HBM(高带宽内存)。只可惜,当V4到来时,Engram却未如期而至。
没在v4,但在其他地方
发明者暂时按下了暂停键,但探索之路并未中断。短短三个月内,至少出现了三项值得关注的后续工作。
把Engram塞进CXL内存池
3月10日,北京大学、阿里云、山东英信、中国人民大学、香港大学联合发表了一篇系统论文:《Pooling Engram Conditional Memory in Large Language Models using CXL》。
这项研究没有改动Engram本身,而是回答了一个更工程化的问题:如果Engram真的成为下一代模型的标配,它的“记忆”应该放在哪里?
答案是:CXL内存池。具体架构是,GPU的HBM存放计算权重,本地DRAM作为二级缓存,而CXL池则作为三级存储。实验搭建了8台服务器共享4TB内存池,通过XConn XC50256交换芯片构建拓扑,提供512GB/s的带宽。
整套系统集成进SGLang推理框架,并实现了预取与计算的重叠优化。最终测试显示,端到端的吞吐损失小于5%。这相当于将Engram原论文中那句“将1000亿嵌入表卸载到DRAM”的轻描淡写,落地成了针对270亿和400亿参数规模的真实测试。
结论很明确:Engram这种具有确定性寻址、可预取特性的负载,几乎是为CXL(Compute Express Link)技术量身定做的。
一个反直觉的实验
在Engram论文上线十一天后,1月23日,一位名叫Tao Lin的研究者(单作者)发布了《A Collision-Free Hot-Tier Extension for Engram-Style Conditional Memory》。
他想验证一个看上去“理所当然”的优化思路:Engram使用的多头哈希查表可能存在冲突,如果采用最小完美哈希函数为高频N-gram构建一个完全无冲突的“热层”,模型性能是否会更好?
他设计了“Engram-Nine”方案,将记忆分为无冲突的“热层”和保留多头哈希的“冷层”。
然而,结果却反直觉。在严格的等参数控制下,无冲突设计并未带来验证损失的稳定提升。进一步的路由分层评估还发现,训练初期高频路径的损失更低,但到了训练后期,低频路径的表现反而超过了高频路径。
一个看似显而易见的优化方向,被一次严谨的实验证伪了。
把Engram推到视觉 (AutoArk / TinyEngram)
GitHub上一个名为AutoArk的团队开发了“Tiny Engram”。
在基于Qwen-3完整复现了文本Engram之后,他们做了一件原论文未涉及的事:将Engram的思想迁移到Stable Diffusion这类视觉生成模型上。
视觉图像被分割成块(patch)并经过分层编码,底层捕捉纹理,中层捕捉部件,高层捕捉风格,然后将整套编码送入哈希查表。
与流行的LoRA微调方法相比,达到同等效果时,Engram所需的额外参数量仅为LoRA的15%到30%。更关键的是,当连续注入多个新概念时,LoRA会出现明显的概念退化现象,而Engram则表现稳定。
Engram最初是为文本模态设计的。AutoArk的工作相当于撞开了一扇新的大门:凡是能够离散化、能够哈希化的模态,Engram都有潜力迁移过去。
回顾这三个月,在Engram这条技术路径上,发明者最为沉默,而跟进者们各自迈出了坚实的一步:一个团队为它解决了多机内存层级问题,一位独立研究者证伪了一个直觉上的优化方案,一个开源团队则将它的应用拓展到了视觉领域。
而DeepSeek官方在GitHub上的engram仓库,其最后一次提交,依然停留在1月14日。
One more thing
Engram原论文的摘要结尾,有这样一句话:
我们认为条件记忆将是下一代稀疏模型不可或缺的建模原语。
看来,这个“下一代”的期待,或许要留给V5了。又或者,会不会是V4.1呢?
参考链接
[1]https://arxiv.org/pdf/2601.07372
[2]https://arxiv.org/pdf/2603.10087
[3]https://arxiv.org/pdf/2601.16531