DeepSeek V4最大的遗憾

2026-05-06阅读 0热度 0

其他

henry 发自凹非寺

量子位 | 公众号 QbitAI

翻开DeepSeek-V4的技术报告，mHC、CSA、HCA、Muon、FP4……这些技术名词一个不少。

唯独缺了那个名字：Engram。

它去哪儿了？

这个话题，一度成了技术社区里的小热点。毕竟，Engram在今年1月由DeepSeek和北京大学联合开源时，主打的就是解决大模型的记忆与效率难题。自打论文挂上arXiv，围绕它的讨论就没停过。

大家期待它，不仅仅因为它是V4的技术前奏，更在于它的核心承诺：像“伦敦是英国首都”这类事实性知识，模型不必再动用整个深层网络去费力推导，直接查询即可。

这不仅能节省宝贵的显存，更能将深层网络的算力容量释放出来，专注于更高阶的推理任务。

正因如此，自一月初论文发表以来，业界几乎形成了一种共识：Engram将成为V4的架构基石。所有人都在等待它的登场。

以至于V4论文发布后，许多人的第一反应就是按下Command+F，在文档里搜索“Engram”这个词——可惜，一无所获。

这种落差，让不少关注者甚至觉得，缺少了Engram的V4，似乎总有些不完整。

可以说，Engram的缺席，或许是DeepSeek-V4留给外界最大的一个悬念。

不过，故事并未就此终结。Engram并未消失，而是在随后的三个月里，以另一种方式延续着它的生命——三篇值得注意的后续研究论文接力出现：

CXL内存池化版本： 将Engram嵌入多机共享的CXL内存池，旨在解决大模型分布式部署中的存储瓶颈。
无冲突热层实验： 对Engram的多头哈希机制进行了实证检验，结果证伪了一些看似直觉的优化方案。
视觉Tiny Engram： AutoArk团队成功将文本领域的Engram思想迁移至视觉模态，拓展了其应用边界。

所以，尽管V4最终没有集成Engram，但它的设计理念、探索路径以及后续的衍生应用，已然悄然铺开，为下一代模型的演进埋下了伏笔。

Engram到底是什么

让我们把时间拨回2026年1月12日。

那一天，DeepSeek与北京大学合作，发布了一篇长达33页的论文《Conditional Memory via Scalable Lookup》。论文的第一作者是Cheng Xin，一位曾署名DeepSeek-V3的北大博士生。而最后一位作者，则是梁文锋。

用一句话概括，Engram是一个为Transformer架构设计的原生知识查表模块。其核心思想很直接：能查的，就别费劲去算。

研究团队观察到一个关键问题：语言建模实际上混合了两种性质迥异的任务。一种是需要深度动态计算的组合式推理，另一种则是对静态知识的检索。

传统Transformer的症结在于，它将这两件事混杂在一起处理。当模型需要识别一个实体时，不得不消耗数层注意力机制和前馈网络的资源，逐层拼凑特征。

论文里举了个生动的例子：“Diana, Princess of Wales”（戴安娜王妃）。模型需要走过整整6层网络才能完成识别。前几层还在纠结“Wales是英国的一个地区”、“Princess of Wales是某种头衔”这些中间状态，直到最后一层才恍然大悟：哦，这是戴安娜王妃。

这种“用昂贵的运行时计算去重建一个静态查找表”的工作，本可以让位于更高级的推理任务。

对此，Engram的解决思路异常清晰：既然经典的N-gram模型就能以O(1)的时间复杂度捕获这类局部依赖，何不将这种能力直接嵌入Transformer？

打个比方，就像学生做数学题，该用的公式不必每次从头推导，直接查表代入即可。而之前的Transformer没有这张“表”，每道题都得从公理开始推演。Engram，就等于把这张公式表交到了模型手中。

具体实现上，Engram模块被插入到Transformer的第2层与第15层之间。每个位置的输入会触发一次哈希查找，将当前token与前几个token组成的N-gram映射到一个巨大的嵌入表中，直接取出对应的向量。

一个精巧的门控机制确保了查表内容的准确性：当检索到的内容与当前上下文不匹配时，该机制会自动屏蔽输出。例如，“张”是一个常见姓氏，但“张仲景”三个字组合在一起，就构成了一个固定的历史人物实体，门控机制负责识别这种细微差别。

Engram的定位，是区别于MoE（混合专家）的另一条稀疏化路径。MoE实现的是计算的稀疏化，只激活部分专家网络。而Engram实现的是存储的稀疏化，只查询部分记忆条目。两者互补，并行不悖。

论文中最核心的实验之一，是在固定总参数量和每token激活参数量的前提下，让MoE专家和Engram记忆模块“竞争”参数预算，结果得到了一条U形曲线。

实验表明，纯MoE架构并非最优解。当将大约20%-25%的稀疏参数分配给Engram时，模型的损失函数达到最低点。

依据这条曲线指导，团队将Engram扩展至270亿参数规模进行验证。模型激活参数为38亿，训练数据达2620亿tokens，与同规模的MoE-27B基线模型严格对齐。

结果令人印象深刻：知识密集型任务（如MMLU、CMMLU）的提升符合预期，但通用推理和代码数学任务（如BBH、ARC-Challenge、HumanEval、MATH）的提升超出了预期。尤其在长上下文场景下，效果更为显著，Multi-Query NIAH指标从84.2%跃升至97.0%。

那么，一个记忆模块为何能反过来提升推理能力？

LogitLens和CKA（中心核对齐）分析给出了答案：Engram-27B模型第5层的表征，与MoE基线模型第12层的表征最为相似。

这意味着，Engram将模型的早期层从“重建静态知识”这类繁重工作中解放了出来。这部分被释放的网络深度，得以转向处理更复杂的推理。因此，Engram不仅是新增了一块记忆，它实质上变相加深了网络的有效深度。

在工程实现上，论文展示了将一个拥有1000亿条目的Engram表完全放置在主机DRAM中，在H800 GPU上运行推理，对于一个80亿参数的稠密模型，吞吐损失仅为2.8%。

其秘诀在于Engram索引的确定性——它只取决于输入的token序列，完全可以提前计算。这使得CPU能够异步预取数据，与GPU的计算过程重叠进行。

可以说，这个模块天生就不依赖昂贵的HBM（高带宽内存）。只可惜，当V4到来时，Engram却未如期而至。

没在v4，但在其他地方

发明者暂时按下了暂停键，但探索之路并未中断。短短三个月内，至少出现了三项值得关注的后续工作。

把Engram塞进CXL内存池

3月10日，北京大学、阿里云、山东英信、中国人民大学、香港大学联合发表了一篇系统论文：《Pooling Engram Conditional Memory in Large Language Models using CXL》。

这项研究没有改动Engram本身，而是回答了一个更工程化的问题：如果Engram真的成为下一代模型的标配，它的“记忆”应该放在哪里？

答案是：CXL内存池。具体架构是，GPU的HBM存放计算权重，本地DRAM作为二级缓存，而CXL池则作为三级存储。实验搭建了8台服务器共享4TB内存池，通过XConn XC50256交换芯片构建拓扑，提供512GB/s的带宽。

整套系统集成进SGLang推理框架，并实现了预取与计算的重叠优化。最终测试显示，端到端的吞吐损失小于5%。这相当于将Engram原论文中那句“将1000亿嵌入表卸载到DRAM”的轻描淡写，落地成了针对270亿和400亿参数规模的真实测试。

结论很明确：Engram这种具有确定性寻址、可预取特性的负载，几乎是为CXL（Compute Express Link）技术量身定做的。

一个反直觉的实验

在Engram论文上线十一天后，1月23日，一位名叫Tao Lin的研究者（单作者）发布了《A Collision-Free Hot-Tier Extension for Engram-Style Conditional Memory》。

他想验证一个看上去“理所当然”的优化思路：Engram使用的多头哈希查表可能存在冲突，如果采用最小完美哈希函数为高频N-gram构建一个完全无冲突的“热层”，模型性能是否会更好？

他设计了“Engram-Nine”方案，将记忆分为无冲突的“热层”和保留多头哈希的“冷层”。

然而，结果却反直觉。在严格的等参数控制下，无冲突设计并未带来验证损失的稳定提升。进一步的路由分层评估还发现，训练初期高频路径的损失更低，但到了训练后期，低频路径的表现反而超过了高频路径。

一个看似显而易见的优化方向，被一次严谨的实验证伪了。

把Engram推到视觉 (AutoArk / TinyEngram)

GitHub上一个名为AutoArk的团队开发了“Tiny Engram”。

在基于Qwen-3完整复现了文本Engram之后，他们做了一件原论文未涉及的事：将Engram的思想迁移到Stable Diffusion这类视觉生成模型上。

视觉图像被分割成块（patch）并经过分层编码，底层捕捉纹理，中层捕捉部件，高层捕捉风格，然后将整套编码送入哈希查表。

与流行的LoRA微调方法相比，达到同等效果时，Engram所需的额外参数量仅为LoRA的15%到30%。更关键的是，当连续注入多个新概念时，LoRA会出现明显的概念退化现象，而Engram则表现稳定。

Engram最初是为文本模态设计的。AutoArk的工作相当于撞开了一扇新的大门：凡是能够离散化、能够哈希化的模态，Engram都有潜力迁移过去。

回顾这三个月，在Engram这条技术路径上，发明者最为沉默，而跟进者们各自迈出了坚实的一步：一个团队为它解决了多机内存层级问题，一位独立研究者证伪了一个直觉上的优化方案，一个开源团队则将它的应用拓展到了视觉领域。

而DeepSeek官方在GitHub上的engram仓库，其最后一次提交，依然停留在1月14日。

One more thing

Engram原论文的摘要结尾，有这样一句话：

我们认为条件记忆将是下一代稀疏模型不可或缺的建模原语。

看来，这个“下一代”的期待，或许要留给V5了。又或者，会不会是V4.1呢？

参考链接

[1]https://arxiv.org/pdf/2601.07372

[2]https://arxiv.org/pdf/2603.10087

[3]https://arxiv.org/pdf/2601.16531