高通新架构深度解析：让AI推理更高效省内存的智能方案

2026-05-18阅读 0热度 0

深度思考

这项由高通AI研究院（Qualcomm AI Research）主导的研究发表于2026年5月，论文编号为arXiv:2605.07721。

研究背景：当AI推理能力提升遭遇内存瓶颈

当前AI大模型正从单次前馈推理，向具备多轮迭代、深度思考能力的“循环推理”演进。这种演进的核心代价，是内存消耗的急剧增长。高通AI研究院的团队精准定位了这一瓶颈，并提出了一种全新的架构——记忆高效循环Transformer（Memory-Efficient Looped Transformer，简称MELT）。其设计目标清晰：在维持甚至增强模型复杂推理能力的同时，将内存占用控制在恒定水平，与思考轮数无关。

一、循环Transformer的内存困境：能力与成本的线性增长

理解MELT，首先要剖析循环Transformer（Looped Transformer）的工作原理。与传统Transformer的固定层数前向传播不同，循环Transformer允许同一组网络层对中间表示进行多次迭代处理。这类似于让一位编辑反复审阅同一份稿件，通过深度加工而非增加人手来提升输出质量。代表性工作如Ouro（或称LoopLM）模型证实，通过这种“循环思考”，较小参数量模型的性能可以媲美甚至超越参数翻倍的普通模型。

然而，这种能力提升伴随着显著的内存开销。在自回归生成过程中，模型需要维护一个“KV缓存”（键值缓存）来存储历史token的键值对，以供后续的注意力计算参考。在标准模型中，每个token仅需存储一份KV缓存。但在循环模型中，同一token在每一轮循环中都会产生新的键值表示，导致其KV缓存大小与“序列长度×循环次数”成正比。例如，在生成32K token的序列时，Ouro模型需要约28GB内存，而同等规模的普通模型仅需约7GB。这种线性增长的内存需求，严重制约了循环模型在实际设备上的部署可行性。

二、MELT解决方案：基于动态更新的恒定内存缓存

高通团队提出的MELT架构，其核心创新在于将KV缓存从“追加”模式改为“覆盖更新”模式。类比而言，传统循环模型如同每思考一轮就新增一张笔记，而MELT则始终在同一张笔记上进行擦写和更新。

具体实现上，MELT为每一层网络维护一个可更新的“潜在状态”。在每一轮循环中，模型通过一个可学习的、元素级的门控机制，动态决定如何融合上一轮的潜在状态与当前轮产生的新状态。该门控值由当前输入和上一状态共同计算得出，范围为0到1，实现了对信息保留与更新的精细化控制。更新后的潜在状态，再通过可学习的投影矩阵转换为标准的键（K）和值（V），并覆盖写入对应token的缓存位置。

这一设计的根本优势在于，其KV缓存大小仅与序列长度成正比，而与循环次数完全无关。无论模型进行4次还是40次循环思考，其内存占用保持不变。

三、简单缓存复用策略的失效与MELT的必要性

在构思MELT之前，研究团队评估了多种直观的缓存复用方案，例如仅保留最后一轮循环的缓存，或对多轮缓存取平均。实验结果表明，这些简单策略在多个推理基准测试上均告完全失效（得分为零）。

分析显示，失败源于误差的“累积漂移”：在生成序列的起始部分，缓存替换的影响尚不明显；但随着生成位置远离初始提示，错误会不断累积放大，最终导致输出崩溃为无意义的重复。这证明，有效的循环推理不能依赖于静态的缓存共享规则，而必须通过训练让模型学会如何动态、智能地整合多轮信息。这正是MELT门控机制的核心价值。

四、两阶段训练策略：实现从Ouro到MELT的平稳迁移

MELT的架构改动是根本性的。为了高效地将预训练好的Ouro模型知识迁移至新架构，团队设计了一套两阶段训练流程。

第一阶段：分块训练与插值过渡

由于MELT的潜在状态更新存在序列依赖，无法进行完全并行的训练。为此，团队采用了“分块训练”策略：将长序列切分为多个块（如500个token），块内并行计算，块间则顺序传递状态。这平衡了训练效率与推理一致性。

同时，为了缓解架构突变带来的训练不稳定，引入了“插值过渡”机制：在训练初期，同时计算Ouro式缓存和MELT式缓存，并将两者的加权混合作为实际使用的缓存。混合系数α在500个训练步内从0线性增长至1，从而实现从旧行为到新行为的平滑过渡。此阶段还辅以密集的“知识蒸馏”，让MELT每一步的输出都模仿原始Ouro教师的输出，加速收敛。

第二阶段：注意力对齐蒸馏

当完全切换至MELT架构后，为防止模型性能从教师网络“漂移”，第二阶段引入了“注意力对齐蒸馏”。具体而言，将冻结的Ouro模型作为固定教师，要求MELT每一层、每一循环步骤产生的中间表示，都尽可能贴近教师模型在对应位置产生的表示。这一对齐损失与知识蒸馏损失共同优化，确保了MELT在继承Ouro强大推理能力的同时，稳定适应新架构。

整个训练过程共消耗约2.56亿token数据，在8块H100 GPU上运行了约130小时。

五、性能与内存评估：在效率与能力间取得平衡

研究团队对MELT-1.6B模型进行了全面评估，对比对象包括其前身Ouro-1.4B，以及多个同等规模的普通非循环模型（如Qwen3-1.7B、Gemma4-E2B等）。评测涵盖数学推理（AIME、MATH等）和通用推理（MMLU、HumanEval等）共10个基准。

内存效率：MELT展现出显著优势。在生成32K token序列时，Ouro的KV缓存占用约25GB，总内存近28GB；而MELT的KV缓存仅约6.3GB，总内存约9.5GB，降低了约2.95倍。虽然仍比采用了多查询注意力（MQA）的Qwen3-1.7B（约7.1GB）略高，但已进入同一量级。

推理性能：与Ouro相比，MELT在数学推理综合平均分上略低约2.4分（59.9 vs 62.3），但在通用推理和代码生成（如HumanEval）上表现更优。更重要的是，与所有参数量相近的普通非循环模型相比，MELT在数学和通用推理上的得分均全面领先，证明了其在相近内存预算下提供了更强的推理能力。

六、门控机制的关键作用：消融实验验证

为了验证元素级门控机制的必要性，团队进行了消融实验，对比了均值融合、固定比例EMA、仅用最后一轮缓存及标量门控等简化方案。实验结果显示，所有简化方案在关键测试（如AIME24）上的性能均显著落后于完整MELT，差距达10至16个百分点。这证实了让模型独立学习每个维度的信息更新策略，对于维持高性能循环推理至关重要。

七、训练组件的不可或缺性：逐步拆解分析

进一步地，团队通过逐步移除训练流程中的关键组件来评估其贡献。从完整的MELT开始，依次移除第二阶段的注意力对齐蒸馏、第一阶段的插值过渡、对循环步骤的知识蒸馏，最后尝试完全并行的监督微调（SFT）。

结果是递进式的性能下降：移除注意力对齐蒸馏导致性能明显下滑；进一步移除插值过渡则造成大幅衰退；若再移除知识蒸馏，性能继续恶化；而一旦取消分块训练、采用完全并行的SFT，模型在所有测试上的得分直接归零，完全失效。这清晰地表明，分块训练、知识蒸馏、插值过渡和注意力对齐蒸馏共同构成了MELT成功训练的必要支柱。

八、当前局限与未来演进方向

MELT目前仍存在一些局限，部分继承自Ouro，部分是其新架构带来的挑战：

1. 固定循环深度：当前推理采用固定的4次循环，未能根据问题复杂度动态调整。但MELT的恒定内存特性为未来实现“自适应循环深度”提供了理想基础。

2. 未集成MQA：多查询注意力（MQA）能进一步压缩缓存。集成MQA是缩小MELT与最优普通模型间内存差距的明确方向。

3. 训练并行性受限：序列依赖导致训练无法完全并行，分块训练是当前折中方案。开发更高效的并行化策略是未来的工程重点。

此外，团队在复现Ouro时发现其论文中部分实现细节模糊，且其宣称的“早退出”机制在实际代码中并未有效工作。而MELT的常数内存设计，理论上为实现真正的、不破坏一致性的早退出机制扫清了障碍。

总结与展望

MELT的核心贡献在于，它通过将KV缓存从线性增长重构为恒定大小，从根本上解决了循环Transformer的内存扩展问题。这项研究仅通过引入不足3亿的门控参数、约2.56亿token的增量训练，便成功将Ouro的循环推理能力迁移至一个内存友好的新架构中，并在多项基准上超越了同等规模的普通模型。

其意义是双重的：对于终端应用，这意味着未来在手机、边缘设备等内存受限场景中部署具备深度思考能力的AI成为可能；对于研究社区，MELT展示了一条通过精心设计的迁移训练策略，对现有强大模型进行轻量级架构升级的高效路径，其方法论本身具有独立的参考价值。

完整的技术细节、数学推导及实验参数，可查阅论文arXiv:2605.07721。

Q&A

Q1：MELT和普通大语言模型相比，推理能力强在哪里？

A：MELT基于循环Transformer架构，允许模型对信息进行多轮迭代处理，从而深化推理。实验数据表明，参数量为1.6B的MELT在数学推理综合得分上达到59.9，超越了参数量相近的Qwen3-1.7B（56.9）、Gemma4-E2B（56.0）等普通模型。同时，其总内存占用约9.5GB，与这些普通模型（7~9GB）处于同一量级，远低于其前身循环模型Ouro的28GB。

Q2：MELT的门控机制具体是怎么工作的？

A：门控机制是一个可学习的、元素级的混合控制器。在每一轮循环中，模型根据当前输入和上一轮的状态，为潜在状态的每一个维度独立计算一个介于0和1之间的门控值。新状态的计算公式为：新状态 = 门控值 × 旧状态 + (1 - 门控值) × 新输入。通过训练，模型学会针对不同类型的信息动态调整保留与更新的比例，这比采用固定规则的混合策略（如指数移动平均）效果更优。

Q3：MELT训练为什么必须用分块训练，直接并行不行吗？

A：由于MELT架构中，第N+1个token的潜在状态更新依赖于第N个token处理完成后的状态，存在严格的序列依赖，因此无法像普通Transformer那样进行完全并行的训练。强行采用完全并行训练（即忽略这种依赖）的实验结果导致模型完全失效，测试得分为零。分块训练通过在块内进行并行计算、在块间顺序传递状态，在保证训练可行性的同时，最大程度地逼近了真实推理时的行为。