高通新架构深度解析:让AI推理更高效省内存的智能方案

2026-05-18阅读 0热度 0
深度思考

这项由高通AI研究院(Qualcomm AI Research)主导的研究发表于2026年5月,论文编号为arXiv:2605.07721。

高通AI研究院让AI

研究背景:当AI推理能力提升遭遇内存瓶颈

当前AI大模型正从单次前馈推理,向具备多轮迭代、深度思考能力的“循环推理”演进。这种演进的核心代价,是内存消耗的急剧增长。高通AI研究院的团队精准定位了这一瓶颈,并提出了一种全新的架构——记忆高效循环Transformer(Memory-Efficient Looped Transformer,简称MELT)。其设计目标清晰:在维持甚至增强模型复杂推理能力的同时,将内存占用控制在恒定水平,与思考轮数无关。

一、循环Transformer的内存困境:能力与成本的线性增长

理解MELT,首先要剖析循环Transformer(Looped Transformer)的工作原理。与传统Transformer的固定层数前向传播不同,循环Transformer允许同一组网络层对中间表示进行多次迭代处理。这类似于让一位编辑反复审阅同一份稿件,通过深度加工而非增加人手来提升输出质量。代表性工作如Ouro(或称LoopLM)模型证实,通过这种“循环思考”,较小参数量模型的性能可以媲美甚至超越参数翻倍的普通模型。

然而,这种能力提升伴随着显著的内存开销。在自回归生成过程中,模型需要维护一个“KV缓存”(键值缓存)来存储历史token的键值对,以供后续的注意力计算参考。在标准模型中,每个token仅需存储一份KV缓存。但在循环模型中,同一token在每一轮循环中都会产生新的键值表示,导致其KV缓存大小与“序列长度×循环次数”成正比。例如,在生成32K token的序列时,Ouro模型需要约28GB内存,而同等规模的普通模型仅需约7GB。这种线性增长的内存需求,严重制约了循环模型在实际设备上的部署可行性。

二、MELT解决方案:基于动态更新的恒定内存缓存

高通团队提出的MELT架构,其核心创新在于将KV缓存从“追加”模式改为“覆盖更新”模式。类比而言,传统循环模型如同每思考一轮就新增一张笔记,而MELT则始终在同一张笔记上进行擦写和更新。

具体实现上,MELT为每一层网络维护一个可更新的“潜在状态”。在每一轮循环中,模型通过一个可学习的、元素级的门控机制,动态决定如何融合上一轮的潜在状态与当前轮产生的新状态。该门控值由当前输入和上一状态共同计算得出,范围为0到1,实现了对信息保留与更新的精细化控制。更新后的潜在状态,再通过可学习的投影矩阵转换为标准的键(K)和值(V),并覆盖写入对应token的缓存位置。

这一设计的根本优势在于,其KV缓存大小仅与序列长度成正比,而与循环次数完全无关。无论模型进行4次还是40次循环思考,其内存占用保持不变。

三、简单缓存复用策略的失效与MELT的必要性

在构思MELT之前,研究团队评估了多种直观的缓存复用方案,例如仅保留最后一轮循环的缓存,或对多轮缓存取平均。实验结果表明,这些简单策略在多个推理基准测试上均告完全失效(得分为零)。

分析显示,失败源于误差的“累积漂移”:在生成序列的起始部分,缓存替换的影响尚不明显;但随着生成位置远离初始提示,错误会不断累积放大,最终导致输出崩溃为无意义的重复。这证明,有效的循环推理不能依赖于静态的缓存共享规则,而必须通过训练让模型学会如何动态、智能地整合多轮信息。这正是MELT门控机制的核心价值。

四、两阶段训练策略:实现从Ouro到MELT的平稳迁移

MELT的架构改动是根本性的。为了高效地将预训练好的Ouro模型知识迁移至新架构,团队设计了一套两阶段训练流程。

第一阶段:分块训练与插值过渡

由于MELT的潜在状态更新存在序列依赖,无法进行完全并行的训练。为此,团队采用了“分块训练”策略:将长序列切分为多个块(如500个token),块内并行计算,块间则顺序传递状态。这平衡了训练效率与推理一致性。

同时,为了缓解架构突变带来的训练不稳定,引入了“插值过渡”机制:在训练初期,同时计算Ouro式缓存和MELT式缓存,并将两者的加权混合作为实际使用的缓存。混合系数α在500个训练步内从0线性增长至1,从而实现从旧行为到新行为的平滑过渡。此阶段还辅以密集的“知识蒸馏”,让MELT每一步的输出都模仿原始Ouro教师的输出,加速收敛。

第二阶段:注意力对齐蒸馏

当完全切换至MELT架构后,为防止模型性能从教师网络“漂移”,第二阶段引入了“注意力对齐蒸馏”。具体而言,将冻结的Ouro模型作为固定教师,要求MELT每一层、每一循环步骤产生的中间表示,都尽可能贴近教师模型在对应位置产生的表示。这一对齐损失与知识蒸馏损失共同优化,确保了MELT在继承Ouro强大推理能力的同时,稳定适应新架构。

整个训练过程共消耗约2.56亿token数据,在8块H100 GPU上运行了约130小时。

五、性能与内存评估:在效率与能力间取得平衡

研究团队对MELT-1.6B模型进行了全面评估,对比对象包括其前身Ouro-1.4B,以及多个同等规模的普通非循环模型(如Qwen3-1.7B、Gemma4-E2B等)。评测涵盖数学推理(AIME、MATH等)和通用推理(MMLU、HumanEval等)共10个基准。

内存效率:MELT展现出显著优势。在生成32K token序列时,Ouro的KV缓存占用约25GB,总内存近28GB;而MELT的KV缓存仅约6.3GB,总内存约9.5GB,降低了约2.95倍。虽然仍比采用了多查询注意力(MQA)的Qwen3-1.7B(约7.1GB)略高,但已进入同一量级。

推理性能:与Ouro相比,MELT在数学推理综合平均分上略低约2.4分(59.9 vs 62.3),但在通用推理和代码生成(如HumanEval)上表现更优。更重要的是,与所有参数量相近的普通非循环模型相比,MELT在数学和通用推理上的得分均全面领先,证明了其在相近内存预算下提供了更强的推理能力。

六、门控机制的关键作用:消融实验验证

为了验证元素级门控机制的必要性,团队进行了消融实验,对比了均值融合、固定比例EMA、仅用最后一轮缓存及标量门控等简化方案。实验结果显示,所有简化方案在关键测试(如AIME24)上的性能均显著落后于完整MELT,差距达10至16个百分点。这证实了让模型独立学习每个维度的信息更新策略,对于维持高性能循环推理至关重要。

七、训练组件的不可或缺性:逐步拆解分析

进一步地,团队通过逐步移除训练流程中的关键组件来评估其贡献。从完整的MELT开始,依次移除第二阶段的注意力对齐蒸馏、第一阶段的插值过渡、对循环步骤的知识蒸馏,最后尝试完全并行的监督微调(SFT)。

结果是递进式的性能下降:移除注意力对齐蒸馏导致性能明显下滑;进一步移除插值过渡则造成大幅衰退;若再移除知识蒸馏,性能继续恶化;而一旦取消分块训练、采用完全并行的SFT,模型在所有测试上的得分直接归零,完全失效。这清晰地表明,分块训练、知识蒸馏、插值过渡和注意力对齐蒸馏共同构成了MELT成功训练的必要支柱。

八、当前局限与未来演进方向

MELT目前仍存在一些局限,部分继承自Ouro,部分是其新架构带来的挑战:

1. 固定循环深度:当前推理采用固定的4次循环,未能根据问题复杂度动态调整。但MELT的恒定内存特性为未来实现“自适应循环深度”提供了理想基础。

2. 未集成MQA:多查询注意力(MQA)能进一步压缩缓存。集成MQA是缩小MELT与最优普通模型间内存差距的明确方向。

3. 训练并行性受限:序列依赖导致训练无法完全并行,分块训练是当前折中方案。开发更高效的并行化策略是未来的工程重点。

此外,团队在复现Ouro时发现其论文中部分实现细节模糊,且其宣称的“早退出”机制在实际代码中并未有效工作。而MELT的常数内存设计,理论上为实现真正的、不破坏一致性的早退出机制扫清了障碍。

总结与展望

MELT的核心贡献在于,它通过将KV缓存从线性增长重构为恒定大小,从根本上解决了循环Transformer的内存扩展问题。这项研究仅通过引入不足3亿的门控参数、约2.56亿token的增量训练,便成功将Ouro的循环推理能力迁移至一个内存友好的新架构中,并在多项基准上超越了同等规模的普通模型。

其意义是双重的:对于终端应用,这意味着未来在手机、边缘设备等内存受限场景中部署具备深度思考能力的AI成为可能;对于研究社区,MELT展示了一条通过精心设计的迁移训练策略,对现有强大模型进行轻量级架构升级的高效路径,其方法论本身具有独立的参考价值。

完整的技术细节、数学推导及实验参数,可查阅论文arXiv:2605.07721。

Q&A

Q1:MELT和普通大语言模型相比,推理能力强在哪里?

A:MELT基于循环Transformer架构,允许模型对信息进行多轮迭代处理,从而深化推理。实验数据表明,参数量为1.6B的MELT在数学推理综合得分上达到59.9,超越了参数量相近的Qwen3-1.7B(56.9)、Gemma4-E2B(56.0)等普通模型。同时,其总内存占用约9.5GB,与这些普通模型(7~9GB)处于同一量级,远低于其前身循环模型Ouro的28GB。

Q2:MELT的门控机制具体是怎么工作的?

A:门控机制是一个可学习的、元素级的混合控制器。在每一轮循环中,模型根据当前输入和上一轮的状态,为潜在状态的每一个维度独立计算一个介于0和1之间的门控值。新状态的计算公式为:新状态 = 门控值 × 旧状态 + (1 - 门控值) × 新输入。通过训练,模型学会针对不同类型的信息动态调整保留与更新的比例,这比采用固定规则的混合策略(如指数移动平均)效果更优。

Q3:MELT训练为什么必须用分块训练,直接并行不行吗?

A:由于MELT架构中,第N+1个token的潜在状态更新依赖于第N个token处理完成后的状态,存在严格的序列依赖,因此无法像普通Transformer那样进行完全并行的训练。强行采用完全并行训练(即忽略这种依赖)的实验结果导致模型完全失效,测试得分为零。分块训练通过在块内进行并行计算、在块间顺序传递状态,在保证训练可行性的同时,最大程度地逼近了真实推理时的行为。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策