阿里RTPurboV2 Transformer 稀疏注意性能测评
Full Attention 机制正逐步淡出主流视野。
Agent 规模化落地推动长序列推理需求暴涨,传统 GPT 架构中 O(N²) 复杂度的 Attention 模块首当其冲,成为多数方案加速替换的核心瓶颈。Attention 架构迭代速度前所未有。业界主流路线分为两派:一是 Linear Attention,代表模型 Qwen-Next 和 Kimi-K2,通过改进线性注意力压缩信息,存储成本降至 O(1)、计算成本降至 O(N);二是 Sparse Attention,以稀疏化手段优化计算,实践中稀疏度常达 90% 以上,DeepSeek-V4 即采用此方案。
早前的 RTPurbo 工作已证明:Full Attention 与 Sliding Window Attention(SWA)混合使用,可在精度无损前提下将 85% 的注意力头替换为 SWA,形成 15% Full + 85% SWA 的架构,实现 5 倍 KV 和 Attention 压缩。巧合的是,近期 MIMO、Gemma 4、GPT-OSS 等开源架构也采纳了 SWA + Full Attention 设计,颇有回归简化的趋势。
但问题并未根治:替换 85% 后,剩余 15% 的 Full Attention 在超长序列(如 1M token)中依然构成性能瓶颈。为彻底突破这一限制,阿里巴巴 RTP 团队发布第二代 Attention 压缩方案 RTPurboV2。融合 Headwise 压缩、低秩投影压缩与聚类技术,RTPurboV2 在 V1 基础上将 Full Attention 部分再压缩 16~32 倍计算量。
图1:RTPurboV2 性能表现
RTPurboV2:全面极致 Full Attention 压缩方案
图2:RTPurboV2 总体架构
Full Attention 模型在预训练中自发形成了高度稀疏的注意力结构。团队的核心工作并非强行施加稀疏性,而是将其释放出来。这一判断基于四项可量化的关键观测。
发现一:85% 的注意力头天然适配滑动窗口
研究发现,Full Attention 模型中各 Attention Head 分工明确。部分 Head 专注捕捉局部信息(如相邻 token 关联),其余则负责长距离语义依赖。
图3:Retrieval Heads 关注与当前 query token 语义相关的远距离区域,与大多数仅关注局部的 Head 形成对比
具体而言,对 Qwen3 系列模型的可视化发现:约 15% 的 Head 呈现明显的召回头特征——注意力分布极度稀疏,仅关注少数关键 token,负责远距离信息召回;剩余 85% 为流式头——注意力分布相对均匀,聚焦局部上下文。这一分工模式在多种输入和序列长度下高度稳定,属于模型预训练中自发习得的内在结构。推论:85% 的 Full Attention 计算可安全替换为 SWA(参照 RTPurbo),几乎不影响模型能力。真正亟待解决的是那 15% 召回头的高效计算。
发现二:长程检索由低维子空间主导
召回头需要在整个序列中进行语义匹配,表面上仍是 O(N²) 问题。RTPurboV2 的一项关键升级在于深入理解召回头与 RoPE。分析 RoPE 频率结构后,团队发现召回头中存在显著的维度冗余。RoPE 下,Query-Key 注意力得分可分解为多种频率分量的叠加:
其中 △ = m - n 表示位置偏移。不同频率分量作用本质不同:低频分量(θ_i 小)随偏移缓慢变化,携带 token 间的语义相关性;高频分量(θ_i 大)随偏移快速振荡,引入距离敏感干扰。长程检索中,高频分量导致注意力得分剧烈波动,破坏语义信号稳定性。召回任务本身要求:一个 token 的召回强度不应随相对位置快速变化。因此可推断,召回头必定压制高频分量,仅利用低频分量。
图4:RoPE 高频分量随位置快速旋转,干扰长程检索
由此诞生了一个自然设计:训练低维投影器,通过低秩映射将特征维度从 D 压缩至 r=16(r ≪ D),系统保留低频语义、滤除高频噪声。实验表明,仅需 16 维即可实现 90%+ 的 token 召回率。
发现三:序列维度冗余——基于高质量特征的自适应聚类
这是 RTPurboV2 的另一核心技术升级。团队意识到,低秩投影的增益远不止降低计算量——它从根本上优化了 Key 向量在语义空间的分布质量。滤除高频噪声后,语义相似的 token 在低秩空间中自然聚拢,无关 token 彼此远离,为序列维度压缩创造了理想条件。基于此,RTPurboV2 引入自适应聚类,构建两级漏斗式计算流程:
1. 粗粒度匹配:将 N 个 token 聚成 K 个语义簇(例如 K=128),Query 与 K 个簇中心进行轻量级匹配,复杂度 O(N·K)
2. 细粒度计算:只在命中的簇内执行完整 Attention 计算
两阶段串联后,整体复杂度从 O(N²) 跃迁至 O(N·K):
两步压缩之间存在显著协同增益:特征维度压缩降低单步计算开销并产出高质量聚类输入;序列维度压缩(聚类)跳过大量无关 token,减少总计算步数。二者产生乘法效应:压缩比越激进,协同增益越突出。
发现四:动态 top-p 显著优于固定 top-k
传统稀疏注意力通常采用固定 top-k 策略,即每个 query 只保留注意力得分最高的 k 个 token。但根本问题在于:不同 attention head、序列长度和 query 所需的上下文 token 数量差异悬殊。以同一层三个召回头为例,64K 上下文下覆盖 90% 注意力质量所需的 token 数:
表1:不同 Attention Head 在不同序列长度下 top_p=0.9 时召回的 Token 数量
三个数量级差异表明不存在能覆盖所有场景的固定 k 值。因此 RTPurboV2 采用动态 top-p 策略:对每个 query,保留累积注意力得分达到 p(如 0.9)的 token 集合。集中型 query 自动缩减预算,分散型 query 自动扩大覆盖。同时团队设计无排序 top-p 解码核——通过 256-bin 直方图替代
的排序操作,将评分与筛选合并为单次 kernel launch,内存开销降至 O(1)。
两阶段微调训练:百步实现稀疏化适配
整合四项发现,RTPurboV2 推理架构自然成形:流式头(85%)→ SWA(窗口 8192);召回头(15%)→ 低秩投影 + 聚类索引 + 动态 top-p。模型适配该稀疏化架构仅需约 600 步训练(约 1M label tokens)。具体分为两阶段:
阶段 1——投影对齐:冻结模型主体,仅训练各召回头的低秩投影矩阵
,最小化投影注意力分布与原始分布之间的 KL 散度:
阶段 2——端到端自蒸馏:启用稀疏模式,稀疏模型学习原始稠密模型的 next-token 预测分布。在数十万亿 token 的预训练规模下,1M token 占比微乎其微。这从另一角度验证了核心论断:Full Attention 的稀疏性内生于模型,微调仅是将隐式结构转化为显式。
实验结果与性能评估
为全面验证 RTPurboV2 效果,团队在 Qwen3-Coder-30B-A3B 与 Qwen3.5-35B-A3B 两款模型上,针对长文本核心基准展开系统性评估。
1. Ruler 基准测试:长程检索精度突破
在 Qwen3-Coder-30B-A3B 上,离线校准识别出约 15% 的关键召回头。Prefill 阶段对这些 Head 采用 Full Attention 配合 K Cache 聚类,Decode 阶段应用 RTPurboV2 稀疏化;其余流式头统一使用 SWA(局部窗口 8192)。如图 3 所示,RTPurboV2 在 32K 和 64K 序列长度下均取得最优平均分(89.69 和 85.61),显著优于除 Full Attention 外的所有基线,证实了其长程信息召回精度。
图5:Ruler 评测结果
2. LongBenchV2 基准测试:高召回比例下的无损压缩
针对 Qwen3.5-35B-A3B,校准显示超过 70% 的 Head 具有召回特性,因此采取全量稀疏化策略。实验结果(图 4)表明,RTPurboV2 大幅降低计算开销的同时完整保留模型基础能力,精度与 Full Attention 持平。
图6:LongBenchV2 评测结果
3. CoT 推理任务:复杂逻辑稳定支撑
链式思维(CoT)推理任务中,RTPurboV2 同样表现出色(图 5),实现模型推理能力近乎无损保留,进一步验证了方案在复杂逻辑场景下的鲁棒性。
图7:CoT 任务评测结果
更大图景
当前注意力机制研究大量集中于设计全新高效架构,这条路径有其价值。但 RTPurboV2 揭示了一个易被忽视的事实:Full Attention 模型自身蕴含巨大效率空间,且释放这种内生稀疏性的成本极低。600 步训练,精度几乎无损,Prefill 最高 9.36 倍加速。这意味着,对于采用 SWA + Full Attention 混合架构的团队(如 MIMO、Gemma 4、GPT-OSS),无需替换架构即可获得接近 SOTA 新方案的压缩效率。
“原生 Transformer 从未过时,Full Attention 强势回归。”
团队介绍
RTP-LLM 是阿里巴巴智能引擎团队自主研发的高性能大模型推理引擎,支撑淘宝、天猫、高德等核心业务的大模型推理需求。智能引擎起源于阿里搜索、推荐与广告技术,是阿里 AI 工程领域的先行者与深耕者。团队专注 AI 工程系统建设,主导构建了大数据 AI 工程体系 AI・OS,持续为阿里各业务提供高质量 AI 工程服务。
参考文献:
[1]: 只需 15% 全量 Attention!「RTPurbo」阿里 Qwen3 长文本推理 5 倍压缩方案:https://mp.weixin.qq.com/s/wFAJ6oG1CsKBJiCBE45BsQ
[2]: Full Attention Strikes Back: https://huggingface.co/papers/2605.16928











