阿里RTPurboV2 Transformer 稀疏注意性能测评

2026-06-13阅读 0热度 0

其他

Full Attention 机制正逐步淡出主流视野。

Agent 规模化落地推动长序列推理需求暴涨，传统 GPT 架构中 O(N²) 复杂度的 Attention 模块首当其冲，成为多数方案加速替换的核心瓶颈。Attention 架构迭代速度前所未有。业界主流路线分为两派：一是 Linear Attention，代表模型 Qwen-Next 和 Kimi-K2，通过改进线性注意力压缩信息，存储成本降至 O(1)、计算成本降至 O(N)；二是 Sparse Attention，以稀疏化手段优化计算，实践中稀疏度常达 90% 以上，DeepSeek-V4 即采用此方案。

早前的 RTPurbo 工作已证明：Full Attention 与 Sliding Window Attention（SWA）混合使用，可在精度无损前提下将 85% 的注意力头替换为 SWA，形成 15% Full + 85% SWA 的架构，实现 5 倍 KV 和 Attention 压缩。巧合的是，近期 MIMO、Gemma 4、GPT-OSS 等开源架构也采纳了 SWA + Full Attention 设计，颇有回归简化的趋势。

但问题并未根治：替换 85% 后，剩余 15% 的 Full Attention 在超长序列（如 1M token）中依然构成性能瓶颈。为彻底突破这一限制，阿里巴巴 RTP 团队发布第二代 Attention 压缩方案 RTPurboV2。融合 Headwise 压缩、低秩投影压缩与聚类技术，RTPurboV2 在 V1 基础上将 Full Attention 部分再压缩 16~32 倍计算量。

图1：RTPurboV2 性能表现

RTPurboV2：全面极致 Full Attention 压缩方案

图2：RTPurboV2 总体架构

Full Attention 模型在预训练中自发形成了高度稀疏的注意力结构。团队的核心工作并非强行施加稀疏性，而是将其释放出来。这一判断基于四项可量化的关键观测。

发现一：85% 的注意力头天然适配滑动窗口

研究发现，Full Attention 模型中各 Attention Head 分工明确。部分 Head 专注捕捉局部信息（如相邻 token 关联），其余则负责长距离语义依赖。

图3：Retrieval Heads 关注与当前 query token 语义相关的远距离区域，与大多数仅关注局部的 Head 形成对比

具体而言，对 Qwen3 系列模型的可视化发现：约 15% 的 Head 呈现明显的召回头特征——注意力分布极度稀疏，仅关注少数关键 token，负责远距离信息召回；剩余 85% 为流式头——注意力分布相对均匀，聚焦局部上下文。这一分工模式在多种输入和序列长度下高度稳定，属于模型预训练中自发习得的内在结构。推论：85% 的 Full Attention 计算可安全替换为 SWA（参照 RTPurbo），几乎不影响模型能力。真正亟待解决的是那 15% 召回头的高效计算。

发现二：长程检索由低维子空间主导

召回头需要在整个序列中进行语义匹配，表面上仍是 O(N²) 问题。RTPurboV2 的一项关键升级在于深入理解召回头与 RoPE。分析 RoPE 频率结构后，团队发现召回头中存在显著的维度冗余。RoPE 下，Query-Key 注意力得分可分解为多种频率分量的叠加：

其中 △ = m - n 表示位置偏移。不同频率分量作用本质不同：低频分量（θ_i 小）随偏移缓慢变化，携带 token 间的语义相关性；高频分量（θ_i 大）随偏移快速振荡，引入距离敏感干扰。长程检索中，高频分量导致注意力得分剧烈波动，破坏语义信号稳定性。召回任务本身要求：一个 token 的召回强度不应随相对位置快速变化。因此可推断，召回头必定压制高频分量，仅利用低频分量。

图4：RoPE 高频分量随位置快速旋转，干扰长程检索

由此诞生了一个自然设计：训练低维投影器，通过低秩映射将特征维度从 D 压缩至 r=16（r ≪ D），系统保留低频语义、滤除高频噪声。实验表明，仅需 16 维即可实现 90%+ 的 token 召回率。

发现三：序列维度冗余——基于高质量特征的自适应聚类

这是 RTPurboV2 的另一核心技术升级。团队意识到，低秩投影的增益远不止降低计算量——它从根本上优化了 Key 向量在语义空间的分布质量。滤除高频噪声后，语义相似的 token 在低秩空间中自然聚拢，无关 token 彼此远离，为序列维度压缩创造了理想条件。基于此，RTPurboV2 引入自适应聚类，构建两级漏斗式计算流程：

1. 粗粒度匹配：将 N 个 token 聚成 K 个语义簇（例如 K=128），Query 与 K 个簇中心进行轻量级匹配，复杂度 O(N·K)

2. 细粒度计算：只在命中的簇内执行完整 Attention 计算

两阶段串联后，整体复杂度从 O(N²) 跃迁至 O(N·K)：

两步压缩之间存在显著协同增益：特征维度压缩降低单步计算开销并产出高质量聚类输入；序列维度压缩（聚类）跳过大量无关 token，减少总计算步数。二者产生乘法效应：压缩比越激进，协同增益越突出。

发现四：动态 top-p 显著优于固定 top-k

传统稀疏注意力通常采用固定 top-k 策略，即每个 query 只保留注意力得分最高的 k 个 token。但根本问题在于：不同 attention head、序列长度和 query 所需的上下文 token 数量差异悬殊。以同一层三个召回头为例，64K 上下文下覆盖 90% 注意力质量所需的 token 数：

表1：不同 Attention Head 在不同序列长度下 top_p=0.9 时召回的 Token 数量

三个数量级差异表明不存在能覆盖所有场景的固定 k 值。因此 RTPurboV2 采用动态 top-p 策略：对每个 query，保留累积注意力得分达到 p（如 0.9）的 token 集合。集中型 query 自动缩减预算，分散型 query 自动扩大覆盖。同时团队设计无排序 top-p 解码核——通过 256-bin 直方图替代的排序操作，将评分与筛选合并为单次 kernel launch，内存开销降至 O(1)。

两阶段微调训练：百步实现稀疏化适配

整合四项发现，RTPurboV2 推理架构自然成形：流式头（85%）→ SWA（窗口 8192）；召回头（15%）→ 低秩投影 + 聚类索引 + 动态 top-p。模型适配该稀疏化架构仅需约 600 步训练（约 1M label tokens）。具体分为两阶段：

阶段 1——投影对齐：冻结模型主体，仅训练各召回头的低秩投影矩阵，最小化投影注意力分布与原始分布之间的 KL 散度：

阶段 2——端到端自蒸馏：启用稀疏模式，稀疏模型学习原始稠密模型的 next-token 预测分布。在数十万亿 token 的预训练规模下，1M token 占比微乎其微。这从另一角度验证了核心论断：Full Attention 的稀疏性内生于模型，微调仅是将隐式结构转化为显式。

实验结果与性能评估

为全面验证 RTPurboV2 效果，团队在 Qwen3-Coder-30B-A3B 与 Qwen3.5-35B-A3B 两款模型上，针对长文本核心基准展开系统性评估。

1. Ruler 基准测试：长程检索精度突破

在 Qwen3-Coder-30B-A3B 上，离线校准识别出约 15% 的关键召回头。Prefill 阶段对这些 Head 采用 Full Attention 配合 K Cache 聚类，Decode 阶段应用 RTPurboV2 稀疏化；其余流式头统一使用 SWA（局部窗口 8192）。如图 3 所示，RTPurboV2 在 32K 和 64K 序列长度下均取得最优平均分（89.69 和 85.61），显著优于除 Full Attention 外的所有基线，证实了其长程信息召回精度。

图5：Ruler 评测结果

2. LongBenchV2 基准测试：高召回比例下的无损压缩

针对 Qwen3.5-35B-A3B，校准显示超过 70% 的 Head 具有召回特性，因此采取全量稀疏化策略。实验结果（图 4）表明，RTPurboV2 大幅降低计算开销的同时完整保留模型基础能力，精度与 Full Attention 持平。

图6：LongBenchV2 评测结果

3. CoT 推理任务：复杂逻辑稳定支撑

链式思维（CoT）推理任务中，RTPurboV2 同样表现出色（图 5），实现模型推理能力近乎无损保留，进一步验证了方案在复杂逻辑场景下的鲁棒性。

图7：CoT 任务评测结果

更大图景

当前注意力机制研究大量集中于设计全新高效架构，这条路径有其价值。但 RTPurboV2 揭示了一个易被忽视的事实：Full Attention 模型自身蕴含巨大效率空间，且释放这种内生稀疏性的成本极低。600 步训练，精度几乎无损，Prefill 最高 9.36 倍加速。这意味着，对于采用 SWA + Full Attention 混合架构的团队（如 MIMO、Gemma 4、GPT-OSS），无需替换架构即可获得接近 SOTA 新方案的压缩效率。

“原生 Transformer 从未过时，Full Attention 强势回归。”

团队介绍

RTP-LLM 是阿里巴巴智能引擎团队自主研发的高性能大模型推理引擎，支撑淘宝、天猫、高德等核心业务的大模型推理需求。智能引擎起源于阿里搜索、推荐与广告技术，是阿里 AI 工程领域的先行者与深耕者。团队专注 AI 工程系统建设，主导构建了大数据 AI 工程体系 AI・OS，持续为阿里各业务提供高质量 AI 工程服务。

参考文献：

[1]: 只需 15% 全量 Attention！「RTPurbo」阿里 Qwen3 长文本推理 5 倍压缩方案：https://mp.weixin.qq.com/s/wFAJ6oG1CsKBJiCBE45BsQ

[2]: Full Attention Strikes Back： https://huggingface.co/papers/2605.16928

阿里RTPurboV2 Transformer 稀疏注意性能测评

RTPurboV2：全面极致 Full Attention 压缩方案

两阶段微调训练：百步实现稀疏化适配

实验结果与性能评估

更大图景

相关阅读

最新教程

最新资讯