智谱清华联合发布：IndexCache稀疏注意力加速技术权威解析

2026-05-14阅读 0热度 0

ai工具 AI项目和框架

IndexCache是什么

处理超长文本时，大模型在预填充阶段的推理延迟是核心瓶颈，用户等待首字生成的时间过长。这一瓶颈的根源，通常在于注意力机制的计算开销。清华大学与智谱AI联合发布的IndexCache稀疏注意力加速技术，正是为了解决这一性能痛点。

该技术聚焦于DeepSeek稀疏注意力架构中的索引器计算瓶颈。在20万token的上下文中，索引器计算可占据预填充阶段81%的时间。IndexCache的核心洞察在于发现了模型相邻层间top-k关键token选择存在70%至100%的重叠率。既然大量计算都在重复筛选相似内容，直接复用结果便成为可能。

基于此，IndexCache将模型层划分为“全量层”与“共享层”。全量层负责计算并缓存最新索引，后续的共享层则直接复用缓存，跳过了冗余的索引计算。这一设计移除了高达75%的索引器计算量。实际性能表现为：在200K上下文场景下，预填充速度提升1.82倍，解码速度提升1.48倍，且模型输出质量无损。该技术已在30B参数模型及744B参数的GLM-5超大模型上完成验证。

IndexCache的主要功能

IndexCache通过以下核心功能实现性能突破：

跨层索引复用：利用相邻层索引的高重叠特性，共享层直接复用全量层已计算的索引结果，消除重复计算。
大幅降低索引器开销：直接削减75%的索引器计算量，仅保留原四分之一的算力即可维持模型性能。
显著加速推理：长文本下的预填充与解码速度分别提升至1.82倍和1.48倍，有效缩短用户等待时间。
零额外内存开销：实现方式轻量，仅通过条件分支判断实现复用，不占用额外GPU显存，复用DSA已分配的内存空间。
提供两种部署方案：针对不同场景。对于已训练模型，提供无训练方案，通过贪心搜索确定最优层划分；对于从头训练，提供训练感知方案，通过多层蒸馏损失优化索引器参数。
生产级验证：技术有效性已在30B及744B（GLM-5）等超大模型上得到验证，并支持SGLang、vLLM等主流推理框架。

IndexCache的技术原理

IndexCache的技术原理基于以下几个核心设计：

跨层索引相似性发现：通过热力图分析发现，DSA模型中相邻层索引器输出的top-k token集合相似度极高，揭示了跨层索引计算存在大量冗余。
层角色划分机制：将模型层划分为“全量层”与“共享层”。全量层保留索引器，计算并缓存索引；共享层则直接复用最近的全量层缓存进行稀疏注意力计算。
动态模式选择策略：提供两种层划分路径。对于已训练模型，采用基于校准数据的贪心搜索算法智能确定全量层；对于训练场景，引入多层蒸馏损失，优化全量层索引器以服务后续共享层。
推理流程优化：推理时，每层仅增加一个轻量级条件判断，根据预设模式决定计算新索引或复用缓存。无需改动底层架构，也无额外存储开销。

IndexCache的关键信息和使用要求

部署IndexCache前，需明确以下关键信息与前提条件：

提出机构：清华大学与智谱AI联合研究成果。
针对问题：解决DeepSeek稀疏注意力在长上下文下的索引器计算瓶颈。
核心原理：利用相邻层索引高重叠率，实现跨层复用，减少冗余计算。
加速效果：实测保留25%索引器，可实现预填充1.82倍、解码1.48倍的加速。
性能损失：几乎可忽略，部分推理任务中甚至观察到微幅性能提升。
验证模型：已在30B参数DSA模型及744B参数的GLM-5超大模型上验证有效。
硬件要求：需NVIDIA GPU（如H100），但不额外占用显存。
软件环境：支持SGLang或vLLM框架，并为DeepSeek-V3.2、GLM-5等模型提供现成补丁。
无训练方案：适用于已训练好的DSA模型，只需少量校准数据运行贪心搜索来确定最优配置。

IndexCache的核心优势

相较于其他方案，IndexCache具备以下突出优势：

显著加速：在200K上下文长度下，预填充与解码速度提升显著，直接改善用户体验并提高服务吞吐量。
零性能损失：在移除75%索引器计算的同时，保持模型输出质量基本不变。
零额外开销：通过纯软件逻辑优化实现，未引入额外的内存或存储成本。
即插即用：提供主流推理框架补丁，对DeepSeek-V3.2、GLM-5等模型可直接应用，无需修改模型架构。
灵活部署：覆盖模型微调后部署与从头训练两种场景，索引器保留比例可根据需求灵活配置。
生产级验证：在GLM-5千亿参数模型上成功验证，证明了其处理超大规模模型的可靠性与规模化部署潜力。

IndexCache的项目地址

GitHub仓库：https://github.com/THUDM/IndexCache
arXiv技术论文：https://arxiv.org/pdf/2603.12201

IndexCache的同类竞品对比

对比维度	IndexCache	原生 DSA	Full Attention Anchor 方法
核心机制	跨层复用索引器输出的 top-k 索引	每层独立运行轻量级索引器	依赖全注意力锚点层复用索引
计算开销	去除 75% 索引器，预填充加速 1.82 倍	200K 上下文下索引器占 81% 预填充时间	需保留全注意力层，计算成本较高
适用场景	完全消除全注意力的 DSA 架构	标准 DSA 部署	需全注意力作为锚点的架构
实现复杂度	一个 if/else 分支，零额外显存	标准实现	需设计锚点层策略
训练要求	支持无训练部署或训练感知优化	需完整训练	通常需联合训练
生产验证	744B GLM-5 验证	DeepSeek-V3 生产应用	多为中小规模实验

IndexCache的应用场景

凭借其长上下文加速能力，IndexCache适用于以下对响应速度与成本效率要求高的场景：

长文档处理：处理学术论文、法律合同、长篇报告时，其预填充加速能力能显著缩短初始延迟，提升交互流畅性。
多步推理任务：在数学证明、复杂代码生成等需要长思维链的任务中，解码阶段加速能提升思考与输出效率。
Agent 工作流：在需要多轮工具调用与自主规划的智能体应用中，可有效降低长上下文推理成本，支撑更复杂的交互逻辑。
RAG 系统：面对海量检索结果，IndexCache能高效处理检索带来的长上下文，加速模型消化信息并生成答案，提升系统整体效率。
实时对话服务：对于在线客服、智能助手等高实时性场景，提速意味着更高的服务吞吐量、更低的运营成本与更佳的用户体验。