Stem稀疏注意力算法:腾讯混元实现首字延迟降低3.6倍
腾讯混元提出Stem稀疏注意力算法,已被ICML-2026收录
6月5日,腾讯混元发布重要成果——其提出的Stem稀疏注意力算法正式被机器学习顶会ICML-2026收录。这项研究直击大模型推理效率瓶颈,实现在线推理阶段的显著加速。
整体方案采用“算法×算子”协同优化的设计。算法层面,Stem通过Token位置衰减(TPD)和输出感知度量(OAM)两个核心机制,仅消耗25%的计算预算即可达到近乎无损的精度。这意味着,用四分之一算力换接近完整模型的输出质量,为长序列推理场景提供了切实可行的降本路径。
算法理论必须落到实际加速上。腾讯混元同步开源了Stem+BSA高性能计算(HPC)算子,将算法层稀疏性转化为硬件级加速效果。实测数据显示,在128K长上下文场景下,首字延迟降低了3.7倍。这一数字在长序列推理中意义重大——直接削减用户等待时间,改善对话流畅度与实时交互体验。
值得关注的是,ICML这类顶级学术会议对Stem的认可,反映了高效稀疏注意力方向的持续热度。从行业落地角度看,这类研究正为大规模语言模型部署中的成本控制与效率提升,提供更具工程可行性的解决方案。