Cursor黑科技:重写MoE让Blackwell推理性能翻倍
人工智能编程助手Cursor今日在社交平台X宣布,其团队重构了混合专家模型在Blackwell GPU上的令牌生成机制,推理吞吐量实现1.84倍提升。
实测数据显示,吞吐量从64-66 tokens/s飙升至118-121 tokens/s。输出质量同样显著改善——与全精度FP32基准的接近程度提高了1.4倍。
核心技术名为“Warp Decode”,彻底抛弃传统MoE的“专家中心”生成范式,转向“输出中心”策略,精准攻克内存效率低下与精度损失两大顽疾。Warp Decode具体如何运作?为何能同时解锁速度与精度双重优势?
传统MoE:专家路由模式,推理效率瓶颈
主流大语言模型普遍采用混合专家架构,即内部集成数十乃至上百个子网络(专家),每次推理仅激活其中少数专家。如同拥有一支庞大专家团队,每次仅邀请最相关的几位参与决策,兼顾模型能力与计算成本。
然而,在自回归解码阶段(即AI逐令牌生成代码或文本时),传统MoE计算路径遭遇瓶颈。流程如下:路由模块首先确定每个令牌应分配给哪位专家,随后将同属一个专家的令牌聚合,待专家计算完成后,再将结果分发回对应位置。
这套流程在大批量推理时表现尚可,因为每个专家处理的令牌数量足以摊薄数据调度开销。但在小批量场景下(每次仅生成几个令牌),问题凸显:大量时间耗费在纯数据搬运上,实际计算时间被严重挤压。结果导致GPU算力闲置、带宽利用率低,理想的高效架构在实际推理中速度受限。
Warp Decode:以输出为中心,砍掉中间环节
数据搬运既是瓶颈,Cursor另辟蹊径。Warp Decode的核心思路:将计算组织方式从“专家中心”彻底转向“输出中心”。
现代GPU以32条并行通道为一组(称为Warp)执行指令。在Warp Decode中,每个Warp专职计算一个最终输出值。它直接从内存读取所需权重,遍历所有被路由选中的专家,将各专家计算结果累加后直接写出最终结果。
简而言之,所有不必要的中间环节全部被砍掉。Warp Decode通过两大机制提升性能:精简传统路径中的多阶段和缓冲区;实现Warp完全独立,带来更优的任务调度与延迟隐藏能力。
具体实现方式如何?
首先,每个GPU Warp被赋予明确使命——仅负责一个输出标量的计算,且全程专注此事。Warp之间无依赖、无需同步,各自独立。
其次,整个MoE层的计算被极致压缩,融合为仅两个核心操作:
第一个内核处理路由与“向上投影”计算。Warp独立完成点积、激活函数等操作,所有中间值保留在寄存器内,绝不写入共享内存。
第二个内核处理“向下投影”。每个Warp循环遍历被选中的Top-K专家,累加各专家贡献。此处运用巧妙的蝶形归约技巧:处理完所有相关专家后,Warp利用一条特殊GPU指令,将内部32个处理单元的局部累加结果快速合并为单一最终输出值。
这套操作的最大优势:彻底绕开共享内存依赖。所有计算均在寄存器层面完成,避免了耗时的内存往返、缓存冲突及显式同步等待。延迟被压至最低。
实测效果:吞吐与精度同步飞跃
Cursor内部测试结果证实了Warp Decode的实战价值。
在基于NVIDIA B200 GPU、运行类似Qwen-3风格模型的场景下,端到端解码吞吐量稳定提升1.84倍。尤为关键的是,输出质量并未因提速而妥协——与全精度FP32参考值的接近程度反而提升了1.4倍。
硬件效率方面,B200在连续内存读取上的峰值带宽约6.8 TB/s。在批大小为32的设定下,Warp Decode可稳定达到3.95 TB/s的带宽利用率,相当于峰值性能的58%,表现相当出色。
社区热议:能否移植至Vera Rubin架构?
该技术在社区引发热烈讨论。部分用户实测后惊叹模型准确度显著提升。核心疑问浮出水面:Warp Decode是Blackwell GPU专属优化,还是可跨平台推广?例如,在未来的Vera Rubin架构上表现如何?
Cursor官方博客指出,当前Warp Decode专为Blackwell GPU的小批量自回归解码场景量身优化。在需处理大量令牌的预填充阶段,传统MoE方式仍具优势。至于技术是否可迁移至其他GPU架构,有待Cursor未来披露更多技术细节与评估结果。








