Cursor黑科技：重写MoE让Blackwell推理性能翻倍

2026-06-24阅读 0热度 0

其他

人工智能编程助手Cursor今日在社交平台X宣布，其团队重构了混合专家模型在Blackwell GPU上的令牌生成机制，推理吞吐量实现1.84倍提升。

实测数据显示，吞吐量从64-66 tokens/s飙升至118-121 tokens/s。输出质量同样显著改善——与全精度FP32基准的接近程度提高了1.4倍。

核心技术名为“Warp Decode”，彻底抛弃传统MoE的“专家中心”生成范式，转向“输出中心”策略，精准攻克内存效率低下与精度损失两大顽疾。Warp Decode具体如何运作？为何能同时解锁速度与精度双重优势？

传统MoE：专家路由模式，推理效率瓶颈

主流大语言模型普遍采用混合专家架构，即内部集成数十乃至上百个子网络（专家），每次推理仅激活其中少数专家。如同拥有一支庞大专家团队，每次仅邀请最相关的几位参与决策，兼顾模型能力与计算成本。

然而，在自回归解码阶段（即AI逐令牌生成代码或文本时），传统MoE计算路径遭遇瓶颈。流程如下：路由模块首先确定每个令牌应分配给哪位专家，随后将同属一个专家的令牌聚合，待专家计算完成后，再将结果分发回对应位置。

这套流程在大批量推理时表现尚可，因为每个专家处理的令牌数量足以摊薄数据调度开销。但在小批量场景下（每次仅生成几个令牌），问题凸显：大量时间耗费在纯数据搬运上，实际计算时间被严重挤压。结果导致GPU算力闲置、带宽利用率低，理想的高效架构在实际推理中速度受限。

数据搬运既是瓶颈，Cursor另辟蹊径。Warp Decode的核心思路：将计算组织方式从“专家中心”彻底转向“输出中心”。

现代GPU以32条并行通道为一组（称为Warp）执行指令。在Warp Decode中，每个Warp专职计算一个最终输出值。它直接从内存读取所需权重，遍历所有被路由选中的专家，将各专家计算结果累加后直接写出最终结果。

简而言之，所有不必要的中间环节全部被砍掉。Warp Decode通过两大机制提升性能：精简传统路径中的多阶段和缓冲区；实现Warp完全独立，带来更优的任务调度与延迟隐藏能力。

具体实现方式如何？

首先，每个GPU Warp被赋予明确使命——仅负责一个输出标量的计算，且全程专注此事。Warp之间无依赖、无需同步，各自独立。

其次，整个MoE层的计算被极致压缩，融合为仅两个核心操作：

第一个内核处理路由与“向上投影”计算。Warp独立完成点积、激活函数等操作，所有中间值保留在寄存器内，绝不写入共享内存。

第二个内核处理“向下投影”。每个Warp循环遍历被选中的Top-K专家，累加各专家贡献。此处运用巧妙的蝶形归约技巧：处理完所有相关专家后，Warp利用一条特殊GPU指令，将内部32个处理单元的局部累加结果快速合并为单一最终输出值。

这套操作的最大优势：彻底绕开共享内存依赖。所有计算均在寄存器层面完成，避免了耗时的内存往返、缓存冲突及显式同步等待。延迟被压至最低。

Cursor内部测试结果证实了Warp Decode的实战价值。

在基于NVIDIA B200 GPU、运行类似Qwen-3风格模型的场景下，端到端解码吞吐量稳定提升1.84倍。尤为关键的是，输出质量并未因提速而妥协——与全精度FP32参考值的接近程度反而提升了1.4倍。

硬件效率方面，B200在连续内存读取上的峰值带宽约6.8 TB/s。在批大小为32的设定下，Warp Decode可稳定达到3.95 TB/s的带宽利用率，相当于峰值性能的58%，表现相当出色。

该技术在社区引发热烈讨论。部分用户实测后惊叹模型准确度显著提升。核心疑问浮出水面：Warp Decode是Blackwell GPU专属优化，还是可跨平台推广？例如，在未来的Vera Rubin架构上表现如何？

Cursor官方博客指出，当前Warp Decode专为Blackwell GPU的小批量自回归解码场景量身优化。在需处理大量令牌的预填充阶段，传统MoE方式仍具优势。至于技术是否可迁移至其他GPU架构，有待Cursor未来披露更多技术细节与评估结果。