Cursor黑科技:重写MoE让Blackwell推理性能翻倍

2026-06-24阅读 0热度 0
其他

人工智能编程助手Cursor今日在社交平台X宣布,其团队重构了混合专家模型在Blackwell GPU上的令牌生成机制,推理吞吐量实现1.84倍提升。

图片

实测数据显示,吞吐量从64-66 tokens/s飙升至118-121 tokens/s。输出质量同样显著改善——与全精度FP32基准的接近程度提高了1.4倍。

核心技术名为“Warp Decode”,彻底抛弃传统MoE的“专家中心”生成范式,转向“输出中心”策略,精准攻克内存效率低下与精度损失两大顽疾。Warp Decode具体如何运作?为何能同时解锁速度与精度双重优势?

传统MoE:专家路由模式,推理效率瓶颈

主流大语言模型普遍采用混合专家架构,即内部集成数十乃至上百个子网络(专家),每次推理仅激活其中少数专家。如同拥有一支庞大专家团队,每次仅邀请最相关的几位参与决策,兼顾模型能力与计算成本。

然而,在自回归解码阶段(即AI逐令牌生成代码或文本时),传统MoE计算路径遭遇瓶颈。流程如下:路由模块首先确定每个令牌应分配给哪位专家,随后将同属一个专家的令牌聚合,待专家计算完成后,再将结果分发回对应位置。

这套流程在大批量推理时表现尚可,因为每个专家处理的令牌数量足以摊薄数据调度开销。但在小批量场景下(每次仅生成几个令牌),问题凸显:大量时间耗费在纯数据搬运上,实际计算时间被严重挤压。结果导致GPU算力闲置、带宽利用率低,理想的高效架构在实际推理中速度受限。

图片

Warp Decode:以输出为中心,砍掉中间环节

数据搬运既是瓶颈,Cursor另辟蹊径。Warp Decode的核心思路:将计算组织方式从“专家中心”彻底转向“输出中心”。

现代GPU以32条并行通道为一组(称为Warp)执行指令。在Warp Decode中,每个Warp专职计算一个最终输出值。它直接从内存读取所需权重,遍历所有被路由选中的专家,将各专家计算结果累加后直接写出最终结果。

简而言之,所有不必要的中间环节全部被砍掉。Warp Decode通过两大机制提升性能:精简传统路径中的多阶段和缓冲区;实现Warp完全独立,带来更优的任务调度与延迟隐藏能力。

具体实现方式如何?

首先,每个GPU Warp被赋予明确使命——仅负责一个输出标量的计算,且全程专注此事。Warp之间无依赖、无需同步,各自独立。

其次,整个MoE层的计算被极致压缩,融合为仅两个核心操作:

第一个内核处理路由与“向上投影”计算。Warp独立完成点积、激活函数等操作,所有中间值保留在寄存器内,绝不写入共享内存。

第二个内核处理“向下投影”。每个Warp循环遍历被选中的Top-K专家,累加各专家贡献。此处运用巧妙的蝶形归约技巧:处理完所有相关专家后,Warp利用一条特殊GPU指令,将内部32个处理单元的局部累加结果快速合并为单一最终输出值。

这套操作的最大优势:彻底绕开共享内存依赖。所有计算均在寄存器层面完成,避免了耗时的内存往返、缓存冲突及显式同步等待。延迟被压至最低。

图片

实测效果:吞吐与精度同步飞跃

Cursor内部测试结果证实了Warp Decode的实战价值。

在基于NVIDIA B200 GPU、运行类似Qwen-3风格模型的场景下,端到端解码吞吐量稳定提升1.84倍。尤为关键的是,输出质量并未因提速而妥协——与全精度FP32参考值的接近程度反而提升了1.4倍。

硬件效率方面,B200在连续内存读取上的峰值带宽约6.8 TB/s。在批大小为32的设定下,Warp Decode可稳定达到3.95 TB/s的带宽利用率,相当于峰值性能的58%,表现相当出色。

图片图片图片

社区热议:能否移植至Vera Rubin架构?

该技术在社区引发热烈讨论。部分用户实测后惊叹模型准确度显著提升。核心疑问浮出水面:Warp Decode是Blackwell GPU专属优化,还是可跨平台推广?例如,在未来的Vera Rubin架构上表现如何?

图片

图片

图片

Cursor官方博客指出,当前Warp Decode专为Blackwell GPU的小批量自回归解码场景量身优化。在需处理大量令牌的预填充阶段,传统MoE方式仍具优势。至于技术是否可迁移至其他GPU架构,有待Cursor未来披露更多技术细节与评估结果。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策