腾讯混元AI Infra开源:推理吞吐提升30%核心技术解析

2026-05-27阅读 0热度 0
ai 人工智能

大模型推理的效率瓶颈,已成为制约AI应用规模化落地的核心挑战。尤其在线上服务场景中,算力成本、硬件选型与性能需求之间的平衡,直接决定了服务的可行性与经济性。近期,腾讯混元AI Infra团队开源了高性能LLM推理核心算子库HPC-Ops,旨在从底层算力层面,提供一套经过生产验证的高效解决方案。

HPC-Ops是一个基于CUDA和CuTe从零构建的生产级算子库。其设计目标清晰:通过抽象的工程架构、对硬件微架构的深度适配以及指令级的极致优化,将核心算子的执行效率逼近硬件理论峰值,从而系统性提升大模型推理的吞吐与能效。根据官方实测数据,在真实业务负载下,基于HPC-Ops优化后,混元模型的推理QPM提升了30%,DeepSeek模型的QPM也提升了17%。

为何需要一个新的算子库?这源于当前业界普遍面临的两大现实困境。

主流大模型算子库(如FlashInfer、DeepGEMM)的优化重心,往往集中在NVIDIA H800这类高端训练卡上。然而,受成本与供应等因素影响,大量线上推理服务实际部署在H20等推理卡上。现有先进算子库在这些主流推理硬件上,难以充分释放其算力潜力。与此同时,业务侧对极致吞吐、低延迟以及Blockwise FP8等复杂量化策略的需求日益增长,对底层算子的适配性与灵活性提出了更高要求。

具体而言,现有方案主要存在两大挑战:

  1. 开发与适配成本高昂:主流算子库设计复杂,核心Kernel封装层次深,在其基础上进行定制化修改和硬件适配的工程成本极高,抬高了AI工程师与研究者的使用门槛。而大模型的前沿加速技术,如新型量化算法、投机采样等,均依赖于与之匹配的高效算子实现。回顾早期4bit、8bit量化算法,虽理论优势明显,却因缺乏配套的低精度算子支持,在相当长时间内实际效果甚至出现“负优化”。
  2. 硬件优化目标错位:现有库多以H800乃至更超前的Blackwell架构为目标进行优化。不同硬件在算力单元、内存带宽及指令集上的差异,决定了Kernel的优化策略必须差异化设计。这导致现有算子库在国内主流推理卡上的性能表现,常常低于预期。

正是针对这些痛点,腾讯混元团队研发了HPC-Ops。它集成了FusedMoE、Attention、机内/机间通信、Norm、Sampler及各类小算子融合等核心模块。其技术路径可归纳为三个核心原则:

第一,实现任务特性与硬件能力的精准匹配。 对于访存瓶颈型算子,性能关键在于数据加载效率。HPC-Ops针对国内主流推理显卡,通过调整指令发射顺序优化数据预取,确保数据传输单元保持高利用率。同时,针对不同问题规格进行更精细的指令对齐,剔除冗余低效指令。例如,在Decode Attention和小batch GroupGEMM场景中,通过交换AB矩阵以对齐硬件架构的wgmma指令,使访存带宽达到硬件峰值能力的80%以上。

第二,实施精细化的任务调度与数据重排。 针对每个算子问题,重新设计任务数据的划分与调度策略,在保证每个SM任务负载均衡的同时,兼顾Cache的局部性。采用persistent kernel模式隐藏kernel启动与收尾开销。此外,通过创新的数据重排技术减少额外操作与显存占用。例如在FP8 Attention Kernel中,采用Interleave重排技术,有效解决了指令不匹配问题,减少了线程间的数据shuffle,从而获得了超越业界标杆的性能表现。

第三,让开发者聚焦于计算逻辑本身。 GPU编程的复杂性常源于底层数据操作的繁琐。为使用高效指令,通常需要对数据进行多次重解释与变换,这显著增加了开发负担。HPC-Ops基于CuTe扩展开发了vec抽象层来统一负责高效数据搬运,并利用Layout代数抽象隔离复杂的Tiling与计算逻辑,使开发者能更专注于算法创新,降低了高性能CUDA内核的维护门槛。

关键性能实验结果

通过上述系统性优化,HPC-Ops在核心算子模块上实现了显著的性能突破。实验基于混元、DeepSeek等常用模型规格,并与当前主流算子库的实现进行了对比:

GroupGEMM:与DeepGEMM (v2.2.0)对比,在Batch≤64的低延迟场景下优势显著,较DeepGEMM最佳表现最高提升1.88倍,且通过流水线掩盖技术使Blockwise与PerTensor量化性能几乎持平;在大Batch场景下,仍能保持约1.1倍的领先优势。该算子同时兼容紧密排布与Token不连续输入,显著减少了临时显存占用。

FusedMoE:该模块完整封装了前序数据重排、GroupGEMM及后续Reduce加权平均的全流程。在序列长度为16倍数的均衡规格下,对比vLLM (v0.11.0)与TensorRT-LLM (v1.1.0)的实现,在TP(张量并行)场景下相比TensorRT-LLM最大性能提升达1.49倍;在EP(专家并行)模拟均衡场景下最大提升1.09倍。针对不同输入长度采取的差异化重排策略,确保了模块在各种规格下的最优性能。

Attention:针对Prefill场景,测试了128~64K的输入长度。在batch较小时,BF16精度下相比当前最优实现提升1.3倍;在大batch时基本与当前最优水平持平。针对Decode场景,根据线上服务等级目标(SLO)约束搭配测试用例,在BF16精度下提升1.35倍~2.22倍;在FP8精度下,当序列长度较小时与最优水平相当,当序列长度较大时相比最优实现提升1.09倍~2.0倍。

算子库能力现状与未来规划

作为面向大模型推理的高性能算子库,HPC-Ops凭借对Attention、FusedMoE、GroupGEMM等核心算子的极致优化,实现了最高2.22倍的性能提升,并已在腾讯的大规模生产环境中得到验证。它提供了简洁易用的API,可无缝对接vLLM、SGLang等主流推理框架,原生支持BF16、FP8等多精度量化方案。更重要的是,它以CuTe、CUTLASS为基础,提供了仅需数百行代码即可构建先进算子的实践范例,大幅降低了高性能CUDA内核的开发门槛。

展望未来,HPC-Ops将持续深耕大模型推理的性能突破。一方面,将重点研发稀疏Attention算子,针对性解决长上下文模型面临的内存与算力瓶颈;另一方面,会拓展更丰富的量化策略,覆盖4bit/8bit混合精度等更多方案,以进一步平衡推理速度与模型精度。此外,算子库还将布局计算-通信协同优化的内核,通过融合多GPU间的计算逻辑与通信流程,大幅降低分布式推理场景下的通信开销,为超大规模模型的高效部署提供坚实的底层支撑。

目前,HPC-Ops项目已在GitHub开源,腾讯混元Infra团队也表示,欢迎行业内的技术实践者提交高价值的PR,共同参与算子边缘场景优化、教程案例打磨等工作,携手推动大模型推理技术的边界拓展。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策