腾讯混元AI Infra开源：推理吞吐提升30%核心技术解析

2026-05-27阅读 0热度 0

ai 人工智能

大模型推理的效率瓶颈，已成为制约AI应用规模化落地的核心挑战。尤其在线上服务场景中，算力成本、硬件选型与性能需求之间的平衡，直接决定了服务的可行性与经济性。近期，腾讯混元AI Infra团队开源了高性能LLM推理核心算子库HPC-Ops，旨在从底层算力层面，提供一套经过生产验证的高效解决方案。

HPC-Ops是一个基于CUDA和CuTe从零构建的生产级算子库。其设计目标清晰：通过抽象的工程架构、对硬件微架构的深度适配以及指令级的极致优化，将核心算子的执行效率逼近硬件理论峰值，从而系统性提升大模型推理的吞吐与能效。根据官方实测数据，在真实业务负载下，基于HPC-Ops优化后，混元模型的推理QPM提升了30%，DeepSeek模型的QPM也提升了17%。

为何需要一个新的算子库？这源于当前业界普遍面临的两大现实困境。

主流大模型算子库（如FlashInfer、DeepGEMM）的优化重心，往往集中在NVIDIA H800这类高端训练卡上。然而，受成本与供应等因素影响，大量线上推理服务实际部署在H20等推理卡上。现有先进算子库在这些主流推理硬件上，难以充分释放其算力潜力。与此同时，业务侧对极致吞吐、低延迟以及Blockwise FP8等复杂量化策略的需求日益增长，对底层算子的适配性与灵活性提出了更高要求。

具体而言，现有方案主要存在两大挑战：

开发与适配成本高昂：主流算子库设计复杂，核心Kernel封装层次深，在其基础上进行定制化修改和硬件适配的工程成本极高，抬高了AI工程师与研究者的使用门槛。而大模型的前沿加速技术，如新型量化算法、投机采样等，均依赖于与之匹配的高效算子实现。回顾早期4bit、8bit量化算法，虽理论优势明显，却因缺乏配套的低精度算子支持，在相当长时间内实际效果甚至出现“负优化”。
硬件优化目标错位：现有库多以H800乃至更超前的Blackwell架构为目标进行优化。不同硬件在算力单元、内存带宽及指令集上的差异，决定了Kernel的优化策略必须差异化设计。这导致现有算子库在国内主流推理卡上的性能表现，常常低于预期。

正是针对这些痛点，腾讯混元团队研发了HPC-Ops。它集成了FusedMoE、Attention、机内/机间通信、Norm、Sampler及各类小算子融合等核心模块。其技术路径可归纳为三个核心原则：

第一，实现任务特性与硬件能力的精准匹配。 对于访存瓶颈型算子，性能关键在于数据加载效率。HPC-Ops针对国内主流推理显卡，通过调整指令发射顺序优化数据预取，确保数据传输单元保持高利用率。同时，针对不同问题规格进行更精细的指令对齐，剔除冗余低效指令。例如，在Decode Attention和小batch GroupGEMM场景中，通过交换AB矩阵以对齐硬件架构的wgmma指令，使访存带宽达到硬件峰值能力的80%以上。

第二，实施精细化的任务调度与数据重排。 针对每个算子问题，重新设计任务数据的划分与调度策略，在保证每个SM任务负载均衡的同时，兼顾Cache的局部性。采用persistent kernel模式隐藏kernel启动与收尾开销。此外，通过创新的数据重排技术减少额外操作与显存占用。例如在FP8 Attention Kernel中，采用Interleave重排技术，有效解决了指令不匹配问题，减少了线程间的数据shuffle，从而获得了超越业界标杆的性能表现。

第三，让开发者聚焦于计算逻辑本身。 GPU编程的复杂性常源于底层数据操作的繁琐。为使用高效指令，通常需要对数据进行多次重解释与变换，这显著增加了开发负担。HPC-Ops基于CuTe扩展开发了vec抽象层来统一负责高效数据搬运，并利用Layout代数抽象隔离复杂的Tiling与计算逻辑，使开发者能更专注于算法创新，降低了高性能CUDA内核的维护门槛。

关键性能实验结果

通过上述系统性优化，HPC-Ops在核心算子模块上实现了显著的性能突破。实验基于混元、DeepSeek等常用模型规格，并与当前主流算子库的实现进行了对比：

GroupGEMM：与DeepGEMM (v2.2.0)对比，在Batch≤64的低延迟场景下优势显著，较DeepGEMM最佳表现最高提升1.88倍，且通过流水线掩盖技术使Blockwise与PerTensor量化性能几乎持平；在大Batch场景下，仍能保持约1.1倍的领先优势。该算子同时兼容紧密排布与Token不连续输入，显著减少了临时显存占用。

FusedMoE：该模块完整封装了前序数据重排、GroupGEMM及后续Reduce加权平均的全流程。在序列长度为16倍数的均衡规格下，对比vLLM (v0.11.0)与TensorRT-LLM (v1.1.0)的实现，在TP（张量并行）场景下相比TensorRT-LLM最大性能提升达1.49倍；在EP（专家并行）模拟均衡场景下最大提升1.09倍。针对不同输入长度采取的差异化重排策略，确保了模块在各种规格下的最优性能。

Attention：针对Prefill场景，测试了128～64K的输入长度。在batch较小时，BF16精度下相比当前最优实现提升1.3倍；在大batch时基本与当前最优水平持平。针对Decode场景，根据线上服务等级目标（SLO）约束搭配测试用例，在BF16精度下提升1.35倍～2.22倍；在FP8精度下，当序列长度较小时与最优水平相当，当序列长度较大时相比最优实现提升1.09倍~2.0倍。

算子库能力现状与未来规划

作为面向大模型推理的高性能算子库，HPC-Ops凭借对Attention、FusedMoE、GroupGEMM等核心算子的极致优化，实现了最高2.22倍的性能提升，并已在腾讯的大规模生产环境中得到验证。它提供了简洁易用的API，可无缝对接vLLM、SGLang等主流推理框架，原生支持BF16、FP8等多精度量化方案。更重要的是，它以CuTe、CUTLASS为基础，提供了仅需数百行代码即可构建先进算子的实践范例，大幅降低了高性能CUDA内核的开发门槛。

展望未来，HPC-Ops将持续深耕大模型推理的性能突破。一方面，将重点研发稀疏Attention算子，针对性解决长上下文模型面临的内存与算力瓶颈；另一方面，会拓展更丰富的量化策略，覆盖4bit/8bit混合精度等更多方案，以进一步平衡推理速度与模型精度。此外，算子库还将布局计算-通信协同优化的内核，通过融合多GPU间的计算逻辑与通信流程，大幅降低分布式推理场景下的通信开销，为超大规模模型的高效部署提供坚实的底层支撑。

目前，HPC-Ops项目已在GitHub开源，腾讯混元Infra团队也表示，欢迎行业内的技术实践者提交高价值的PR，共同参与算子边缘场景优化、教程案例打磨等工作，携手推动大模型推理技术的边界拓展。

腾讯混元AI Infra开源：推理吞吐提升30%核心技术解析

关键性能实验结果

算子库能力现状与未来规划

相关阅读

最新教程

最新资讯