多GPU性能瓶颈深度测评：Attention并非总是关键限制因素

2026-05-16阅读 0热度 0

大语言模型推理性能已成为其规模化部署的核心制约因素。模型参数膨胀、上下文窗口扩展以及RAG、MoE等新架构的引入，使得延迟、吞吐与能效问题超越了单纯的参数调优范畴，直接关系到系统架构设计与算力成本控制。

针对这一复杂挑战，中国科学院计算技术研究所严明玉教授团队联合中国电信云计算研究院、浙江实验室及北京大学的研究人员，在论文《A Systematic Characterization of LLM Inference on GPUs》中，从系统与硬件协同的视角，对大模型推理性能进行了系统性解构。该研究通过大规模实验，旨在揭示一个根本性工程问题的底层规律：大模型推理的性能特征究竟由哪些因素决定？

这项工作的核心贡献在于构建了一个统一且可解释的性能分析框架。它将Prefill（预填充）与Decode（解码）两个阶段的本质差异，提升为系统层面的基本规律，并在不同模型规模、硬件平台及MoE、RAG等新兴范式下进行了验证。在此框架下，延迟、资源利用率与能耗不再是孤立指标，而是随工作负载与系统配置动态演变的可观测规律。

大模型推理性能的系统性解构

严明玉团队的研究通过系统性实验，揭示了大语言模型推理的核心性能规律。一个关键结论是：LLM推理在本质上可划分为Prefill和Decode两个行为模式截然不同的阶段。这种差异是结构性的，无法通过局部优化消除。

Prefill阶段负责一次性并行处理全部输入提示词。此阶段计算高度密集，以大规模矩阵乘法为核心，GPU计算单元利用率高，性能主要受限于芯片的峰值算力。

Decode阶段则负责逐个生成输出token。由于生成过程的序列依赖性，每一步都需频繁访问已缓存的KV Cache，导致计算量小但对内存带宽和访问延迟极度敏感。性能瓶颈因此从算力转移至内存子系统。

推理过程中哪个阶段更慢？研究发现这并非固定答案，而是取决于具体的输入输出长度。短输入长输出的场景下，Decode步骤多，常成为主要耗时部分；而当输入序列极长时，Prefill的计算开销会急剧增长并主导整体延迟。这表明性能瓶颈是动态的，由工作负载特征决定。

深入至算子层面，瓶颈同样动态变化。在常见上下文长度下，Prefill阶段的时间主要消耗在前馈网络（FFN）上；但当上下文极长时，注意力（Attention）计算因其复杂度增长更快，会逐渐成为主要瓶颈。

Decode阶段的瓶颈则与模型规模紧密相关：对于小参数量模型，频繁访问KV Cache的Attention操作更易成为瓶颈；对于大模型，FFN庞大的参数量导致权重加载的内存成本更为突出。因此，不能简单断言Attention或FFN是瓶颈，必须结合推理阶段、上下文长度和模型规模进行综合判断。

在性能可预测性方面，Prefill阶段表现出高度规律性：其执行时间与需计算的输入token数量呈强线性关系。这意味着可根据输入长度和缓存状态准确预测其延迟，这对系统调度与资源规划极具价值。相比之下，Decode阶段因串行生成和采样不确定性，性能波动更大，预测更困难。

能耗分析得出了一个关键结论：推理过程消耗的总能量，几乎全部来自Decode阶段。输入长度对总能耗影响微乎其微，而输出token的数量则直接决定了能耗高低。同时，模型参数越多，总能耗相应增加。这提示在实际系统中，限制输出长度比优化Prefill更能有效降低能耗。

在多GPU扩展性实验中，研究打破了“GPU越多越快”的直觉。Prefill阶段计算密集，通常能从多卡并行中获益；但Decode阶段单步计算量小，多卡间的通信与同步开销可能抵消并行收益，导致性能提升有限甚至下降。因此，在Decode为主的场景下，采用单GPU或轻量级流水并行往往是更优选择。

论文进一步分析了新兴推理范式。对于MoE模型，其推理速度主要取决于每次激活的专家参数规模，而非模型总参数量，这带来了性能优势，但Decode阶段会引入额外的专家选择与调度开销。对于RAG工作流，随着外部知识库规模扩大，系统瓶颈会从GPU推理转移到CPU侧的检索与内存访问。尽管流程更复杂，但Prefill与Decode的根本性能差异依然存在，是理解整体行为的关键。

面向系统理解的大模型推理实验框架

为确保结论的坚实与普适，本研究采用了由表及里的实验设计：从观测整体性能表现开始，逐步深入到GPU的执行与存储行为，最后将总结出的规律置于真实系统与新型场景中验证。

实验平台同时覆盖了数据中心级GPU（A100）和边缘设备GPU（Jetson AGX Orin），以检验性能规律在不同算力与内存约束下的普适性。

模型选择上，覆盖了从7B到32B的主流稠密模型，并引入了代表性MoE模型，以观察不同参数量与架构的影响。所有实验均在统一推理框架与精度设置下进行，最大限度减少了实现差异的干扰。

工作负载设计具有针对性，并非运行固定基准测试，而是通过组合长短不一的输入与输出，刻意构造出Prefill主导或Decode主导的不同场景，从而验证两阶段差异的普适性。

分析方法上，论文采用了分层剖析：首先测量端到端延迟、吞吐与能耗；其次分析Prefill与Decode的时间占比及各算子的贡献；最后利用Roofline模型、Warp停顿分析、缓存命中率与内存带宽数据，从硬件层面定位性能是受限于计算还是内存。这种从现象到根因的逐步深入，使得每一个宏观性能特征都能在底层硬件行为中找到清晰解释。

清晰的认知是高效优化的前提

这项工作的核心价值在于建立了一套用于理解大模型推理性能的统一认知框架。它首次将Prefill与Decode的阶段差异确立为系统级的基本规律，并证明了这一规律在不同模型、硬件乃至新范式下的普适性。

从工程实践角度看，论文纠正了多个常见的直觉误解，例如“Attention永远是瓶颈”、“多GPU一定更快”、“Prefill是主要能耗来源”等，并提供了明确的机制解释与反例。这些结论对推理服务的实际部署策略、资源配置与成本控制具有直接的指导意义。

从系统研究视角看，它为后续的优化工作提供了清晰的问题分解思路：优化Prefill和优化Decode本质上是两类不同的问题，应针对其各自根本瓶颈（计算密集型 vs. 内存访问密集型）分别设计机制。这一思想对调度器设计、并行策略选择以及新硬件特性的利用都具有重要启发。

面向未来，研究指出了MoE和RAG等新范式如何重塑系统瓶颈，提示研究者在进行模型与系统协同设计时，需要额外关注路由开销、内存局部性以及CPU-GPU协同等问题，而不仅仅是追求算力规模的堆砌。

这是一篇以扎实实验为基础、以揭示机理为核心、以构建系统认知为目标的论文。其意义在于回答了“大模型推理为何如此表现”这一根本问题，从而为“如何让它变得更好”指明了更具深度的探索方向。

工作背后的研究者

本项研究的通讯作者是中国科学院计算技术研究所的严明玉教授。他长期从事计算机体系结构研究，方向涵盖图机器学习、设计空间探索以及复杂计算系统的性能分析。

在学术研究方面，严明玉教授已在MICRO、HPCA、DAC、ICCAD、IJCAI、IEEE TC、IEEE TPDS等国际顶级会议与期刊上发表近20篇论文，成果覆盖体系结构、系统与应用交叉等多个领域。

除了科研工作，严明玉教授也是IEEE和中国计算机学会（CCF）的高级会员，并多次担任HPCA、ISCA、MICRO、IJCAI、ISPASS等国际会议的技术程序委员会委员或审稿人，积极参与学术社区建设。他于中国科学院大学获得博士学位，期间曾赴美国加州大学圣塔芭芭拉分校联合培养，其博士论文曾获中国计算机学会优秀博士论文奖。此外，他还入选了北京市科技新星计划、中国科学院青年创新促进会等人才项目。

总体而言，严明玉教授的研究长期致力于从系统视角出发，通过深入的实验与硬件行为分析，揭示复杂计算负载在硬件平台上的执行规律与瓶颈成因，其工作兼具理论深度与工程实践价值。

多GPU性能瓶颈深度测评：Attention并非总是关键限制因素

大模型推理性能的系统性解构

面向系统理解的大模型推理实验框架

清晰的认知是高效优化的前提

工作背后的研究者

相关阅读

最新教程

最新资讯