清华腾讯混元夺冠MLSys推理赛,NPU性能提升4.1倍权威评测
清华大学存储实验室与腾讯混元AI Infra团队联合提出的方案,荣获MLSys 2026会议MoE模型推理优化挑战赛全球冠军。
上图展示了其核心的系统架构,集成了E-Shard专家分片、连续DMA传输、PSUM与GEMV计算并发、冷启动流水线以及智能预取控制等多项优化技术。
团队自主研发的、基于Agent的推理算子优化器“Knight”是本次获胜的另一关键。该工具实现了从优化策略生成、代码自动实现到效果评估迭代的全流程自动化,大幅扩展了优化策略的搜索边界,解决了传统人工优化难以覆盖的复杂性能瓶颈。
优化成效显著。该方案将模型端到端推理耗时从14.91秒降至3.56秒,实现了4.1倍的性能加速。单步解码延迟也从12.63毫秒优化至5.45毫秒,响应速度提升一倍以上。同时,权重加载阶段DMA引擎利用率提升至约80%,显著提高了硬件计算资源的有效使用率。
在Stanford、MIT等顶尖团队的激烈竞争中夺魁,充分证明了该方案的技术领先性。这一成果不仅体现了团队在大模型底层系统适配与核心算子深度优化方面扎实的工程能力,也为未来在超大规模算力平台上高效部署万亿参数MoE模型,提供了具备高度可行性的系统级实践参考。
