清华腾讯混元夺冠MLSys推理赛,NPU性能提升4.1倍权威评测

2026-05-25阅读 0热度 0
腾讯混元

清华大学存储实验室与腾讯混元AI Infra团队联合提出的方案,荣获MLSys 2026会议MoE模型推理优化挑战赛全球冠军。

清华联合腾讯混元斩获MLSys2026MoE推理挑战赛冠军,NPU推理提速4.1倍

上图展示了其核心的系统架构,集成了E-Shard专家分片、连续DMA传输、PSUM与GEMV计算并发、冷启动流水线以及智能预取控制等多项优化技术。

团队自主研发的、基于Agent的推理算子优化器“Knight”是本次获胜的另一关键。该工具实现了从优化策略生成、代码自动实现到效果评估迭代的全流程自动化,大幅扩展了优化策略的搜索边界,解决了传统人工优化难以覆盖的复杂性能瓶颈。

优化成效显著。该方案将模型端到端推理耗时从14.91秒降至3.56秒,实现了4.1倍的性能加速。单步解码延迟也从12.63毫秒优化至5.45毫秒,响应速度提升一倍以上。同时,权重加载阶段DMA引擎利用率提升至约80%,显著提高了硬件计算资源的有效使用率。

在Stanford、MIT等顶尖团队的激烈竞争中夺魁,充分证明了该方案的技术领先性。这一成果不仅体现了团队在大模型底层系统适配与核心算子深度优化方面扎实的工程能力,也为未来在超大规模算力平台上高效部署万亿参数MoE模型,提供了具备高度可行性的系统级实践参考。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策