2024年AI软件栈深度测评:AMD ROCm性能暴涨75倍,能否撼动NVIDIA CUDA霸主地位?

2026-05-11阅读 0热度 0
其他

AMD ROCm软件栈近期迎来关键性突破:在DeepSeek V4模型发布后的两周内,其推理吞吐性能实现了75倍的跃升。

根据SemiAnalysis旗下InferenceX性能测试平台截至5月8日的数据,这一测试覆盖了FP4与FP8精度下8K及1K上下文的典型负载。性能的指数级提升直接转化为更强的token处理能力与更低的推理延迟,为用户带来更实时、更流畅的交互体验。


尤为关键的是,此次性能飞跃完全基于软件栈的深度优化,硬件层面未作任何改动。这充分展现了AMD在AI软件生态上强劲的迭代与工程优化能力。那么,75倍的性能提升具体是如何实现的?

软件优化的“组合拳”

核心优化来自两大技术路径。首先,通过融合mHC操作与RoPE哈达玛变换,有效降低了CPU开销并显著提升了HBM内存带宽的利用效率。其次,包括索引器、键值缓存压缩器在内的核心计算内核,现已全面采用TileLang与Triton语言进行重构。这种开发范式大幅缩短了从算法设计到部署实现的周期,使得性能调优能够更快速、更灵活地落地。

当然,客观来看,ROCm与当前行业标杆仍存在差距。测试数据显示,其单节点性能相较英伟达B200仍有约5倍距离;若对标PD解耦版本的B200,也存在约1.5倍的提升空间。


然而,市场预期已被显著拉升。信息显示,AMD有望在未来数周内达成剩余的优化目标,进一步收窄与NVIDIA CUDA在软件生态上的差距。值得关注的是,此次性能冲刺的背景是:在DeepSeek V4发布后,AMD ROCm团队是在未提前获取模型权重的情况下启动适配的。仅用约两周时间达成这一里程碑,其技术响应速度与工程执行力已引起业界高度关注。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策