AMD 优化 RDNA 5 显卡核心指令,部分场景性能可近乎翻倍
AMD 深度优化 RDNA 5 核心指令集,特定负载性能有望倍增
开源社区近期披露了一项关键进展。长期追踪 Linux 内核更新的 Coelacanth-Dream 平台指出,AMD 正针对下一代 RDNA 5 GPU 架构进行指令级深度优化。这项底层改进旨在充分释放硬件潜力,预计将在部分高负载应用中实现接近翻倍的图形性能提升。
该发现源于 AMD 提交的一组核心代码。代码显示,RDNA 5 架构将对“双发射向量算术逻辑单元”进行专项强化,旨在显著提升 FP32(单精度浮点)运算的吞吐效率。这并非边缘调整,而是针对计算核心效率的一次根本性重构。
双发射向量算术逻辑单元是一种提升并行计算能力的设计。传统单发射单元每个时钟周期仅能处理一条指令,而双发射设计允许在同一周期内并行处理两条指令,理论上可将特定计算任务的执行效率提升一倍。
这项技术本身并非全新。事实上,AMD 从 RDNA 3 和 RDNA 4 架构开始,已在硬件层面集成了双发射 VALU。该设计通过配备双 ALU 通道,为每个时钟周期执行两条指令提供了物理基础。
此前的瓶颈在于指令调度。尽管硬件支持双发射,但游戏引擎与编译器往往难以生成高效配对的指令序列。这导致两条计算通道无法被持续、充分地利用,硬件潜能未能完全转化为实际性能。
为突破这一调度瓶颈,AMD 在 RDNA 5 中引入了关键指令:融合乘加。FMA 指令本质上是一个高效的“操作打包器”,它使编译器能够更智能地将计算任务配对、组合,并高效分发至并行的计算通道。
通过这项调度优化,GPU 得以更稳定地发挥双发射 VALU 的全部硬件能力,持续逼近理论峰值性能。业界关注的性能倍增预期,正是建立在此类软硬件协同的深度优化之上。
对用户而言,最直接的收益将体现在光栅化渲染游戏中。这项底层优化将转化为更高且更稳定的帧率,直接提升游戏流畅度。
不仅如此,FMA 指令对神经网络推理及各类 AI 工作负载也至关重要。它将为 AMD 下一代 AI 驱动技术——例如图像超分辨率技术(如传闻中的 FSR Diamond)和帧生成技术——提供更坚实的底层算力基础。此举不仅着眼于当前游戏性能,更是为未来的计算密集型应用生态进行布局。


