AMD数据中心业绩逆袭英伟达,利润暴增
提到AI时代的最大赢家,很多人第一反应无疑是英伟达。老黄靠着给AI厂商“卖铲子”,营收和市值一路遥遥领先,这一切都源于20年前他力排众议、押注CUDA生态——这一把,确实赌对了。
但你可能不会想到,还有一家公司,左手拿着性能干不过英伟达的显卡,右手攥着“过时”的4nm工艺,居然也在AI竞争中赚得盆满钵满。没错,它就是AMD。
等等,这怎么做到的?
前段时间受邀参加了AMD的AI开发者大会,回来后对这个问题有了些答案。
不过这事儿,得从十多年前苏妈靠锐龙翻身那会儿说起。
锐龙诞生之前,AMD的处理器一直活在“i3默秒全”的阴影里。
直到Zen架构横空出世——在“硅仙人”吉姆·凯勒的带领下,初代锐龙IPC性能实打实提升了52%,8核16线程的规格,更是在那个4核称王的年代震撼全场,也拉开了芯片之间“核战争”的序幕。
到了2020年的Zen 3系列,AMD终于一雪前耻:单核、多核性能双双干翻了英特尔同期旗舰。
而这场胜利,也逐渐从消费市场蔓延到数据中心B端。说到数据中心,很多人现在的第一反应,应该是老黄和他的GPU的天下。但其实,从早期虚拟机、云服务,到如今的AI,都离不开CPU的协调调度。
所谓数据中心,就是一个超级物流中心,本质是百万级的“小快递”同时配送。
即便单核CPU再快,面对百万小件,那也是分身乏术;而多核CPU,就像雇了一支庞大的“司机车队”同时出发,还能通过“拼车”(虚拟化)服务更多客户,把效率拉满。
也就是说,到了数据中心这边,别管这那的,就要那个核多的超大杯。
尤其是现在AI智能体兴起,工具调用、任务编排,还得靠CPU来干活。以至于前段时间的GTC(GPU技术大会)上,老黄也掏出了属于英伟达的CPU。
可这事儿,反倒是AMD的老本行了。在锐龙处理器证明了Zen架构的实力之后,AMD的下一步,便是剑指数据中心。
十年前,数据中心的x86处理器,还是英特尔的一言堂:2016年至强Broadwell最高24核,2017年至强Skylake-SP最高28核。
可就在同年,AMD开始爆种,掏出了32核的初代EPYC处理器。
而在接下来的十年里,AMD把EPYC的核心数一路堆到了256核512线程!英特尔也被迫跟进,做出了128个大核、288个小核的产品……
谁说英特尔不会堆核心?这不是挺会的嘛。所以,不是英特尔突然有了良心,只是因为苏妈来过……
当然,光靠“便宜大碗”给家人们谋福利还不够,AMD还祭出了杀手锏——3D V-Cache。
所谓3D V-Cache,指的是在CPU上加一块大容量缓存。像是最早的5800X3D,把L3缓存加到了96M,对比普通版翻了3倍。
缓存大,对于打游戏来说,意味着帧数更高、更稳定。
但缓存大可不只对游戏有用,在数据中心同样能大杀四方。无论是需要超低延迟的金融交易,还是仿真计算、有限元分析这类重计算任务,都能靠3D V-Cache获得夸张的性能提升。
就拿EPYC 9684X来说,96核心塞了足足1152MB三级缓存,相比竞品(至强8490H)的优势几乎达到了3倍。
这些功能特性方面的投入,让AMD在今年彻底收到了回报。事到如今,哪个数据中心会不喜欢AMD的EPYC处理器呢?这种喜欢,在市场份额上就体现得非常真实:2019年之前,Intel在数据中心的份额一度高达97%;可随着EPYC的崛起,这个数字在2025年降到了70%左右。
换句话说,AMD只用了短短6年,就从零拿下了30%的市场份额。看来真香定律,在数据中心这也是能成立的……
靠着向数据中心卖CPU,AMD再也不会像曾经一样风雨飘摇、大厦将倾了。
当然了,大家也都知道,AMD除了CPU,也做显卡生意。然而AMD的显卡——也就是GPU业务,这两年过的则有些……
其实在2018年之前,AMD还是能跟英伟达掰掰手腕的。2006年收购的ATi(也就是如今AMD的图形部门),市场表现一直透着“神鬼二相性”:神的时候王牌对王牌,旗舰卡甚至能小胜英伟达;鬼的时候呢,旗舰卡只能勉强和老黄的中端卡过过招。
转折点,在于老黄的神之一手:2018年,老黄开始在消费级GPU当中集成RT Core和Tensor Core,并且同步推出了光线追踪和DLSS超分技术。如今这两项技术,每个臭打游戏的应该都不会陌生。
可正是这两项碘伏传统光栅化渲染的技术,让AMD一下子陷入了被动:在这之后,两年后的6000系、四年后的7000系显卡,都没能拿出像样的光追和超分支持。
直到2025年9000系显卡的发布,AMD才算有了不错的光追表现。而A卡的超分超帧技术——FSR,早期更是用传统算法糊弄。FSR能用,但效果跟N卡的DLSS差着一截。同样直到随9000系一同推出的FSR4,才是真正基于AI的超分技术,能和DLSS在画面表现上掰掰手腕了。
换句话说,AMD在图形技术方面,花了7年时间才追上老黄的布局。
到了服务器端,剧情就更是大家熟悉的味道了:对AI支持最好、坐拥CUDA生态的N卡直接卖爆。AMD这边确实没老黄那么有前瞻性,对标CUDA的ROCm直到2016年才出现,各类算法的支持和优化功底,也没CUDA那么深厚。
总结下来就是:无论是光追、超分超帧,还是大模型时代的软硬件支持,又或者是硬件性能,AMD的GPU确实不是英伟达的对手。
也正因如此,很长一段时间里,AMD的GPU都是靠“性价比”这一招,吃着老黄看不上的订单。
而AMD维持性价比优势的方法其实挺简单:又不是什么芯片都得用2nm先进制程,更便宜的4nm,甚至5nm工艺其实也够用了嘛。成本更低,卖的自然也可以更便宜。
倒有点“无心插柳”的感觉:随着智能体引爆了市场对CPU和GPU的混合需求,AMD正好是左口袋CPU、右口袋GPU,都能掏出东西来。
既然两边都能自研,那就可以整点不一样的花活了。于是,AMD尝试偷师苹果,把更大规模的CPU和GPU都塞进同一块芯片,再把内存也整合进去。
AI Max+ 395应运而生。这颗U在一颗芯片里,塞入了16核CPU和40CU的“核显”,性能堪比独显的同时,又可以共享系统内存,用超大内存直接跑大模型。
曾经这个活只有苹果能干,可一台大内存的Mac Studio动辄三五万,而一台395的小主机只要一万多。虽然依旧不便宜,但对于那些重度使用大模型、同时又有隐私顾虑的小伙伴来说,这个价钱其实……挺划算的。
当然了,AMD如今的问题也不少。
就拿AI Max+ 395来说,生态短板依旧明显。身边有同事一直用它跑本地大模型:面对主流的LLM模型,AMD的兼容性没啥问题;可一旦想试试图片或者视频生成模型,又或者想进行模型微调,就不太好说了。
面对生态劣势,一方面AMD把ROCm开源,想要借社区的力量来实现对CUDA的“弯道超车”。
另一方面,在这次AMD AI开发者大会上,苏妈给出了一个更适合AMD的答案——围绕性价比,构建一套属于自己的AI生态。
具体来说就是:开发者可以在AI Max+ 395这类终端上快速实现想法,再用AMD显卡的工作站做微调测试,最后在数据中心用AMD GPU完成生产部署。整套流程都跑在AMD的软件生态里,迁移起来自然顺畅得多。
理论归理论,实际用起来怎么样?
大会给出了答案:单台AI Max+ 395最大支持128GB统一内存,能把Qwen 122B模型跑在本地;
4台395互联,还能搞定更大更复杂的任务。同时,AMD还宣布了与魔搭社区的合作,每人有100小时的云端算力体验时间——好不好用,自己试试就知道。
不论是拿下“过时”产能、在硬件上坚持性价比,还是上个月结束的AI开发者大会,如今AMD的种种动作,都是在尝试打造属于自己的软硬件生态。
今年AMD AI开发者大会,选在了对AI开源贡献最大的中国,足以见得AMD对生态的重视。
当补齐生态这块最短的板之后,即便AMD顶着“落后”工艺、性能也比不过的双重Debuff,恐怕也能在市场杀出属于自己的一片天。
撰文:洛洛 & 米罗
编辑:米罗
美编:素描
图片、资料来源:
AMD正式
2026 AMD AI开发者大会
2026 GTC
How Chip Giant AMD Finally Caught Intel
Mercuy Research























