2024年AI算力紧缺:H200与H100价格飙升及市场影响深度解析
2026年5月,硅谷的焦虑核心已从算法模型转向了算力本身——一场席卷整个AI产业的“算力饥荒”正达到前所未有的峰值。
最具讽刺意味的图景,恰恰出现在那些制造算力的人身上:他们自己也陷入了争夺。
在英伟达内部,应用深度学习研究负责人Bryan Catanzaro向黄仁勋申请训练卡,以缓解团队因资源不足产生的压力。他得到的回复却令人意外:“抱歉,那些卡已经售出了。”Catanzaro是十多年前最早洞察到GPU正被AI研究大规模采用的内部关键人物,他的判断推动了英伟达全力押注AI。如今,这位为公司指明方向的功臣,却无法获得公司自产的GPU。
比“卖铲人无铲可用”更富戏剧性的故事发生在谷歌。去年夏天,DeepMind研究员Andrew Dai认定视觉推理是重要方向,提交了TPU资源申请。审批迟迟未下,原因并非项目价值不足,而是其无法直接服务于下一代Gemini模型。当时的内部原则清晰:资源优先保障付费客户与核心旗舰项目。正如华盛顿大学荣誉教授Oren Etzioni所言,“在谷歌,每一块TPU背后都有三位争夺者。”现实逻辑残酷:若项目不能直接创收,便是在与客户争夺资源。Dai最终选择离职创业,与他做出相同选择的还有研究员Anna Goldie。
耐人寻味的是,谷歌试图挽留Goldie的筹码并非薪酬或期权,而是承诺提供更多TPU算力。Goldie依然离开,并成功融资3.35亿美元。她坦言,这笔资金能买到的算力,与DeepMind当初挽留她时开出的条件相当。当大厂内部的算力演变为一种“组织权限”时,出走便成了获取资源的唯一路径。
而在大厂围墙之外,独立开发者和研究员的处境更为严峻:他们连租赁算力卡都变得异常困难。
情况紧迫到了什么程度?
近期,AI领域知名人物Andrej Karpathy发帖吐槽,他在录制nanochat教学视频时突然意识到,如果实验的第一步是要求学员“从云平台启动一台8×H100服务器”,那么绝大多数人将直接倒在起跑线上。这番感慨迅速引发共鸣,评论区成为开发者资源困境的集中展示区。
H100一卡难求,H200价格一夜飙升30%
有网友尖锐指出,真正的第一步或许还不是启动服务器,而是经历漫长的配额审批等待。如今,多数普通用户甚至没有资格提交8×H100实例的申请。
开发者直接晒出后台截图:RunPod上多种GPU型号显示“不可用”;Azure启动H100虚拟机失败,提示容量不足;Google Colab选择GPU后,被系统自动降级至G4实例。
开发者Rohan Bansal看着账户里仅存的两个H100实例,在社交平台感叹:“紧紧抓住,如同救命稻草”。
资源紧缺推高价格尚可理解,但此番涨价态势颇为异常。按照技术迭代规律,新一代产品面市,旧款理应降价。B200已稳定供货,而四年前发布的H100价格却逆势上涨。SemiAnalysis数据显示,H100一年期合约的时租在半年内上涨近40%,从2025年10月的1.70美元涨至2026年3月的2.35美元。
现货市场情况更夸张。Lambda平台的报价已飙升至每小时4美元以上,是两年前价格的两倍。而H200的现货价格甚至比新一代的B200还要昂贵。“价格翻了两倍多,通常极难抢到,需要编写脚本紧盯API才有一线机会。”
图注:H200价格从每小时4.96美元涨至6.40美元,涨幅达29%;而更新一代的B200价格为每小时5.68美元。
5%的利用率与B200价格倒挂
一面是高端GPU一卡难求,另一面却是算力中心内极低的利用率。Cast AI的报告显示,不少大型企业GPU集群的平均利用率仅在5%左右。此前,马斯克的兆瓦级算力中心“Colossus”的模型算力利用率也仅为11%。
企业意识不到这种浪费吗?并非如此,更多是不敢释放。试想:排队数月后,云厂商销售来电告知:“您要的卡现在只剩36张,必须签一年长约。不要的话,后面还有五家等着。”此时,决策核心已从“公司是否需要租用这么长时间”转变为“我敢不敢错过这笔订单”。于是,先签下来再说,即便闲置也不敢释放,因为交出去的算力卡可能再也无法收回。
这揭示了一个更深层的问题:芯片短缺不仅是产能问题,更是流动性短缺。它们被锁在企业的长期合约里,困在云厂商的容量池中,唯独不在普通开发者当晚能够点击购买的页面上。短缺制造恐慌,恐慌催生囤积,囤积则加剧短缺,形成一个自我强化的恶性循环。
这种流动性的枯竭,也放大了一个结构性矛盾:为何偏偏是H100/H200被推上天价,甚至贵过新一代B200?
答案在于,算力市场的定价逻辑从来不是“谁更新”,而是“谁更好用、生态更成熟”。过去抢购GPU,想象的是巨头训练下一代大模型,追求极致性能。如今,消耗算力的场景已呈指数级增长:模型推理、代码智能体、强化学习后训练、自动评估、小模型复现、教学实验……都在持续吞噬算力。
对于这些海量且多样的需求而言,B200所代表的下一代性能上限并非首选。工程领域的共识是:最先进不等于最好用,真正值钱的是确定性和成熟的软件生态。H100/H200性能足够强大,且生态极为成熟。你用H100跑测试,行业基准数据也是基于H100;你用H200做推理,调参经验已有大量前人积累。相比之下,新一代芯片再强大,也需要时间让软件框架、集群调度和成本模型完成全面适配。
于是,训练市场尚未完全转向Blackwell架构,推理和后训练市场的需求又层层叠加。旧卡本应退场,却因其提供的“确定性”而成为市场刚需。
AI民主化,卡在了算力门槛
这一轮芯片荒,与过去有着本质不同。以往的缺芯是顶级AI实验室的军备竞赛,巨头们争夺GPU以训练更大的模型。而这一次,焦虑正在向下渗透,变得全民化。
Karpathy录教程要先考虑学员能否拿到8张H100;LocalLLaMA社区在讨论能否用本地Mac硬扛;高校研究员担心申请不到算力,小团队则忧虑扩容请求被大客户挤占。这背后早已不是“我要训练GPT-5”的宏大野心,而是一个更朴素、更迫切的疑问:我只是想复现一个实验,为什么第一步就变成了抢算力?
过去几年,AI开源运动确实降低了诸多门槛:模型权重可以下载,代码可以复刻。但算力关上了另一扇门。代码可以开源,但H100无法被复刻。真正的AI研究从来不只是读懂代码,更在于能够跑通实验、复现结果,经历调参、失败与无数次重来。如果每次实验的前提都是获取一组昂贵且不稳定的GPU,那么开源所倡导的平等,将被算力的不平等悄然抵消。
从谷歌研究员离职创业,到英伟达内部争夺GPU,再到Karpathy的教学视频卡在8张H100上,这些事件指向同一个趋势:算力正在从一种普惠的基础设施,演变为一种残酷的筛选机制。它筛选掉的未必是缺乏创意的人,而是那些没有充足预算、没有内部配额、没有长期合同的群体。
这便是AI民主化面临的最尴尬现实:模型越来越开放,但真正能将其跑起来的人,可能并未同步增多。
国内开发者的痛点:过渡期的多重压力
将视线拉回国内,情况则更为复杂。如果说海外开发者是在成熟的生态中争夺H100/H200的现货,那么国内开发者正面临着过渡期的多重压力考验,需要在新的算力格局中寻找“能用且好用”的解决方案。
某云平台H100的排期已到2027年第一季度,更多云服务商同样面临高端卡供应瓶颈,“有钱也租不到”成为真实的用户反馈。与此同时,高端卡的获取仍受政策环境影响,尽管国产算力替代正在加速。然而,从CUDA生态体系切换的工程成本真实存在——适配层、代码改动、调试周期,对于小团队而言绝非轻松的迁移。
说到底,大家面临的底层困境虽有差异,但核心体验是相通的。算力底座从来不是一个宏大的概念,而是非常具体的感受:实例能否顺利启动、价格是否能够承受、实验结果能否稳定复现。
今天AI领域真正稀缺的,或许并非最新的芯片,而是普通人能够稳定获取、立即上手、并能产出可靠结果的有效算力。这才是横亘在创新者面前最现实的那道坎。
参考链接
Even Nvidia’s own research teams can’t get enough GPUs amid the race for AI computing power(https://fortune.com/2026/04/09/nvidia-gpu-shortage-impacts-even-nvidias-own-research-teams-bryan-catanzaro-eye-on-ai/)
The Great GPU Shortage – Rental Capacity – Launching our H100 1 Year Rental Price Index(https://newsletter.semianalysis.com/p/the-great-gpu-shortage-rental-capacity)
FOMO is why enterprises pay for GPUs they don't use — and why prices keep climbing(https://venturebeat.com/infrastructure/fomo-is-why-enterprises-pay-for-gpus-they-dont-use-and-why-prices-keep-climbing)
https://semianalysis.com/gpu-pricing-index/
Nvidia A100 vs H100 vs B200 GPU Rental Price and Performance(https://ornn.com/insights/nvidia-a100-vs-h100-vs-b200-gpu-rental-price-and-performance)









