TPU崛起:AI算力新选择,深度测评对比
TPU的热度,正在以肉眼可见的速度攀升。
仅在过去一个月,围绕谷歌TPU的动向就密集涌现。4月底,谷歌发布第八代TPU,做出了一项关键决策——将训练和推理拆解为两款独立的专用芯片。随后,市场上传出谷歌向英特尔下达大规模采购订单,并计划与三星联合开发新一代TPU的消息。尽管谷歌尚未对这些传闻做出公开回应,但一个趋势已愈发清晰:随着谷歌TPU大规模入局,过去几年几乎垄断AI算力叙事的GPU,终于不再是唯一的焦点。当算力需求的重心从模型训练转向推理部署,TPU的优势逐步显现,它正从“辅助角色”稳步走向舞台中央。
先梳理这两种芯片的基本差异。GPU问世已有二十余年,全称图形处理器,技术生态极为成熟,代表厂商是英伟达和AMD。而TPU是谷歌自2015年起专门为AI场景设计的新品类,全称张量处理器,其核心使命是高效执行深度学习中最常见的矩阵运算。
集群计算需求爆发
那么,TPU为何偏偏在当下成为行业焦点?要理解这一点,首先需要看清市场需求正在发生的结构性转变。
国家数据局发布的《全国数据资源调查报告(2025年)》显示,2025年中国AI推理数据量首次超越训练数据量。TrendForce集邦咨询预测,北美五大云服务商2026年AI训练算力将增长56%,而推理算力预计暴增122%,后者增速是前者的两倍以上。IDC也预测,到2029年,中国市场的推理算力占比将接近80%。
推理正在成为算力需求的主战场,而这一转变恰好为TPU打开了机会窗口。
原因之一是,模型规模不断膨胀,单颗芯片已无法独立承载。必须依赖多颗芯片组成的集群协同才能完成推理任务,而TPU在集群效率方面拥有先天优势。中昊芯英创始人杨龚轶凡用一个比喻解释:“智能体正在逐步替代人类的部分工作,本质是用写程序的能力控制电脑。只有当模型足够大时,才能完成程序员能做的事。现在模型参数已经从亿级跃迁到万亿级,单颗芯片根本无法装载完整的推理任务,必须依靠几十甚至上百颗芯片互联集群协同运算。”
中昊芯英是一家专注于TPU芯片技术研发的企业。杨龚轶凡进一步指出,GPU的强项在于单卡通用算力和软件生态,而TPU的优势恰恰体现在大规模集群的通信与协同效率上。
一位前谷歌TPU工程师在一档视频节目中给出了更具体的解释:GPU单机内部通过NVLink、板载NVSwitch实现多卡互联,但跨机架的大规模集群仍需额外采购交换机和光模块搭建高速网络,这些配套硬件本身就是一笔庞大的基建开支。而TPU机柜内的芯片可以直接互通,仅在跨机柜扩展时才会用到自研的光电路交换机,完全无需大批量采购商用高速交换设备。在同等集群通信性能下,整体部署硬件成本显著降低。
另一个关键因素是,推理阶段对性价比的敏感度远高于训练阶段。当Token消耗呈指数级暴增,单位算力成本就成为更受关注的指标。从架构上看,TPU作为专用芯片,剔除了GPU的图形渲染、通用计算等冗余功能,将全部算力聚焦于深度学习矩阵运算。杨龚轶凡指出,谷歌TPU在发布时,对比同等生产工艺的GPU,实现了3到5倍的性能提升。
细分场景中的选型策略
那么,究竟什么场景下更适合GPU,什么场景下TPU更优?这个问题需要回到芯片设计的原点来审视。
杨龚轶凡解释道,GPU最初是为在电脑屏幕上渲染逼真的3D游戏画面而设计的。它需要将三维物体从各个角度计算成二维画面,同时处理光线、颜色,确保画面足够真实。这导致GPU内部集成了上万个计算核心,就像一个大工厂里有一万名工人同时作业。优点是并发能力强,处理图像和矩阵运算速度极快。但缺点也很明显——一旦某个工人算错,很难在上万名工人中快速定位出问题的人。
而AI深度学习的计算模式完全不同。深度学习模型是一层一层递进计算的,每一层内部可以高并发,但层与层之间存在严格的先后顺序。这种模式并不需要GPU那样复杂的调度和通用能力。于是,TPU这类专门为AI设计的芯片应运而生,只聚焦于深度学习最常用的运算类型。
这就像从需要同时调度一万个工人,变为只需调度一千个按固定流水线作业的工人,控制逻辑简单得多。
基于这种架构差异,杨龚轶凡预测,未来AI芯片市场将形成“442”格局:40%是极致性价比的纯ASIC芯片,只能跑固定一两个模型的推理,性价比做到极致;40%是可编程的DSA芯片,比如TPU,支持深度学习网络的算法,芯片利用率虽不及ASIC,但远强于GPU;剩余20%是通用GPU,留给仍在快速演进的新算法和研究场景。
不过,这并不意味着TPU会替代GPU。关键在于具体场景的适配。杨龚轶凡认为,20%的GPU市场将长期存在。原因在于,AI领域的新算法、新方向仍在不断涌现,研究人员需要一个通用、灵活的平台快速验证想法。CUDA生态经过20年打磨,成熟度极高,当新的计算场景出现时,GPU仍是首选。
而TPU的优势在于性价比和生态建设成本。杨龚轶凡举了一个例子:TPU的设计思路是让开发者“只管开车,不用修车”。它的硬件指令专为AI计算优化,同时适配PyTorch这类主流框架。PyTorch就像一个AI“乐高工具箱”,开发者用熟悉的“积木”搭建模型,剩下的交给TPU编译器自动优化,无需为了迁就硬件学习一套新编程语言。相比之下,CUDA更像一套“修车工具”,开发者必须懂“发动机原理”才能驾驭——这套工具是行业积累了十多年的成果。TPU则依托现有成熟AI框架,大幅降低了软件适配门槛,这也是其性价比优势的重要来源。
当下,AI Agents正在逐步进化为全球社会生产力的核心基座,带动Token消耗量指数级攀升,“Token经济”时代已经来临。当Token消耗呈指数级增长,芯片的利用率和性价比成为更关键的比拼维度。TPU正迎来新的发展机遇,它正在成为AI芯片赛道上,除GPU之外的“另一个选择”。