TPU崛起：AI算力新选择，深度测评对比

2026-06-18阅读 0热度 0

AI算力

TPU的热度，正在以肉眼可见的速度攀升。

仅在过去一个月，围绕谷歌TPU的动向就密集涌现。4月底，谷歌发布第八代TPU，做出了一项关键决策——将训练和推理拆解为两款独立的专用芯片。随后，市场上传出谷歌向英特尔下达大规模采购订单，并计划与三星联合开发新一代TPU的消息。尽管谷歌尚未对这些传闻做出公开回应，但一个趋势已愈发清晰：随着谷歌TPU大规模入局，过去几年几乎垄断AI算力叙事的GPU，终于不再是唯一的焦点。当算力需求的重心从模型训练转向推理部署，TPU的优势逐步显现，它正从“辅助角色”稳步走向舞台中央。

先梳理这两种芯片的基本差异。GPU问世已有二十余年，全称图形处理器，技术生态极为成熟，代表厂商是英伟达和AMD。而TPU是谷歌自2015年起专门为AI场景设计的新品类，全称张量处理器，其核心使命是高效执行深度学习中最常见的矩阵运算。

集群计算需求爆发

那么，TPU为何偏偏在当下成为行业焦点？要理解这一点，首先需要看清市场需求正在发生的结构性转变。

国家数据局发布的《全国数据资源调查报告（2025年）》显示，2025年中国AI推理数据量首次超越训练数据量。TrendForce集邦咨询预测，北美五大云服务商2026年AI训练算力将增长56%，而推理算力预计暴增122%，后者增速是前者的两倍以上。IDC也预测，到2029年，中国市场的推理算力占比将接近80%。

推理正在成为算力需求的主战场，而这一转变恰好为TPU打开了机会窗口。

原因之一是，模型规模不断膨胀，单颗芯片已无法独立承载。必须依赖多颗芯片组成的集群协同才能完成推理任务，而TPU在集群效率方面拥有先天优势。中昊芯英创始人杨龚轶凡用一个比喻解释：“智能体正在逐步替代人类的部分工作，本质是用写程序的能力控制电脑。只有当模型足够大时，才能完成程序员能做的事。现在模型参数已经从亿级跃迁到万亿级，单颗芯片根本无法装载完整的推理任务，必须依靠几十甚至上百颗芯片互联集群协同运算。”

中昊芯英是一家专注于TPU芯片技术研发的企业。杨龚轶凡进一步指出，GPU的强项在于单卡通用算力和软件生态，而TPU的优势恰恰体现在大规模集群的通信与协同效率上。

一位前谷歌TPU工程师在一档视频节目中给出了更具体的解释：GPU单机内部通过NVLink、板载NVSwitch实现多卡互联，但跨机架的大规模集群仍需额外采购交换机和光模块搭建高速网络，这些配套硬件本身就是一笔庞大的基建开支。而TPU机柜内的芯片可以直接互通，仅在跨机柜扩展时才会用到自研的光电路交换机，完全无需大批量采购商用高速交换设备。在同等集群通信性能下，整体部署硬件成本显著降低。

另一个关键因素是，推理阶段对性价比的敏感度远高于训练阶段。当Token消耗呈指数级暴增，单位算力成本就成为更受关注的指标。从架构上看，TPU作为专用芯片，剔除了GPU的图形渲染、通用计算等冗余功能，将全部算力聚焦于深度学习矩阵运算。杨龚轶凡指出，谷歌TPU在发布时，对比同等生产工艺的GPU，实现了3到5倍的性能提升。

细分场景中的选型策略

那么，究竟什么场景下更适合GPU，什么场景下TPU更优？这个问题需要回到芯片设计的原点来审视。

杨龚轶凡解释道，GPU最初是为在电脑屏幕上渲染逼真的3D游戏画面而设计的。它需要将三维物体从各个角度计算成二维画面，同时处理光线、颜色，确保画面足够真实。这导致GPU内部集成了上万个计算核心，就像一个大工厂里有一万名工人同时作业。优点是并发能力强，处理图像和矩阵运算速度极快。但缺点也很明显——一旦某个工人算错，很难在上万名工人中快速定位出问题的人。

而AI深度学习的计算模式完全不同。深度学习模型是一层一层递进计算的，每一层内部可以高并发，但层与层之间存在严格的先后顺序。这种模式并不需要GPU那样复杂的调度和通用能力。于是，TPU这类专门为AI设计的芯片应运而生，只聚焦于深度学习最常用的运算类型。

这就像从需要同时调度一万个工人，变为只需调度一千个按固定流水线作业的工人，控制逻辑简单得多。

基于这种架构差异，杨龚轶凡预测，未来AI芯片市场将形成“442”格局：40%是极致性价比的纯ASIC芯片，只能跑固定一两个模型的推理，性价比做到极致；40%是可编程的DSA芯片，比如TPU，支持深度学习网络的算法，芯片利用率虽不及ASIC，但远强于GPU；剩余20%是通用GPU，留给仍在快速演进的新算法和研究场景。

不过，这并不意味着TPU会替代GPU。关键在于具体场景的适配。杨龚轶凡认为，20%的GPU市场将长期存在。原因在于，AI领域的新算法、新方向仍在不断涌现，研究人员需要一个通用、灵活的平台快速验证想法。CUDA生态经过20年打磨，成熟度极高，当新的计算场景出现时，GPU仍是首选。

而TPU的优势在于性价比和生态建设成本。杨龚轶凡举了一个例子：TPU的设计思路是让开发者“只管开车，不用修车”。它的硬件指令专为AI计算优化，同时适配PyTorch这类主流框架。PyTorch就像一个AI“乐高工具箱”，开发者用熟悉的“积木”搭建模型，剩下的交给TPU编译器自动优化，无需为了迁就硬件学习一套新编程语言。相比之下，CUDA更像一套“修车工具”，开发者必须懂“发动机原理”才能驾驭——这套工具是行业积累了十多年的成果。TPU则依托现有成熟AI框架，大幅降低了软件适配门槛，这也是其性价比优势的重要来源。

当下，AI Agents正在逐步进化为全球社会生产力的核心基座，带动Token消耗量指数级攀升，“Token经济”时代已经来临。当Token消耗呈指数级增长，芯片的利用率和性价比成为更关键的比拼维度。TPU正迎来新的发展机遇，它正在成为AI芯片赛道上，除GPU之外的“另一个选择”。

TPU崛起：AI算力新选择，深度测评对比

集群计算需求爆发

细分场景中的选型策略

相关阅读

最新教程

最新资讯