马斯克力荐！谷歌TPU v8性能实测：推理效率飙升80%，训练周期锐减

2026-05-19阅读 0热度 0

马斯克

AI算力需求的指数级增长，正将专用芯片的战略价值推向新高。谷歌最新发布的第八代TPU，正是这一趋势下的关键产物。

专为智能体时代打造的这代TPU，其战略路径非常清晰：在“训推分离”的赛道上，谷歌比英伟达走得更远，直接推出了两款物理架构迥异的专用芯片。

面向模型训练的TPU 8t，整体计算性能据称是前代Ironwood的近三倍，能将超大规模模型的训练周期从数月缩短至数周。而专攻推理任务的TPU 8i，其核心目标是在成本不变的前提下，将在线服务吞吐能力提升近一倍。

能效是另一个核心突破点。采用第四代液冷技术后，第八代TPU的每瓦性能比前代提升了近两倍。当性能和功耗这两个关键瓶颈被同步攻克，智能体的大规模、低成本商用部署才真正具备了硬件基石。这也解释了为何新品发布后，业界给出了“真正具备变革性的硬件迭代”的评价。

资本市场的反应最为敏锐。发布会后，谷歌母公司Alphabet的股价盘中最高涨幅达2.2%，显示出投资者对这一技术路线的初步认可。

预计这两款芯片将在今年晚些时候正式投入商用。

Gemini参与设计，两款芯片细节曝光

一个值得关注的细节是，第八代TPU的开发过程有Gemini的深度参与。尽管谷歌未披露具体环节，但官方博客中明确使用了“共同设计”的表述。这款融合了“人机智能”的芯片，最终朝着训练和推理两个方向极致分化，诞生了架构专精的8t与8i。

首先看专攻训练的TPU 8t。相比上一代，它在规模扩展、算力利用率和系统稳定性上进行了全面升级。其超级芯片组可扩展至9600个芯片，配备2PB共享高带宽内存，芯片间互联带宽翻倍，总算力高达121 ExaFlops，支持模型在统一的内存池中直接运行。存储访问速度提升10倍，结合TPU Direct数据直连技术，旨在最大化训练集群的算力利用率。通过Virgo网络、JAX框架和Pathways软件栈，实现了近乎线性的扩展能力，单一逻辑集群可延伸至百万芯片规模。在稳定性方面，通过实时遥测、自动故障链路绕过和光路交换等机制，即使在超大规模下，系统有效吞吐目标仍可维持在97%的高位。

而推理芯片TPU 8i的设计哲学则截然不同，核心追求是“极致低延迟”。为此，谷歌几乎重构了整个推理软件栈。内存方面，通过集成288GB高带宽内存和384MB片上SRAM，将容量提升至上一代的3倍，旨在让模型的活跃参数尽可能驻留片上，大幅减少访存延迟。系统层面，引入自研的Axion CPU架构，并将每台服务器的CPU主机数量翻倍，再通过NUMA进行隔离优化，提升系统协同效率。为适配当前主流的MoE模型，互连带宽提升至19.2 Tb/s，并采用新的Boardfly架构将网络路径长度缩短一半以上，优化多专家模型的协同效率。此外，新增的片上集体加速引擎，将部分需跨芯片完成的全局操作移至芯片内部执行，据称可将此类操作的延迟最高降低至原来的五分之一。

这一系列架构改进的最终结果是，TPU 8i的每美元性能提升约80%，在同等成本下，服务能力接近翻番。

谷歌选择“训推分离”路径的逻辑非常清晰：智能体时代对训练（追求高吞吐）和推理（追求低延迟）的要求存在本质差异。行业实践表明，单一的芯片架构难以同时最优地满足这两类截然不同的负载。既然如此，分而治之便成为必然的技术选择。从第八代TPU的实测表现来看，这种分离策略已显现出显著的性能收益。当然，谷歌敢于推行这条路径，离不开其对从芯片、互联到软件框架的全栈掌控能力。

全栈协同优化的威力

一个关键但易被忽视的架构变化是，从这一代开始，TPU的搭档不再是英特尔或AMD的通用x86 CPU，而是谷歌自研的Axion CPU。这意味着，谷歌可以依据AI工作负载的特性，深度定制CPU与TPU之间的协作机制，从而极致地压榨每一瓦电力所能换取的算力。

面对AI发展的核心约束——能源效率，谷歌的优化已从芯片本身，扩展到整个计算链路。从CPU、TPU、网络到数据中心，全部围绕能效进行系统性重构。例如，将网络连接直接集成进计算芯片，减少节点间不必要的数据搬运开销；实施统一的电源管理策略，根据实时负载动态分配电力，优先保障关键计算环节。

数据中心也从被动的承载设施，转变为主动参与协同设计的环节，供电、任务调度、散热方案均被重新打磨。再结合第四代液冷技术，解决了高功率密度下的散热难题，确保算力能够在更高能效区间稳定运行。

这些全栈优化叠加的效果显著：TPU 8t和8i的每瓦性能相比上一代提升近2倍。若将视角拉升至整个数据中心层面，单位电力提供的总算力在五年内已提升6倍。

更重要的是，谷歌正将这套全栈能力开放给开发者。无需复杂的底层适配，8t和8i原生支持PyTorch、JAX、vLLM等主流AI框架，并提供裸机访问模式，让开发者能直接触及硬件的真实性能。配合MaxText、Tunix等开源工具链，从模型训练到生产部署的路径被进一步打通。这也让谷歌提出“打造面向智能体时代的基础设施”这一愿景时，具备了坚实的技术底气。

市场格局的微妙变化

随着谷歌新一代TPU发布，业界不免将其与当前的算力霸主英伟达进行对比。此前，英伟达CEO黄仁勋在一次播客中被问及：“世界上排名前三的AI模型中有两个——Claude和Gemini，都是在TPU上训练的。这对英伟达未来意味着什么？”他的回答简短而意味深长：“TPU没有威胁。”

在黄仁勋看来，专为AI设计的TPU只是在特定赛道取得了突破，而英伟达构建的是覆盖“全部”场景的加速计算体系。从CUDA软件生态，到支撑AI、数据处理、科学计算等全生命周期应用的能力，英伟达的护城河在于其广泛的适用性和庞大的开发者基础。AI，只是其中当前最炙手可热的一部分。

然而，一个不容忽视的行业趋势是，随着AI应用持续吞噬全球算力，专用AI芯片的战略价值正在被市场重新评估。至少，像马斯克这样的行业关键人物，已经用实际采购行动表明了态度。这场围绕未来算力基础设施主导权的竞争，显然才刚刚进入新的深水区。

马斯克力荐！谷歌TPU v8性能实测：推理效率飙升80%，训练周期锐减

Gemini参与设计，两款芯片细节曝光

全栈协同优化的威力

市场格局的微妙变化

相关阅读

最新教程

最新资讯