谷歌TPU v8深度解析：双芯片、4倍DCN带宽、9600芯片Pod与80%推理增益

2026-06-18阅读 0热度 0

谷歌

2026年4月23日，Google正式拿出了第八代张量处理单元（TPU）家族——TPU 8t与TPU 8i。这次发布的意义，远不止是新一代芯片的常规迭代，它彻底打破了通用AI翻跟斗那种“一招鲜吃遍天”的设计范式。前几代TPU试图用单一架构覆盖AI的全生命周期，但第八代TPU的做法完全不同：它针对AI产业从大语言模型向混合专家模型（MoEs）、推理密集型架构，甚至智能体AI、世界模型跃迁的核心需求，直接在芯片层面完成了预训练、后训练和实时推理的工作负载分化。从底层拓扑到硬件单元，这是一次全栈重构——用TPU 8t撑起万亿参数模型的超大规模训练，用TPU 8i破解智能体时代的推理延迟墙，并通过Boardfly拓扑创新和算法-硬件正向闭环等设计理念，为Agentic AI与世界模型构建了全新的算力底座。

这次发布的第八代TPU，实现了架构、性能、能效的全方位里程碑式跃升。训练端，TPU 8t带来了最高2.7倍的训练性价比提升、2倍能效优化，凭借SparseCore专用加速单元、原生FP4计算、Virgo新一代网络架构与TPUDirect直访技术，完成了4倍数据中心带宽提升、10倍存储访问速度突破，可支撑超百万芯片规模的线性扩展分布式训练集群。推理端，TPU 8i实现了最高80%的低延迟推理性价比提升，首创Boardfly层次化互联拓扑配合OCS光路交换机，将同规模集群网络直径缩减56%、通信密集型负载延迟降低50%，再搭配专属集合加速引擎（CAE）实现5倍片内集合操作延迟优化——这些数字叠加在一起，彻底破解了智能体长上下文推理与链式思维处理的延迟墙。更值得一提的是，第八代TPU完成了AI算法与硬件设计的正向闭环：DeepMind研发的Alpha Evolve智能体自主设计的底层电路，直接集成于芯片硅片中，形成了“AI算力支撑AI算法创新、AI算法反哺硬件底层优化”的自进化飞轮。

一、设计本源：智能体时代，通用架构已无法匹配AI的分化需求

Google的TPU设计哲学始终围绕三大核心支柱：可扩展性、可靠性、效率。但当下AI产业的变革，正在彻底碘伏传统AI翻跟斗的设计前提：

工作负载的本质分化：AI模型的预训练、后训练、实时推理三大核心阶段，对硬件的需求已经出现根本性背离。预训练需要极致的吞吐量与大规模并行能力，推理则需要极低的延迟与高并发处理能力，单一通用架构无法同时在两个场景实现最优效率。智能体AI的刚性要求：智能体AI需要处理超长上下文窗口、复杂的序列逻辑与多轮推理链，传统架构的延迟瓶颈和同步开销会被无限放大，成为性能天花板。世界模型的算力挑战：以Google DeepMind Genie 3为代表的世界模型，需要让数百万智能体在多样化模拟环境中完成推理训练与行为优化，而非传统的试错学习，这要求硬件在全链路实现极致的能效与调度效率。

正是基于这一行业变革，Google第八代TPU彻底放弃了“一芯通吃”的设计思路，推出两款专用化芯片：TPU 8t专为大规模预训练与嵌入密集型负载优化，TPU 8i专为后训练与高并发推理场景定制。两款芯片均集成Arm架构Axion CPU头，彻底解决了数据准备延迟带来的主机瓶颈，确保TPU算力持续满载，同时共享Google全栈AI软件体系，完整支持AI全生命周期的开发需求。

二、TPU 8t：万亿参数模型的预训练动力源

TPU 8t是Google为大规模预训练打造的算力核心。基于成熟的3D torus网络拓扑，它实现了单超算Pod 9600颗芯片的互联规模，可支撑数百个超算Pod的并行训练，确保万亿参数模型的训练任务稳定推进。其核心架构突破，全部围绕预训练场景的核心瓶颈设计。

1. SparseCore：破解嵌入查找的内存墙瓶颈

嵌入查找是大模型预训练中最常见的操作之一，但其不规则的内存访问模式，是通用芯片最容易出现“零操作瓶颈”的场景——核心计算单元长时间闲置，等待内存数据返回。TPU 8t的核心设计之一，就是专门为这一场景打造的SparseCore专用翻跟斗：与负责矩阵数学运算的矩阵乘法单元（MXU）形成明确分工，SparseCore专门卸载数据依赖的all-gather等集合通信操作，彻底规避通用芯片的闲置问题；同时针对性优化嵌入查找的不规则内存访问模式，让嵌入密集型负载的处理效率实现质的飞跃。

2. VPU/MXU平衡缩放与重叠执行，最大化芯片利用率

大模型预训练的算力浪费，很大一部分来自向量操作与矩阵乘法的串行执行——MXU完成矩阵乘后，需要等待向量处理单元（VPU）完成量化、softmax、层归一化等操作，才能进入下一轮计算。TPU 8t通过更均衡的VPU缩放设计，最小化暴露的向量操作时间，实现了向量操作与MXU矩阵乘法的深度重叠：量化、softmax、层归一化等操作，可与MXU的矩阵乘计算并行执行，彻底消除串行等待的闲置时间，让芯片持续满载，最大化预置FLOPs的实际利用率。

3. 原生FP4支持：突破内存带宽的算力天花板

大模型预训练的核心瓶颈早已不是峰值FLOPs，而是内存带宽——参数规模的指数级增长，让数据移动成为算力释放和能耗优化的最大障碍。TPU 8t首次在TPU架构中引入原生FP4计算支持：直接在硬件层面实现FP4原生计算，让MXU吞吐量直接翻倍，同时在低精度量化下依然保持大模型的训练精度；通过降低单参数的比特数，大幅减少能耗密集型的数据移动操作，让更大的模型层可以完整放入本地硬件缓冲区，实现峰值计算利用率。

4. Virgo网络：为百万级芯片集群打造的超算互联架构

大规模分布式训练的上限，从来不是单芯片算力，而是互联网络的带宽与延迟。为支撑TPU 8t的海量数据需求，Google推出了全新的Virgo网络架构，实现了数据中心网络（DCN）带宽较上一代4倍的提升。

Virgo网络是专为现代AI负载的极端需求设计的横向扩展架构。核心设计亮点包括：采用高基数交换机，通过单交换机更多端口减少网络层级，采用扁平的两层无阻塞拓扑，相比传统数据中心网络，通过最小化网络层级显著降低延迟；采用多平面设计，通过独立控制域实现TPU 8t芯片的全互联，同时TPU 8t机架可与Jupiter南北向架构（Apollo OCS）对接，实现计算与存储服务的访问。单网络Fabric可连接超过134000颗TPU 8t芯片，提供高达47Pbps的无阻塞二分带宽。结合JAX与Pathways分布式框架，可实现单训练集群超过100万颗TPU芯片的扩展规模，总算力超过160万ExaFlops，同时保持近线性的扩展性能。

5. TPUDirect技术：10倍存储访问速度，消除数据摄入瓶颈

预训练任务的另一个核心瓶颈，是数据摄入——海量训练数据的存储读取、芯片间数据传输，往往会让TPU长时间等待数据，导致训练周期拉长。TPU 8t首次引入TPUDirect RDMA与TPUDirect Storage两大技术，彻底绕过主机CPU的瓶颈：TPUDirect RDMA实现TPU的HBM内存与网卡（NIC）之间的直接数据传输，完全绕过主机CPU与DRAM，大幅降低延迟，提升TPU间通信的有效带宽；TPUDirect Storage实现TPU与10T Lustre等高速托管存储之间的直接内存访问，同样绕过主机CPU瓶颈，让海量数据传输的带宽直接翻倍。最终实现了较第七代Ironwood TPU 10倍的存储访问速度，彻底消除数据摄入带来的训练延迟。

三、TPU 8i：智能体推理与高并发服务的专用引擎

如果说TPU 8t是为了“把模型更快地训练出来”，那TPU 8i就是为了“让百万级智能体的推理服务跑得又快又稳”。TPU 8i专为后训练、高并发推理场景优化，针对自回归解码、链式思维处理、MoE模型的核心瓶颈，完成了从片上缓存到互联拓扑的全链路重构。

1. 3倍片上SRAM：把KV缓存完全放进芯片里

长上下文推理的核心痛点，是KV缓存的频繁内存访问。上下文窗口越长，KV缓存越大，需要反复从片外HBM读取数据，导致核心频繁闲置，延迟大幅上升。TPU 8i配备了Google TPU史上最大的片上SRAM，容量达到384MB，是TPU 8t的3倍，较上一代Ironwood TPU实现3倍提升。超大的片上SRAM可以将大模型的KV缓存完全驻留在片上，彻底消除长上下文解码过程中，片外内存访问带来的核心闲置时间，大幅提升长文本推理的吞吐量与延迟表现。

2. 集合加速引擎（CAE）：5倍降低片上集合延迟，破解采样瓶颈

自回归解码、链式思维推理的核心操作，是跨核心的结果聚合、归约与同步。这一过程的延迟，直接决定了推理服务的并发上限与响应速度，也就是行业常说的“采样瓶颈”。TPU 8i专门为这一场景打造了集合加速引擎（CAE）。每颗TPU 8i芯片包含2个位于核心裸片的张量核（TC），以及1个位于芯粒裸片的CAE，完全替换了上一代Ironwood TPU核心裸片上的4个SparseCore。CAE可实现跨核心的结果聚合，延迟接近为零，专门加速自回归解码与链式思维处理所需的归约、同步步骤。专用化的CAE设计，让片上集合操作的延迟降低5倍，大幅减少核心等待时间，直接提升了百万级智能体并发运行所需的吞吐量。

3. Boardfly ICI拓扑：为全对全通信重构的互联架构，延迟降低50%

MoE模型与推理负载的核心通信模式，是全对全通信——任意一颗芯片，都可能需要与其他任意一颗芯片通信，完成token的路由。而传统用于训练的3D torus拓扑，虽然适合邻居间的密集通信，但在全对全通信场景下，跳数多、延迟高，会产生严重的“延迟税”。TPU 8i的核心突破，在于针对MoE模型与推理工作负载的全对全通信需求，彻底重构了芯片间互联（ICI）拓扑，推出了全新的Boardfly架构，配合OCS光交换技术，从根源上解决了传统3D Torus拓扑的延迟瓶颈。

3D Torus是Google前代TPU训练集群的核心拓扑，其优势在于适配稠密训练的邻居到邻居通信模式，可实现数千芯片的线性扩展，但在推理与MoE场景中存在致命短板：推理与MoE模型的核心是全对全通信，任意芯片可能需要与其他任意芯片完成token路由、专家调度、KV缓存同步，通信延迟直接由芯片间的跳数决定。官方技术文档给出的量化数据很直观：在1024芯片的标准集群配置下，3D Torus拓扑的最大跳数计算公式为16 hops，即最坏情况下，芯片间通信需要跨越16跳，带来极高的延迟税与尾延迟波动，成为自回归解码、链式思维处理的核心瓶颈。Boardfly拓扑正是为解决这一痛点设计，其核心理念源自Dragonfly拓扑原则，通过高基数设计与光链路扁平化网络，最小化全对全通信的网络直径，大幅降低通信延迟。

Boardfly的三层层次化架构详解

Boardfly采用原生的层次化设计，从芯片到托盘、板组、Pod完成全层级无阻塞互联，每一层都针对全对全通信做了极致优化，同时完整集成OCS光交换技术。

第一层：基础构建块（Building Block, BB）
物理构成：每个托盘（tray）为一个基础BB单元，通过内部ICI链路形成4芯片全连接环，单BB内任意芯片间通信无额外跳数，实现本地通信的最低延迟。每个BB预留16个外部连接端口，为上层组间、Pod间组网提供充足的链路资源，避免端口瓶颈。
第二层：本地组（Group, G）
物理构成：8个BB（8个托盘/板）通过铜缆完成全连接，形成一个本地化通信组。每个BB的16个外部端口中，11个用于组内全连接通信，确保组内任意两个BB之间的通信仅需1跳，无阻塞、无转发，大幅降低组内全对全通信的延迟。这一设计完美适配MoE模型的组内专家路由，以及单组内的长上下文KV缓存同步需求。
第三层：Pod架构与OCS光交换核心
物理构成：最终的TPU 8i Pod由36个Group组成，最大支持1024个活跃芯片。OCS光交换通过长距离光链路直接打通跨Group的通信通道，避免了传统多级电交换的跳数累积，实现了网络的扁平化。

通过OCS的全连接调度，Pod内任意两个芯片之间的通信，最大跳数仅为7跳。相比同规模3D Torus拓扑的16跳，这意味着56%的网络直径缩减——数字背后，是实打实的延迟优化。

四、TPU 8t vs TPU 8i：核心规格完整对比

两款芯片共享Google TPU的核心技术体系与软件栈，但针对不同场景完成了专用化优化。

五、全栈软件支撑：硬件专用化，开发无门槛

硬件的上限由软件决定。Google第八代TPU完全继承了第七代Ironwood TPU的性能优先软件栈，在实现硬件专用化的同时，确保开发的便捷性与可移植性。

全框架兼容方面，在Ironwood TPU上运行的JAX、PyTorch、Keras代码，无需修改即可直接在第八代TPU上实现规模扩展，同时完整支持Eager Mode等原生特性。自定义内核开发方面，提供Pallas自定义内核语言的一流支持，允许开发者用Python编写硬件感知的内核，同时深度适配TPU 8t的SparseCore等专用硬件单元。编译器底层优化方面，加速线性代数编译器（XLA）会在底层自动处理Boardfly拓扑、CAE同步等复杂的硬件适配，开发者只需聚焦模型本身，无需关注底层互联细节。超大规模分布式支持方面，原生集成Pathways系统，支撑超过100万颗TPU芯片的单集群分布式训练，实现近线性的性能扩展。

值得注意的是，第八代TPU实现了算法-硬件闭环的里程碑式突破：AI智能体直接参与了TPU的底层电路设计。DeepMind所研发的Alpha Evolve编码智能体，不仅在短短几天内优化了困扰人类56年的Strassen矩阵乘法算法，更提出了一套反直觉但效率极高的电路设计方案，该方案被直接集成到第八代TPU的硅片中。这一突破形成了完整的正向循环：TPU支撑AI智能体的研发，AI智能体反过来优化TPU的底层设计，实现了“TPU的大脑设计下一代TPU的身体”，彻底打破了传统人类主导的硬件设计范式。

六、代际跃升：性能、能效、性价比的全面突破

与第七代Ironwood TPU相比，第八代TPU实现了全维度的性能飞跃：训练性价比方面，TPU 8t在大规模训练场景，实现了最高2.7倍的每美元性能提升；推理性价比方面，TPU 8i在大MoE模型的低延迟服务场景，实现了最高80%的每美元性能提升；能效表现方面，两款芯片均实现了最高2倍的每瓦性能提升，为AI的可持续规模化发展提供了核心支撑；存储访问方面，TPU 8t实现了10倍的存储访问速度提升，彻底消除数据摄入瓶颈；推理延迟方面，TPU 8i实现了片上集合操作5倍延迟降低，通信密集型负载最高50%的延迟优化。

七、写在最后：为智能体时代打造的算力基石

从2013年第一代TPU诞生至今，Google的每一代TPU都在推动AI产业的边界突破。从AlphaGo、AlphaFold，到Gemini多模态大模型，再到如今的Genie 3世界模型与智能体AI，TPU始终是Google AI突破的底层算力支撑。第八代TPU的发布，标志着AI基础设施正式进入专用化时代。Google没有选择在单一架构上堆高峰值算力，而是直面AI全生命周期的分化需求，用两款深度定制的芯片，分别解决预训练的吞吐量瓶颈与推理服务的延迟天花板，同时通过统一的软件栈，消除了专用化带来的开发门槛。

正如Google官方所言：世界模型的出现需要基础设施的突破，智能体时代同样如此。那些在持续反馈循环中完成规划、执行、学习的推理智能体，无法在原本为传统训练或事务性推理优化的硬件上实现峰值效率——它们的运算强度有着本质区别。而第八代TPU，正是Google为智能体时代交出的答案。