谷歌TPU v8深度解析:双芯片、4倍DCN带宽、9600芯片Pod与80%推理增益

2026-06-18阅读 0热度 0
谷歌

2026年4月23日,Google正式拿出了第八代张量处理单元(TPU)家族——TPU 8t与TPU 8i。这次发布的意义,远不止是新一代芯片的常规迭代,它彻底打破了通用AI翻跟斗那种“一招鲜吃遍天”的设计范式。前几代TPU试图用单一架构覆盖AI的全生命周期,但第八代TPU的做法完全不同:它针对AI产业从大语言模型向混合专家模型(MoEs)、推理密集型架构,甚至智能体AI、世界模型跃迁的核心需求,直接在芯片层面完成了预训练、后训练和实时推理的工作负载分化。从底层拓扑到硬件单元,这是一次全栈重构——用TPU 8t撑起万亿参数模型的超大规模训练,用TPU 8i破解智能体时代的推理延迟墙,并通过Boardfly拓扑创新和算法-硬件正向闭环等设计理念,为Agentic AI与世界模型构建了全新的算力底座。

这次发布的第八代TPU,实现了架构、性能、能效的全方位里程碑式跃升。训练端,TPU 8t带来了最高2.7倍的训练性价比提升、2倍能效优化,凭借SparseCore专用加速单元、原生FP4计算、Virgo新一代网络架构与TPUDirect直访技术,完成了4倍数据中心带宽提升、10倍存储访问速度突破,可支撑超百万芯片规模的线性扩展分布式训练集群。推理端,TPU 8i实现了最高80%的低延迟推理性价比提升,首创Boardfly层次化互联拓扑配合OCS光路交换机,将同规模集群网络直径缩减56%、通信密集型负载延迟降低50%,再搭配专属集合加速引擎(CAE)实现5倍片内集合操作延迟优化——这些数字叠加在一起,彻底破解了智能体长上下文推理与链式思维处理的延迟墙。更值得一提的是,第八代TPU完成了AI算法与硬件设计的正向闭环:DeepMind研发的Alpha Evolve智能体自主设计的底层电路,直接集成于芯片硅片中,形成了“AI算力支撑AI算法创新、AI算法反哺硬件底层优化”的自进化飞轮。

一、设计本源:智能体时代,通用架构已无法匹配AI的分化需求

Google的TPU设计哲学始终围绕三大核心支柱:可扩展性、可靠性、效率。但当下AI产业的变革,正在彻底碘伏传统AI翻跟斗的设计前提:

工作负载的本质分化:AI模型的预训练、后训练、实时推理三大核心阶段,对硬件的需求已经出现根本性背离。预训练需要极致的吞吐量与大规模并行能力,推理则需要极低的延迟与高并发处理能力,单一通用架构无法同时在两个场景实现最优效率。智能体AI的刚性要求:智能体AI需要处理超长上下文窗口、复杂的序列逻辑与多轮推理链,传统架构的延迟瓶颈和同步开销会被无限放大,成为性能天花板。世界模型的算力挑战:以Google DeepMind Genie 3为代表的世界模型,需要让数百万智能体在多样化模拟环境中完成推理训练与行为优化,而非传统的试错学习,这要求硬件在全链路实现极致的能效与调度效率。

正是基于这一行业变革,Google第八代TPU彻底放弃了“一芯通吃”的设计思路,推出两款专用化芯片:TPU 8t专为大规模预训练与嵌入密集型负载优化,TPU 8i专为后训练与高并发推理场景定制。两款芯片均集成Arm架构Axion CPU头,彻底解决了数据准备延迟带来的主机瓶颈,确保TPU算力持续满载,同时共享Google全栈AI软件体系,完整支持AI全生命周期的开发需求。

二、TPU 8t:万亿参数模型的预训练动力源

TPU 8t是Google为大规模预训练打造的算力核心。基于成熟的3D torus网络拓扑,它实现了单超算Pod 9600颗芯片的互联规模,可支撑数百个超算Pod的并行训练,确保万亿参数模型的训练任务稳定推进。其核心架构突破,全部围绕预训练场景的核心瓶颈设计。

1. SparseCore:破解嵌入查找的内存墙瓶颈

嵌入查找是大模型预训练中最常见的操作之一,但其不规则的内存访问模式,是通用芯片最容易出现“零操作瓶颈”的场景——核心计算单元长时间闲置,等待内存数据返回。TPU 8t的核心设计之一,就是专门为这一场景打造的SparseCore专用翻跟斗:与负责矩阵数学运算的矩阵乘法单元(MXU)形成明确分工,SparseCore专门卸载数据依赖的all-gather等集合通信操作,彻底规避通用芯片的闲置问题;同时针对性优化嵌入查找的不规则内存访问模式,让嵌入密集型负载的处理效率实现质的飞跃。

2. VPU/MXU平衡缩放与重叠执行,最大化芯片利用率

大模型预训练的算力浪费,很大一部分来自向量操作与矩阵乘法的串行执行——MXU完成矩阵乘后,需要等待向量处理单元(VPU)完成量化、softmax、层归一化等操作,才能进入下一轮计算。TPU 8t通过更均衡的VPU缩放设计,最小化暴露的向量操作时间,实现了向量操作与MXU矩阵乘法的深度重叠:量化、softmax、层归一化等操作,可与MXU的矩阵乘计算并行执行,彻底消除串行等待的闲置时间,让芯片持续满载,最大化预置FLOPs的实际利用率。

3. 原生FP4支持:突破内存带宽的算力天花板

大模型预训练的核心瓶颈早已不是峰值FLOPs,而是内存带宽——参数规模的指数级增长,让数据移动成为算力释放和能耗优化的最大障碍。TPU 8t首次在TPU架构中引入原生FP4计算支持:直接在硬件层面实现FP4原生计算,让MXU吞吐量直接翻倍,同时在低精度量化下依然保持大模型的训练精度;通过降低单参数的比特数,大幅减少能耗密集型的数据移动操作,让更大的模型层可以完整放入本地硬件缓冲区,实现峰值计算利用率。

4. Virgo网络:为百万级芯片集群打造的超算互联架构

大规模分布式训练的上限,从来不是单芯片算力,而是互联网络的带宽与延迟。为支撑TPU 8t的海量数据需求,Google推出了全新的Virgo网络架构,实现了数据中心网络(DCN)带宽较上一代4倍的提升。

Virgo网络是专为现代AI负载的极端需求设计的横向扩展架构。核心设计亮点包括:采用高基数交换机,通过单交换机更多端口减少网络层级,采用扁平的两层无阻塞拓扑,相比传统数据中心网络,通过最小化网络层级显著降低延迟;采用多平面设计,通过独立控制域实现TPU 8t芯片的全互联,同时TPU 8t机架可与Jupiter南北向架构(Apollo OCS)对接,实现计算与存储服务的访问。单网络Fabric可连接超过134000颗TPU 8t芯片,提供高达47Pbps的无阻塞二分带宽。结合JAX与Pathways分布式框架,可实现单训练集群超过100万颗TPU芯片的扩展规模,总算力超过160万ExaFlops,同时保持近线性的扩展性能。

5. TPUDirect技术:10倍存储访问速度,消除数据摄入瓶颈

预训练任务的另一个核心瓶颈,是数据摄入——海量训练数据的存储读取、芯片间数据传输,往往会让TPU长时间等待数据,导致训练周期拉长。TPU 8t首次引入TPUDirect RDMA与TPUDirect Storage两大技术,彻底绕过主机CPU的瓶颈:TPUDirect RDMA实现TPU的HBM内存与网卡(NIC)之间的直接数据传输,完全绕过主机CPU与DRAM,大幅降低延迟,提升TPU间通信的有效带宽;TPUDirect Storage实现TPU与10T Lustre等高速托管存储之间的直接内存访问,同样绕过主机CPU瓶颈,让海量数据传输的带宽直接翻倍。最终实现了较第七代Ironwood TPU 10倍的存储访问速度,彻底消除数据摄入带来的训练延迟。

三、TPU 8i:智能体推理与高并发服务的专用引擎

如果说TPU 8t是为了“把模型更快地训练出来”,那TPU 8i就是为了“让百万级智能体的推理服务跑得又快又稳”。TPU 8i专为后训练、高并发推理场景优化,针对自回归解码、链式思维处理、MoE模型的核心瓶颈,完成了从片上缓存到互联拓扑的全链路重构。

1. 3倍片上SRAM:把KV缓存完全放进芯片里

长上下文推理的核心痛点,是KV缓存的频繁内存访问。上下文窗口越长,KV缓存越大,需要反复从片外HBM读取数据,导致核心频繁闲置,延迟大幅上升。TPU 8i配备了Google TPU史上最大的片上SRAM,容量达到384MB,是TPU 8t的3倍,较上一代Ironwood TPU实现3倍提升。超大的片上SRAM可以将大模型的KV缓存完全驻留在片上,彻底消除长上下文解码过程中,片外内存访问带来的核心闲置时间,大幅提升长文本推理的吞吐量与延迟表现。

2. 集合加速引擎(CAE):5倍降低片上集合延迟,破解采样瓶颈

自回归解码、链式思维推理的核心操作,是跨核心的结果聚合、归约与同步。这一过程的延迟,直接决定了推理服务的并发上限与响应速度,也就是行业常说的“采样瓶颈”。TPU 8i专门为这一场景打造了集合加速引擎(CAE)。每颗TPU 8i芯片包含2个位于核心裸片的张量核(TC),以及1个位于芯粒裸片的CAE,完全替换了上一代Ironwood TPU核心裸片上的4个SparseCore。CAE可实现跨核心的结果聚合,延迟接近为零,专门加速自回归解码与链式思维处理所需的归约、同步步骤。专用化的CAE设计,让片上集合操作的延迟降低5倍,大幅减少核心等待时间,直接提升了百万级智能体并发运行所需的吞吐量。

3. Boardfly ICI拓扑:为全对全通信重构的互联架构,延迟降低50%

MoE模型与推理负载的核心通信模式,是全对全通信——任意一颗芯片,都可能需要与其他任意一颗芯片通信,完成token的路由。而传统用于训练的3D torus拓扑,虽然适合邻居间的密集通信,但在全对全通信场景下,跳数多、延迟高,会产生严重的“延迟税”。TPU 8i的核心突破,在于针对MoE模型与推理工作负载的全对全通信需求,彻底重构了芯片间互联(ICI)拓扑,推出了全新的Boardfly架构,配合OCS光交换技术,从根源上解决了传统3D Torus拓扑的延迟瓶颈。

3D Torus是Google前代TPU训练集群的核心拓扑,其优势在于适配稠密训练的邻居到邻居通信模式,可实现数千芯片的线性扩展,但在推理与MoE场景中存在致命短板:推理与MoE模型的核心是全对全通信,任意芯片可能需要与其他任意芯片完成token路由、专家调度、KV缓存同步,通信延迟直接由芯片间的跳数决定。官方技术文档给出的量化数据很直观:在1024芯片的标准集群配置下,3D Torus拓扑的最大跳数计算公式为16 hops,即最坏情况下,芯片间通信需要跨越16跳,带来极高的延迟税与尾延迟波动,成为自回归解码、链式思维处理的核心瓶颈。Boardfly拓扑正是为解决这一痛点设计,其核心理念源自Dragonfly拓扑原则,通过高基数设计与光链路扁平化网络,最小化全对全通信的网络直径,大幅降低通信延迟。

Boardfly的三层层次化架构详解

Boardfly采用原生的层次化设计,从芯片到托盘、板组、Pod完成全层级无阻塞互联,每一层都针对全对全通信做了极致优化,同时完整集成OCS光交换技术。

第一层:基础构建块(Building Block, BB)
物理构成:每个托盘(tray)为一个基础BB单元,通过内部ICI链路形成4芯片全连接环,单BB内任意芯片间通信无额外跳数,实现本地通信的最低延迟。每个BB预留16个外部连接端口,为上层组间、Pod间组网提供充足的链路资源,避免端口瓶颈。
第二层:本地组(Group, G)
物理构成:8个BB(8个托盘/板)通过铜缆完成全连接,形成一个本地化通信组。每个BB的16个外部端口中,11个用于组内全连接通信,确保组内任意两个BB之间的通信仅需1跳,无阻塞、无转发,大幅降低组内全对全通信的延迟。这一设计完美适配MoE模型的组内专家路由,以及单组内的长上下文KV缓存同步需求。
第三层:Pod架构与OCS光交换核心
物理构成:最终的TPU 8i Pod由36个Group组成,最大支持1024个活跃芯片。OCS光交换通过长距离光链路直接打通跨Group的通信通道,避免了传统多级电交换的跳数累积,实现了网络的扁平化。

通过OCS的全连接调度,Pod内任意两个芯片之间的通信,最大跳数仅为7跳。相比同规模3D Torus拓扑的16跳,这意味着56%的网络直径缩减——数字背后,是实打实的延迟优化。

四、TPU 8t vs TPU 8i:核心规格完整对比

两款芯片共享Google TPU的核心技术体系与软件栈,但针对不同场景完成了专用化优化。

五、全栈软件支撑:硬件专用化,开发无门槛

硬件的上限由软件决定。Google第八代TPU完全继承了第七代Ironwood TPU的性能优先软件栈,在实现硬件专用化的同时,确保开发的便捷性与可移植性。

全框架兼容方面,在Ironwood TPU上运行的JAX、PyTorch、Keras代码,无需修改即可直接在第八代TPU上实现规模扩展,同时完整支持Eager Mode等原生特性。自定义内核开发方面,提供Pallas自定义内核语言的一流支持,允许开发者用Python编写硬件感知的内核,同时深度适配TPU 8t的SparseCore等专用硬件单元。编译器底层优化方面,加速线性代数编译器(XLA)会在底层自动处理Boardfly拓扑、CAE同步等复杂的硬件适配,开发者只需聚焦模型本身,无需关注底层互联细节。超大规模分布式支持方面,原生集成Pathways系统,支撑超过100万颗TPU芯片的单集群分布式训练,实现近线性的性能扩展。

值得注意的是,第八代TPU实现了算法-硬件闭环的里程碑式突破:AI智能体直接参与了TPU的底层电路设计。DeepMind所研发的Alpha Evolve编码智能体,不仅在短短几天内优化了困扰人类56年的Strassen矩阵乘法算法,更提出了一套反直觉但效率极高的电路设计方案,该方案被直接集成到第八代TPU的硅片中。这一突破形成了完整的正向循环:TPU支撑AI智能体的研发,AI智能体反过来优化TPU的底层设计,实现了“TPU的大脑设计下一代TPU的身体”,彻底打破了传统人类主导的硬件设计范式。

六、代际跃升:性能、能效、性价比的全面突破

与第七代Ironwood TPU相比,第八代TPU实现了全维度的性能飞跃:训练性价比方面,TPU 8t在大规模训练场景,实现了最高2.7倍的每美元性能提升;推理性价比方面,TPU 8i在大MoE模型的低延迟服务场景,实现了最高80%的每美元性能提升;能效表现方面,两款芯片均实现了最高2倍的每瓦性能提升,为AI的可持续规模化发展提供了核心支撑;存储访问方面,TPU 8t实现了10倍的存储访问速度提升,彻底消除数据摄入瓶颈;推理延迟方面,TPU 8i实现了片上集合操作5倍延迟降低,通信密集型负载最高50%的延迟优化。

七、写在最后:为智能体时代打造的算力基石

从2013年第一代TPU诞生至今,Google的每一代TPU都在推动AI产业的边界突破。从AlphaGo、AlphaFold,到Gemini多模态大模型,再到如今的Genie 3世界模型与智能体AI,TPU始终是Google AI突破的底层算力支撑。第八代TPU的发布,标志着AI基础设施正式进入专用化时代。Google没有选择在单一架构上堆高峰值算力,而是直面AI全生命周期的分化需求,用两款深度定制的芯片,分别解决预训练的吞吐量瓶颈与推理服务的延迟天花板,同时通过统一的软件栈,消除了专用化带来的开发门槛。

正如Google官方所言:世界模型的出现需要基础设施的突破,智能体时代同样如此。那些在持续反馈循环中完成规划、执行、学习的推理智能体,无法在原本为传统训练或事务性推理优化的硬件上实现峰值效率——它们的运算强度有着本质区别。而第八代TPU,正是Google为智能体时代交出的答案。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策