马斯克力荐!谷歌TPU v8性能实测:推理效率飙升80%,训练周期锐减

2026-05-19阅读 0热度 0
马斯克

AI算力需求的指数级增长,正将专用芯片的战略价值推向新高。谷歌最新发布的第八代TPU,正是这一趋势下的关键产物。

专为智能体时代打造的这代TPU,其战略路径非常清晰:在“训推分离”的赛道上,谷歌比英伟达走得更远,直接推出了两款物理架构迥异的专用芯片。

面向模型训练的TPU 8t,整体计算性能据称是前代Ironwood的近三倍,能将超大规模模型的训练周期从数月缩短至数周。而专攻推理任务的TPU 8i,其核心目标是在成本不变的前提下,将在线服务吞吐能力提升近一倍。

图片

能效是另一个核心突破点。采用第四代液冷技术后,第八代TPU的每瓦性能比前代提升了近两倍。当性能和功耗这两个关键瓶颈被同步攻克,智能体的大规模、低成本商用部署才真正具备了硬件基石。这也解释了为何新品发布后,业界给出了“真正具备变革性的硬件迭代”的评价。

图片

资本市场的反应最为敏锐。发布会后,谷歌母公司Alphabet的股价盘中最高涨幅达2.2%,显示出投资者对这一技术路线的初步认可。

预计这两款芯片将在今年晚些时候正式投入商用。

Gemini参与设计,两款芯片细节曝光

一个值得关注的细节是,第八代TPU的开发过程有Gemini的深度参与。尽管谷歌未披露具体环节,但官方博客中明确使用了“共同设计”的表述。这款融合了“人机智能”的芯片,最终朝着训练和推理两个方向极致分化,诞生了架构专精的8t与8i。

首先看专攻训练的TPU 8t。相比上一代,它在规模扩展、算力利用率和系统稳定性上进行了全面升级。其超级芯片组可扩展至9600个芯片,配备2PB共享高带宽内存,芯片间互联带宽翻倍,总算力高达121 ExaFlops,支持模型在统一的内存池中直接运行。存储访问速度提升10倍,结合TPU Direct数据直连技术,旨在最大化训练集群的算力利用率。通过Virgo网络、JAX框架和Pathways软件栈,实现了近乎线性的扩展能力,单一逻辑集群可延伸至百万芯片规模。在稳定性方面,通过实时遥测、自动故障链路绕过和光路交换等机制,即使在超大规模下,系统有效吞吐目标仍可维持在97%的高位。

图片

而推理芯片TPU 8i的设计哲学则截然不同,核心追求是“极致低延迟”。为此,谷歌几乎重构了整个推理软件栈。内存方面,通过集成288GB高带宽内存和384MB片上SRAM,将容量提升至上一代的3倍,旨在让模型的活跃参数尽可能驻留片上,大幅减少访存延迟。系统层面,引入自研的Axion CPU架构,并将每台服务器的CPU主机数量翻倍,再通过NUMA进行隔离优化,提升系统协同效率。为适配当前主流的MoE模型,互连带宽提升至19.2 Tb/s,并采用新的Boardfly架构将网络路径长度缩短一半以上,优化多专家模型的协同效率。此外,新增的片上集体加速引擎,将部分需跨芯片完成的全局操作移至芯片内部执行,据称可将此类操作的延迟最高降低至原来的五分之一。

这一系列架构改进的最终结果是,TPU 8i的每美元性能提升约80%,在同等成本下,服务能力接近翻番。

图片

谷歌选择“训推分离”路径的逻辑非常清晰:智能体时代对训练(追求高吞吐)和推理(追求低延迟)的要求存在本质差异。行业实践表明,单一的芯片架构难以同时最优地满足这两类截然不同的负载。既然如此,分而治之便成为必然的技术选择。从第八代TPU的实测表现来看,这种分离策略已显现出显著的性能收益。当然,谷歌敢于推行这条路径,离不开其对从芯片、互联到软件框架的全栈掌控能力。

全栈协同优化的威力

一个关键但易被忽视的架构变化是,从这一代开始,TPU的搭档不再是英特尔或AMD的通用x86 CPU,而是谷歌自研的Axion CPU。这意味着,谷歌可以依据AI工作负载的特性,深度定制CPU与TPU之间的协作机制,从而极致地压榨每一瓦电力所能换取的算力。

面对AI发展的核心约束——能源效率,谷歌的优化已从芯片本身,扩展到整个计算链路。从CPU、TPU、网络到数据中心,全部围绕能效进行系统性重构。例如,将网络连接直接集成进计算芯片,减少节点间不必要的数据搬运开销;实施统一的电源管理策略,根据实时负载动态分配电力,优先保障关键计算环节。

图片

数据中心也从被动的承载设施,转变为主动参与协同设计的环节,供电、任务调度、散热方案均被重新打磨。再结合第四代液冷技术,解决了高功率密度下的散热难题,确保算力能够在更高能效区间稳定运行。

这些全栈优化叠加的效果显著:TPU 8t和8i的每瓦性能相比上一代提升近2倍。若将视角拉升至整个数据中心层面,单位电力提供的总算力在五年内已提升6倍。

更重要的是,谷歌正将这套全栈能力开放给开发者。无需复杂的底层适配,8t和8i原生支持PyTorch、JAX、vLLM等主流AI框架,并提供裸机访问模式,让开发者能直接触及硬件的真实性能。配合MaxText、Tunix等开源工具链,从模型训练到生产部署的路径被进一步打通。这也让谷歌提出“打造面向智能体时代的基础设施”这一愿景时,具备了坚实的技术底气。

市场格局的微妙变化

随着谷歌新一代TPU发布,业界不免将其与当前的算力霸主英伟达进行对比。此前,英伟达CEO黄仁勋在一次播客中被问及:“世界上排名前三的AI模型中有两个——Claude和Gemini,都是在TPU上训练的。这对英伟达未来意味着什么?”他的回答简短而意味深长:“TPU没有威胁。”

图片

在黄仁勋看来,专为AI设计的TPU只是在特定赛道取得了突破,而英伟达构建的是覆盖“全部”场景的加速计算体系。从CUDA软件生态,到支撑AI、数据处理、科学计算等全生命周期应用的能力,英伟达的护城河在于其广泛的适用性和庞大的开发者基础。AI,只是其中当前最炙手可热的一部分。

然而,一个不容忽视的行业趋势是,随着AI应用持续吞噬全球算力,专用AI芯片的战略价值正在被市场重新评估。至少,像马斯克这样的行业关键人物,已经用实际采购行动表明了态度。这场围绕未来算力基础设施主导权的竞争,显然才刚刚进入新的深水区。

图片

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策