智谱AI ZCube架构深度测评:大模型推理吞吐提升15%,网络成本削减33%

2026-05-21阅读 0热度 0
Cube

大模型推理的规模化部署,正对AI基础设施栈提出前所未有的效率挑战。网络,作为连接昂贵算力单元的血脉,其架构创新已成为释放硬件潜能、优化总体拥有成本(TCO)的核心战场。近期,一项由智谱、驭驯网络与清华大学联合推动的研究,完成了从理论设计到生产验证的关键一跃。

智谱联合清华等提出ZCube组网架构:大模型推理吞吐提升15%,网络成本削减三分之一

2025年9月,其提出的ZCube网络架构研究成果已在网络系统顶级学术会议ACM SIGCOMM 2025正式发表。更具里程碑意义的是,2026年5月21日,智谱宣布该架构已在GLM-5.1coding的生产集群中全面部署,并实现了显著的工程性能优化。

生产基准测试数据证实了其价值:在完全相同的GPU硬件、软件栈及上层应用条件下,仅通过替换为ZCube网络架构,便实现了交换机与光模块的资本支出(CapEx)降低33%,GPU平均推理吞吐量提升15%,关键的首Token时延(TTFT P99)更是大幅削减40.6%。这是一次在系统经济性与服务性能层面取得的双重突破。

传统架构的痛点与ZCube的破局思路

传统大规模GPU集群普遍采用Clos或胖树(Fat-Tree)等分层架构,数据包需经过接入层(Leaf)和汇聚层(Spine)的多级转发。随着集群规模指数级增长,网络设备成本随之线性增加,跨Spine层的流量拥塞与路径非最优问题愈发严重,直接拖累了GPU间All-Reduce等集合通信的效率,成为制约大模型训练与推理吞吐的隐形瓶颈。

ZCube架构的颠覆性在于其设计哲学的根本转变。它摒弃了传统Clos架构的层级堆叠模式,果断移除Spine层交换机,创新性地采用两组交换机构建扁平化的二部图互联拓扑。这一设计,结合双端口网卡的单轨与多轨混合接入方案,以及深度优化的路由算法,确保了集群内任意两个GPU节点间都存在一条独占的、路径最优的直连通道。

其直接收益是,从网络拓扑层面实现了流量的天然均匀分布,彻底规避了热点拥塞风险。此外,该架构展现出卓越的横向扩展能力,能够无缝支撑数万至数十万张GPU的超大规模组网,为未来AI算力集群的持续扩张提供了简洁而高效的底层方案。

从论文到生产:平稳落地的挑战与实现

然而,将创新的网络架构从实验室论文迁移至承载核心业务的生产环境,面临诸多严峻挑战。超高密度布线带来的工程复杂性、全局路由策略的重构与验证、以及在线升级过程中保障业务连续性的零中断要求,都是必须攻克的技术与工程难关。

在此次生产落地过程中,驭驯网络团队提供了关键工程保障。通过应用自研的自动化部署与一致性校验工具链,团队高效解决了高密度布线与管理复杂度问题,成功完成了路由策略的全局重构与无缝切换,确保了千卡级别集群的快速、平稳升级。截至目前,基于ZCube架构的新集群已无中断稳定运行超过两周,充分证明了其生产级可靠性。

ZCube架构的成功实践,揭示了一个明确趋势:智算基础设施的优化正从通用互联方案,转向以模型通信范式为核心的系统级协同设计。未来,网络拓扑、通信库(如NCCL)与集群调度器三者的深度耦合与联合优化,将成为进一步提升Token生成效率、降低模型即服务(MaaS)运营边际成本的关键杠杆。这场由应用需求驱动的底层基础设施重构,已然进入深水区。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策