智谱AI与清华联合研发:下一代大模型推理架构ZCube深度解析

2026-05-21阅读 0热度 0
Cube

在大模型推理集群的部署中,网络架构常常成为那个“看不见的瓶颈”。尤其是当计算与存储分离(PD分离)成为主流选择后,跨节点传输KV Cache所产生的动态、不对称流量,很容易在传统的Clos网络结构中形成局部热点,引发拥塞和性能抖动。有没有一种方法,能从网络拓扑的根源上解决这个问题?最近,由智谱AI、驭驯网络与清华大学联合推出的ZCube,给出了一份颇具启发性的答卷。

ZCube – 智谱AI联合清华推出的下一代大模型推理网络架构

ZCube是什么

简单来说,ZCube是一套专为应对PD分离部署中结构性网络拥塞而设计的下一代大模型推理网络架构。它的核心思路相当大胆:直接取消传统三层Clos网络中的Spine层交换机,转而采用全网扁平化的拓扑结构,并创新性地引入了单轨与多轨混合的GPU接入机制。这套组合拳的目标非常明确——实现全局流量的彻底解耦与离散化路由。

效果如何?在GLM-5.1 coding模型的实际生产环境测试中,在保持GPU硬件和软件栈完全不变的前提下,ZCube架构成功将交换机与光模块的资本支出降低了33%。更关键的是性能提升:GPU的平均推理吞吐提升了15%,而衡量用户体验的首Token响应时间(TTFT)的P99分位数更是显著降低了40.6%。这些数字背后,是网络瓶颈被实质性打破的证明。

ZCube的主要功能

  • 取消Spine层的扁平化组网:这可以说是ZCube最碘伏性的设计。它摒弃了传统Clos架构层层堆叠的思路,只保留Leaf交换机层,并通过一种称为“完全二部图”的方式将所有Leaf交换机互联起来。这样一来,网络中任意两点间的通信距离(网络直径)就从传统的3跳被压缩到了仅需2跳。
  • 单/多轨混合接入机制:这是实现流量离散化的关键。ZCube将Leaf交换机分为两组,一组以“单轨”方式连接连续编号的GPU,另一组则以“多轨”方式连接相同编号的GPU。这种巧妙的差异化接入设计,使得PD分离产生的那种动态、不对称的流量,在进入网络时就被天然地打散到了不同的路径上。
  • 全局负载均衡路由:得益于其独特的拓扑和接入规则,ZCube的路由策略能够确保任意两块GPU之间只存在一条唯一的最优路径。这就从根本上避免了多路径路由中常见的流量冲突和哈希不均问题,无论是在训练还是推理场景下,都能实现接近理想的全局负载均衡。
  • 结构性拥塞消除:上述所有功能的最终指向,都是解决那个根本性问题。ZCube通过架构层的创新,将KV Cache的跨节点传输流量进行了全局性的解耦与离散化,从而从源头上消除了导致局部热点链路和PFC反压的结构性原因。

ZCube的技术原理

要理解ZCube为何有效,需要稍微深入一下其技术内核。它的工作原理可以拆解为以下几个紧密关联的部分:

  • 完全二部图拓扑:这是网络扁平化的基础。所有Leaf交换机会被按照奇偶序号分为两组,组内的交换机之间互不连接,而组间的每一台交换机则与另一组的所有交换机实现全连接。这就形成了一个高度对称且简洁的扁平网络。
  • 双端口差异化接入:每张GPU网卡通常配备两个端口,ZCube对这两个端口做了差异化分工。一个端口以单轨模式连接至奇数编号的Leaf交换机,另一个端口则以多轨模式连接至偶数编号的Leaf交换机。通过一套精密的数学映射公式,实现了确定性的、离散化的路由。
  • 确定性最短路径路由:路由计算本身变得异常简洁高效。基于GPU编号和交换机编号进行模运算和向上取整映射,可以确保任意两个GPU之间的通信,必然且仅经过两台特定的Leaf交换机,这条路径就是全局最优且唯一的。
  • 流量模式适配:这套架构仿佛是专为PD分离的流量特征量身定制的。它不需要依赖复杂的自适应路由算法或报文喷洒(Spray)等传输层机制,仅凭其拓扑结构本身,就能将源-目的不对称、动态变化的KV Cache传输流量自然地分散到全网,实现“以静制动”。

如何使用ZCube

将ZCube从理论架构落地到生产环境,遵循一套清晰的步骤:

  • 架构规划:首先,根据集群规模,将Leaf交换机按奇偶序号进行分组,并规划设计完全二部图的互联拓扑,这意味着你需要告别传统的Spine层交换机。
  • 端口接入配置:为集群中的每一张GPU网卡配置其双端口的接入策略,严格按照单轨(连接奇数交换机)与多轨(连接偶数交换机)的混合模式进行连线。
  • 自动化部署:利用ZCube提供的控制器、机房布局设计工具以及连线正确性检测程序,可以高效地完成配置的自动生成与批量下发,大幅降低部署复杂度和出错概率。
  • 生产验证:在推理服务正式上线前,务必进行严格的带宽、时延和PFC事件监控。确认全网无结构性拥塞热点后,再进行流量切换,确保平稳过渡。

ZCube的核心优势

综合来看,ZCube带来的价值是多维且显著的:

  • 成本显著降低:在同等规模下,相比传统的Clos或其优化变体ROFT,ZCube能节省约33%的交换机和光模块投入。折算到万卡级别的智算集群,网络硬件投资节省可能高达数亿元。
  • 推理性能提升:生产环境实测数据最有说服力。GLM-5.1 coding模型上实现的15%以上吞吐提升和40.6%的TTFT P99下降,直接转化为更高的服务效率和更好的用户体验。
  • 超强扩展能力:基于当前主流的51.2T交换机,ZCube架构可以构建连接超过1.6万块400Gbps网卡的扁平网络。通过多平面划分,其理论可扩展性能够支持数万乃至数十万GPU的互联,为未来集群的膨胀预留了空间。
  • 零侵入式升级:这一点对于已有关键业务尤为重要。采用ZCube无需改动现有的GPU硬件、驱动、软件栈或上层应用逻辑,仅仅通过网络架构层的调优,就能释放出被瓶颈束缚的硬件潜能,升级风险极低。

ZCube的项目地址

  • 若希望了解更详细的技术细节、设计论文或最新动态,可以访问其项目官网:https://z.ai/blog/zcube

ZCube的同类竞品对比

为了更清晰地定位ZCube,我们将其与当前领域内另一种先进的网络架构ROFT进行对比:

对比维度 ZCube ROFT(Rail-Optimized Fat-Tree)
网络架构 扁平化二部图,取消Spine层 两层Fat-Tree,保留Spine层
网络直径 2跳 3跳
负载均衡 全局理想均衡,单路径无冲突 静态Rail映射,推理场景易失衡
拥塞控制 从架构层消除结构性拥塞 易产生局部热点和PFC反压
硬件成本 降低33%交换机和光模块 标准Clos成本
推理吞吐 提升15% 基准
TTFT P99 降低40.6% 基准
扩展规模 数万至数十万GPU 受Spine层容量限制

ZCube的应用场景

综上所述,ZCube并非一个通用网络方案,而是在特定场景下能发挥巨大价值的专用架构:

  • 超大规模LLM推理集群:尤其适用于采用PD分离部署的千卡至万卡级别推理集群,是解决KV Cache跨节点传输网络瓶颈的一剂“靶向药”。
  • 长上下文推理服务:随着模型上下文窗口不断增长,长序列推理对网络带宽更为敏感。ZCube架构能有效缓解网络对首Token时延和整体吞吐的制约。
  • 高密度智算中心:为同时承载训练和推理混合负载的智算中心,提供了一个高均衡性、低时延、高带宽利用率的网络底座选择。
  • MaaS云服务平台:对于提供模型即服务的云平台,ZCube有助于降低推理服务的综合成本,并在多租户、高并发场景下提升服务尾时延的稳定性,改善SLA。

总的来看,ZCube代表了一种解决网络瓶颈的新思路:与其在复杂的路由算法和流控机制上不断修补,不如从拓扑结构上进行根本性的创新。它用更简洁的架构、更低的成本,换来了更确定、更高效的性能表现,这或许能为未来大规模AI算力基础设施的设计,提供一个重要的参考方向。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策