智谱AI与清华联合研发：下一代大模型推理架构ZCube深度解析

2026-05-21阅读 0热度 0

Cube

在大模型推理集群的部署中，网络架构常常成为那个“看不见的瓶颈”。尤其是当计算与存储分离（PD分离）成为主流选择后，跨节点传输KV Cache所产生的动态、不对称流量，很容易在传统的Clos网络结构中形成局部热点，引发拥塞和性能抖动。有没有一种方法，能从网络拓扑的根源上解决这个问题？最近，由智谱AI、驭驯网络与清华大学联合推出的ZCube，给出了一份颇具启发性的答卷。

ZCube是什么

简单来说，ZCube是一套专为应对PD分离部署中结构性网络拥塞而设计的下一代大模型推理网络架构。它的核心思路相当大胆：直接取消传统三层Clos网络中的Spine层交换机，转而采用全网扁平化的拓扑结构，并创新性地引入了单轨与多轨混合的GPU接入机制。这套组合拳的目标非常明确——实现全局流量的彻底解耦与离散化路由。

效果如何？在GLM-5.1 coding模型的实际生产环境测试中，在保持GPU硬件和软件栈完全不变的前提下，ZCube架构成功将交换机与光模块的资本支出降低了33%。更关键的是性能提升：GPU的平均推理吞吐提升了15%，而衡量用户体验的首Token响应时间（TTFT）的P99分位数更是显著降低了40.6%。这些数字背后，是网络瓶颈被实质性打破的证明。

ZCube的主要功能

取消Spine层的扁平化组网：这可以说是ZCube最碘伏性的设计。它摒弃了传统Clos架构层层堆叠的思路，只保留Leaf交换机层，并通过一种称为“完全二部图”的方式将所有Leaf交换机互联起来。这样一来，网络中任意两点间的通信距离（网络直径）就从传统的3跳被压缩到了仅需2跳。
单/多轨混合接入机制：这是实现流量离散化的关键。ZCube将Leaf交换机分为两组，一组以“单轨”方式连接连续编号的GPU，另一组则以“多轨”方式连接相同编号的GPU。这种巧妙的差异化接入设计，使得PD分离产生的那种动态、不对称的流量，在进入网络时就被天然地打散到了不同的路径上。
全局负载均衡路由：得益于其独特的拓扑和接入规则，ZCube的路由策略能够确保任意两块GPU之间只存在一条唯一的最优路径。这就从根本上避免了多路径路由中常见的流量冲突和哈希不均问题，无论是在训练还是推理场景下，都能实现接近理想的全局负载均衡。
结构性拥塞消除：上述所有功能的最终指向，都是解决那个根本性问题。ZCube通过架构层的创新，将KV Cache的跨节点传输流量进行了全局性的解耦与离散化，从而从源头上消除了导致局部热点链路和PFC反压的结构性原因。

ZCube的技术原理

要理解ZCube为何有效，需要稍微深入一下其技术内核。它的工作原理可以拆解为以下几个紧密关联的部分：

完全二部图拓扑：这是网络扁平化的基础。所有Leaf交换机会被按照奇偶序号分为两组，组内的交换机之间互不连接，而组间的每一台交换机则与另一组的所有交换机实现全连接。这就形成了一个高度对称且简洁的扁平网络。
双端口差异化接入：每张GPU网卡通常配备两个端口，ZCube对这两个端口做了差异化分工。一个端口以单轨模式连接至奇数编号的Leaf交换机，另一个端口则以多轨模式连接至偶数编号的Leaf交换机。通过一套精密的数学映射公式，实现了确定性的、离散化的路由。
确定性最短路径路由：路由计算本身变得异常简洁高效。基于GPU编号和交换机编号进行模运算和向上取整映射，可以确保任意两个GPU之间的通信，必然且仅经过两台特定的Leaf交换机，这条路径就是全局最优且唯一的。
流量模式适配：这套架构仿佛是专为PD分离的流量特征量身定制的。它不需要依赖复杂的自适应路由算法或报文喷洒（Spray）等传输层机制，仅凭其拓扑结构本身，就能将源-目的不对称、动态变化的KV Cache传输流量自然地分散到全网，实现“以静制动”。

如何使用ZCube

将ZCube从理论架构落地到生产环境，遵循一套清晰的步骤：

架构规划：首先，根据集群规模，将Leaf交换机按奇偶序号进行分组，并规划设计完全二部图的互联拓扑，这意味着你需要告别传统的Spine层交换机。
端口接入配置：为集群中的每一张GPU网卡配置其双端口的接入策略，严格按照单轨（连接奇数交换机）与多轨（连接偶数交换机）的混合模式进行连线。
自动化部署：利用ZCube提供的控制器、机房布局设计工具以及连线正确性检测程序，可以高效地完成配置的自动生成与批量下发，大幅降低部署复杂度和出错概率。
生产验证：在推理服务正式上线前，务必进行严格的带宽、时延和PFC事件监控。确认全网无结构性拥塞热点后，再进行流量切换，确保平稳过渡。

ZCube的核心优势

综合来看，ZCube带来的价值是多维且显著的：

成本显著降低：在同等规模下，相比传统的Clos或其优化变体ROFT，ZCube能节省约33%的交换机和光模块投入。折算到万卡级别的智算集群，网络硬件投资节省可能高达数亿元。
推理性能提升：生产环境实测数据最有说服力。GLM-5.1 coding模型上实现的15%以上吞吐提升和40.6%的TTFT P99下降，直接转化为更高的服务效率和更好的用户体验。
超强扩展能力：基于当前主流的51.2T交换机，ZCube架构可以构建连接超过1.6万块400Gbps网卡的扁平网络。通过多平面划分，其理论可扩展性能够支持数万乃至数十万GPU的互联，为未来集群的膨胀预留了空间。
零侵入式升级：这一点对于已有关键业务尤为重要。采用ZCube无需改动现有的GPU硬件、驱动、软件栈或上层应用逻辑，仅仅通过网络架构层的调优，就能释放出被瓶颈束缚的硬件潜能，升级风险极低。

ZCube的项目地址

若希望了解更详细的技术细节、设计论文或最新动态，可以访问其项目官网：https://z.ai/blog/zcube

ZCube的同类竞品对比

为了更清晰地定位ZCube，我们将其与当前领域内另一种先进的网络架构ROFT进行对比：

对比维度	ZCube	ROFT（Rail-Optimized Fat-Tree）
网络架构	扁平化二部图，取消Spine层	两层Fat-Tree，保留Spine层
网络直径	2跳	3跳
负载均衡	全局理想均衡，单路径无冲突	静态Rail映射，推理场景易失衡
拥塞控制	从架构层消除结构性拥塞	易产生局部热点和PFC反压
硬件成本	降低33%交换机和光模块	标准Clos成本
推理吞吐	提升15%	基准
TTFT P99	降低40.6%	基准
扩展规模	数万至数十万GPU	受Spine层容量限制

ZCube的应用场景

综上所述，ZCube并非一个通用网络方案，而是在特定场景下能发挥巨大价值的专用架构：

超大规模LLM推理集群：尤其适用于采用PD分离部署的千卡至万卡级别推理集群，是解决KV Cache跨节点传输网络瓶颈的一剂“靶向药”。
长上下文推理服务：随着模型上下文窗口不断增长，长序列推理对网络带宽更为敏感。ZCube架构能有效缓解网络对首Token时延和整体吞吐的制约。
高密度智算中心：为同时承载训练和推理混合负载的智算中心，提供了一个高均衡性、低时延、高带宽利用率的网络底座选择。
MaaS云服务平台：对于提供模型即服务的云平台，ZCube有助于降低推理服务的综合成本，并在多租户、高并发场景下提升服务尾时延的稳定性，改善SLA。

总的来看，ZCube代表了一种解决网络瓶颈的新思路：与其在复杂的路由算法和流控机制上不断修补，不如从拓扑结构上进行根本性的创新。它用更简洁的架构、更低的成本，换来了更确定、更高效的性能表现，这或许能为未来大规模AI算力基础设施的设计，提供一个重要的参考方向。