Kimi新论文：把KVCache玩成新商业模式了

2026-04-27阅读 344热度 344

Kimi

Kimi新突破：让大模型推理跨越数据中心，长文本处理迎来新范式

在长上下文处理领域持续深耕的Kimi，再次带来了系统架构层面的重要进展。这一次，他们瞄准了大模型推理服务中一个长期存在的痛点：跨机房资源调度难题。

研究团队提出了一套全新的系统范式——Prefill-as-a-Service（预填充即服务，简称PrFaaS）。其核心突破在于，首次实现了KV Cache跨数据中心的可靠传输，从而将大模型推理中的Prefill（预填充）和Decode（解码）两个阶段，彻底解耦到不同的、异构的硬件集群上运行。

这意味着什么？简单来说，Prefill和Decode任务从此可以“异地恋”，跨越城市甚至地域进行协同。这套方案尤其擅长处理长文本场景，上下文越长，其带来的性能与成本优势就越发明显。可以说，它是为长上下文应用量身定制的“天生圣体”。

这项由月之暗面与清华大学郑纬民院士、武永卫教授团队合作完成的工作，经过了严格的内部验证。在1T参数的混合注意力模型上实测，PrFaaS-PD架构交出了一份亮眼的成绩单：相比传统的同构部署方案，系统吞吐量提升了54%，P90延迟大幅降低了64%；即便是与未做智能调度的朴素异构方案相比，吞吐量也仍有32%的提升。

更关键的是，跨数据中心传输所需的带宽峰值仅为13Gbps，远低于100Gbps的商用以太网上限。这证明，普通的商用网络就足以稳定承载这一跨域调度架构，工程落地门槛大大降低。

为什么必须跨数据中心？

将Prefill和Decode阶段分离部署，如今已成为大模型推理服务的行业标准做法。但这种分离也带来了一个新的束缚：KV Cache的传输高度依赖高带宽、低延迟的RDMA网络，这导致Prefill和Decode被牢牢绑定在同一个RDMA网络域内，无法真正“分家”。

于是，一个现实的矛盾出现了：最适合执行计算密集型Prefill任务的算力芯片（如H200），与最适合处理带宽密集型Decode任务的芯片（如H20），可能分布在不同的数据中心。强行将它们塞进同一个机房，会导致硬件资源配比僵化。

要知道，线上流量是波动的。固定的硬件配比很容易导致“旱的旱死，涝的涝死”——一边资源紧缺排队，另一边却闲置浪费，整体算力利用率大打折扣。

造成这一困境的根本“病灶”，在于KV Cache的带宽墙。研究团队给出了量化数据：以MiniMax-M2.5这类典型的密集GQA架构模型为例，在处理32K上下文时，单实例产生KV Cache的速率高达60Gbps。而跨数据中心的以太网带宽通常只有10-100Gbps，这无异于试图用家用小水管去承接消防水带的流量，根本无力支撑。

因此，为了保证推理流程不卡顿、不产生额外延迟，传统的PD分离架构只能选择使用RDMA网络进行通信。这也就成了它无法突破单数据中心部署的根本原因。

然而，新一代混合注意力架构的出现，带来了破局的曙光。近期，Kimi Linear、Qwen 3.5、MiMo-V2-Flash、Ring-2.5等模型不约而同地采用了“线性注意力+全注意力”的混合架构。在这种设计下，线性注意力层只产生固定大小的循环状态，不会随上下文变长而膨胀；只有全注意力层才会生成与长度成正比的KV Cache。

效果是立竿见影的。在32K上下文长度下：

MiMo-V2-Flash的KV吞吐量仅为4.66Gbps，比MiniMax-M2.5降低了13倍；
Qwen3.5-397B的8.25Gbps，相比同等规模密集模型的33.35Gbps，也降低了4倍；
Ring-2.5-1T模型通过MLA压缩和7:1的混合比例，整体KV内存节省了约36倍。

可以说，“线性注意力+全注意力”混合架构成功地将KV Cache的吞吐需求，从RDMA级别拉低到了普通以太网级别。跨数据中心进行PD分离，终于从理论上的不可能，变成了工程上的可能。

破局方案：PrFaaS架构详解

当然，仅有模型架构的进步是不够的。要将“可能”变为“可用”，还需要一套精巧的系统设计。这正是清华与月之暗面团队提出PrFaaS（预填充即服务）架构的初衷。

PrFaaS的核心思想很直观：将长上下文请求的Prefill计算，选择性地卸载到独立的、由算力密集型芯片（如H200）组成的专用集群去完成。随后，将生成的KV Cache通过普通以太网传输回用户本地的PD集群，再进行Decode。这样一来，两个阶段就能根据各自需求，灵活配置最合适的硬件。

具体如何实现？系统会设定一个动态的长度阈值t。对于短请求（未缓存的上下文长度≤t），依然留在本地PD集群完成全流程。只有那些真正的长请求（未缓存长度＞t），才会被路由到专门的PrFaaS集群进行Prefill。这个阈值t并非固定不变，它会根据实时网络带宽和请求长度分布动态调整，以实现整体效率最优。

整个PrFaaS架构由三个紧密协作的子系统构成：

第一，计算层。 实现真正的“术业有专攻”。PrFaaS集群使用H200等高端算力芯片，专攻长上下文的Prefill这块硬骨头；而本地PD集群则使用H20等带宽优化型芯片，专注于Decode和短请求处理。两类硬件可以独立扩缩容，不再需要强行配对。

第二，网络层。 采用分层设计。集群内部依然使用RDMA保证极低延迟；而跨数据中心之间，则通过VPC或专线，利用通用的以太网来传输KV Cache。这极大地降低了跨机房部署的难度和成本。实验表明，100Gbps的VPC带宽已完全足够。

第三，存储层。 这是设计中最精妙的一环。团队设计了一个混合前缀缓存池，将KV Cache分为两类管理：一类是prefix-cache块，用于集群内的高效复用，必须块对齐才能命中；另一类是transfer-cache块，专门用于跨集群传输，用完即弃，不占用宝贵的长期存储空间。

为何如此设计？根源在于混合注意力模型的KV Cache本身就是异构的。线性层的循环状态是请求级别的，大小固定，必须完全匹配才能复用；而全注意力层的KV Cache是块级别的，支持部分前缀匹配。统一的混合池化管理，既能高效复用本地缓存，又能灵活支持跨集群传输需求。

此外，为了确保生产环境的稳定性，PrFaaS还设计了一套双时间尺度的智能调度算法。简单理解，就是在短时间尺度（毫秒级）进行带宽和缓存感知的实时路由决策；在长时间尺度（分钟级）则根据流量模式的变化，动态重新分配计算资源。

短期调度会监控PrFaaS集群的出口带宽利用率，一旦接近阈值，就自动调高长度阈值t，减少跨中心流量。对于带有前缀缓存的请求，调度器会综合权衡缓存命中位置和当前带宽状况，做出最优路由选择。

长期调度则观察各处理阶段的队列深度和资源利用率。当监测到Prefill成为瓶颈时，系统会将本地PD集群的部分节点从Decode角色切换为Prefill角色；反之亦然。这种动态的资源重分配机制，使得系统能够自适应流量模式的缓慢变化，始终保持高效运行。

从理论到实践：工程可用性验证

任何优秀的架构设计，最终都需要通过严苛的工程实验来验证其可行性。研究团队基于生产级配置，设计了一套完整的对照实验，还原了异构硬件、跨域网络与真实长上下文流量并存的复杂场景。

实验选用团队内部自研的1T参数混合注意力模型，其架构设计与Kimi Linear对齐，采用7:1的线性注意力与全注意力混合比例，在保持模型能力的同时，实现了对KV Cache的高效压缩。

硬件层面，采用了典型的异构组合：负责长上下文Prefill的PrFaaS集群配备了32张H200 GPU；本地PD集群则配备了64张H20 GPU，专注于Decode和短请求处理。

网络层面，通过VPC对等连接模拟跨数据中心环境，提供了约100Gbps的跨集群带宽，这与主流云厂商的互联方案完全一致。

实验负载采用了截断对数正态分布来模拟请求长度，均值约为27K tokens，高度贴近真实的长上下文服务流量特征。

实验结果充分证明了PrFaaS-PD架构的有效性。

在核心性能指标上，相比硬件规模相同的传统同构PD集群，PrFaaS架构将服务吞吐量提升了54%；即便与未做智能调度的简单异构部署相比，吞吐量也仍有32%的提升。

在用户体验关键的延迟指标上，优化效果更为显著，P90首词时延（TTFT）降低了64%。这主要得益于长请求被卸载到专用集群，不再与短请求在本地争抢Prefill资源，从而大幅缓解了排队阻塞问题。

最令人鼓舞的，是工程可行性的数据。PrFaaS集群的平均出口带宽占用仅为13Gbps，在100Gbps的总链路中占比仅13%，留下了充足的带宽冗余。这意味着传输过程完全不会引发网络拥塞或链路抢占。实验最终证实，在混合模型与PrFaaS调度的协同作用下，KV Cache的传输完全可以摆脱对RDMA的依赖，普通商用以太网即可稳定、高效地支撑。

论文团队介绍

这项研究由月之暗面与清华大学合作完成。论文作者包括Ruoyu Qin、Weiran He、Yaoyu Wang、Zheming Li、Xinran Xu、Yongwei Wu、Weimin Zheng、Mingxing Zhang（通讯作者）。

其中，Ruoyu Qin（秦若愚）、Weiran He、Yaoyu Wang、Zheming Li、Xinran Xu（许欣然）五位作者来自月之暗面。值得一提的是，这五位同样是Mooncake分布式推理系统架构的核心贡献者。

本文第一作者秦若愚，是清华大学计算机系MADSys实验室的在读博士生，师从通讯作者章明星副教授。章明星副教授长期专注于KV Cache架构与分布式推理系统的研究。同时，秦若愚也在月之暗面参与工作，并且是Mooncake系统的第一作者。

月之暗面工程副总裁许欣然也位列作者之中。

来自清华大学的作者还包括武永卫教授和郑纬民院士。郑纬民院士是中国工程院院士、清华大学计算机系教授，长期从事并行/分布处理与大规模数据存储系统的科研与教学工作。

武永卫教授是清华大学计算机科学与技术系副主任、博士生导师，同时担任AI基础设施公司趋境科技的首席科学家。此前，月之暗面与清华大学MADSys实验室联合主导开源的Mooncake项目，趋境科技正是其核心共建与深度贡献单位。

参考链接：
[1] https://arxiv.org/abs/2604.15039
[2] https://madsys.cs.tsinghua.edu.cn/people/

Kimi新论文：把KVCache玩成新商业模式了

Kimi新突破：让大模型推理跨越数据中心，长文本处理迎来新范式

为什么必须跨数据中心？

破局方案：PrFaaS架构详解

从理论到实践：工程可用性验证

论文团队介绍

相关阅读

最新教程

最新资讯