Kimi新论文:把KVCache玩成新商业模式了

2026-04-27阅读 344热度 344
Kimi

Kimi新突破:让大模型推理跨越数据中心,长文本处理迎来新范式

在长上下文处理领域持续深耕的Kimi,再次带来了系统架构层面的重要进展。这一次,他们瞄准了大模型推理服务中一个长期存在的痛点:跨机房资源调度难题。

研究团队提出了一套全新的系统范式——Prefill-as-a-Service(预填充即服务,简称PrFaaS)。其核心突破在于,首次实现了KV Cache跨数据中心的可靠传输,从而将大模型推理中的Prefill(预填充)和Decode(解码)两个阶段,彻底解耦到不同的、异构的硬件集群上运行。

这意味着什么?简单来说,Prefill和Decode任务从此可以“异地恋”,跨越城市甚至地域进行协同。这套方案尤其擅长处理长文本场景,上下文越长,其带来的性能与成本优势就越发明显。可以说,它是为长上下文应用量身定制的“天生圣体”。

Kimi新论文:把KVCache玩成新商业模式了

这项由月之暗面与清华大学郑纬民院士、武永卫教授团队合作完成的工作,经过了严格的内部验证。在1T参数的混合注意力模型上实测,PrFaaS-PD架构交出了一份亮眼的成绩单:相比传统的同构部署方案,系统吞吐量提升了54%,P90延迟大幅降低了64%;即便是与未做智能调度的朴素异构方案相比,吞吐量也仍有32%的提升。

更关键的是,跨数据中心传输所需的带宽峰值仅为13Gbps,远低于100Gbps的商用以太网上限。这证明,普通的商用网络就足以稳定承载这一跨域调度架构,工程落地门槛大大降低。

为什么必须跨数据中心?

将Prefill和Decode阶段分离部署,如今已成为大模型推理服务的行业标准做法。但这种分离也带来了一个新的束缚:KV Cache的传输高度依赖高带宽、低延迟的RDMA网络,这导致Prefill和Decode被牢牢绑定在同一个RDMA网络域内,无法真正“分家”。

于是,一个现实的矛盾出现了:最适合执行计算密集型Prefill任务的算力芯片(如H200),与最适合处理带宽密集型Decode任务的芯片(如H20),可能分布在不同的数据中心。强行将它们塞进同一个机房,会导致硬件资源配比僵化。

要知道,线上流量是波动的。固定的硬件配比很容易导致“旱的旱死,涝的涝死”——一边资源紧缺排队,另一边却闲置浪费,整体算力利用率大打折扣。

造成这一困境的根本“病灶”,在于KV Cache的带宽墙。研究团队给出了量化数据:以MiniMax-M2.5这类典型的密集GQA架构模型为例,在处理32K上下文时,单实例产生KV Cache的速率高达60Gbps。而跨数据中心的以太网带宽通常只有10-100Gbps,这无异于试图用家用小水管去承接消防水带的流量,根本无力支撑。

Kimi新论文:把KVCache玩成新商业模式了

因此,为了保证推理流程不卡顿、不产生额外延迟,传统的PD分离架构只能选择使用RDMA网络进行通信。这也就成了它无法突破单数据中心部署的根本原因。

然而,新一代混合注意力架构的出现,带来了破局的曙光。近期,Kimi Linear、Qwen 3.5、MiMo-V2-Flash、Ring-2.5等模型不约而同地采用了“线性注意力+全注意力”的混合架构。在这种设计下,线性注意力层只产生固定大小的循环状态,不会随上下文变长而膨胀;只有全注意力层才会生成与长度成正比的KV Cache。

效果是立竿见影的。在32K上下文长度下:

  • MiMo-V2-Flash的KV吞吐量仅为4.66Gbps,比MiniMax-M2.5降低了13倍;
  • Qwen3.5-397B的8.25Gbps,相比同等规模密集模型的33.35Gbps,也降低了4倍;
  • Ring-2.5-1T模型通过MLA压缩和7:1的混合比例,整体KV内存节省了约36倍。

可以说,“线性注意力+全注意力”混合架构成功地将KV Cache的吞吐需求,从RDMA级别拉低到了普通以太网级别。跨数据中心进行PD分离,终于从理论上的不可能,变成了工程上的可能

破局方案:PrFaaS架构详解

当然,仅有模型架构的进步是不够的。要将“可能”变为“可用”,还需要一套精巧的系统设计。这正是清华与月之暗面团队提出PrFaaS(预填充即服务)架构的初衷。

PrFaaS的核心思想很直观:将长上下文请求的Prefill计算,选择性地卸载到独立的、由算力密集型芯片(如H200)组成的专用集群去完成。随后,将生成的KV Cache通过普通以太网传输回用户本地的PD集群,再进行Decode。这样一来,两个阶段就能根据各自需求,灵活配置最合适的硬件。

Kimi新论文:把KVCache玩成新商业模式了

具体如何实现?系统会设定一个动态的长度阈值t。对于短请求(未缓存的上下文长度≤t),依然留在本地PD集群完成全流程。只有那些真正的长请求(未缓存长度>t),才会被路由到专门的PrFaaS集群进行Prefill。这个阈值t并非固定不变,它会根据实时网络带宽和请求长度分布动态调整,以实现整体效率最优。

Kimi新论文:把KVCache玩成新商业模式了

整个PrFaaS架构由三个紧密协作的子系统构成:

第一,计算层。 实现真正的“术业有专攻”。PrFaaS集群使用H200等高端算力芯片,专攻长上下文的Prefill这块硬骨头;而本地PD集群则使用H20等带宽优化型芯片,专注于Decode和短请求处理。两类硬件可以独立扩缩容,不再需要强行配对。

第二,网络层。 采用分层设计。集群内部依然使用RDMA保证极低延迟;而跨数据中心之间,则通过VPC或专线,利用通用的以太网来传输KV Cache。这极大地降低了跨机房部署的难度和成本。实验表明,100Gbps的VPC带宽已完全足够。

第三,存储层。 这是设计中最精妙的一环。团队设计了一个混合前缀缓存池,将KV Cache分为两类管理:一类是prefix-cache块,用于集群内的高效复用,必须块对齐才能命中;另一类是transfer-cache块,专门用于跨集群传输,用完即弃,不占用宝贵的长期存储空间。

Kimi新论文:把KVCache玩成新商业模式了

为何如此设计?根源在于混合注意力模型的KV Cache本身就是异构的。线性层的循环状态是请求级别的,大小固定,必须完全匹配才能复用;而全注意力层的KV Cache是块级别的,支持部分前缀匹配。统一的混合池化管理,既能高效复用本地缓存,又能灵活支持跨集群传输需求。

此外,为了确保生产环境的稳定性,PrFaaS还设计了一套双时间尺度的智能调度算法。简单理解,就是在短时间尺度(毫秒级)进行带宽和缓存感知的实时路由决策;在长时间尺度(分钟级)则根据流量模式的变化,动态重新分配计算资源。

短期调度会监控PrFaaS集群的出口带宽利用率,一旦接近阈值,就自动调高长度阈值t,减少跨中心流量。对于带有前缀缓存的请求,调度器会综合权衡缓存命中位置和当前带宽状况,做出最优路由选择。

长期调度则观察各处理阶段的队列深度和资源利用率。当监测到Prefill成为瓶颈时,系统会将本地PD集群的部分节点从Decode角色切换为Prefill角色;反之亦然。这种动态的资源重分配机制,使得系统能够自适应流量模式的缓慢变化,始终保持高效运行。

从理论到实践:工程可用性验证

任何优秀的架构设计,最终都需要通过严苛的工程实验来验证其可行性。研究团队基于生产级配置,设计了一套完整的对照实验,还原了异构硬件、跨域网络与真实长上下文流量并存的复杂场景。

实验选用团队内部自研的1T参数混合注意力模型,其架构设计与Kimi Linear对齐,采用7:1的线性注意力与全注意力混合比例,在保持模型能力的同时,实现了对KV Cache的高效压缩。

Kimi新论文:把KVCache玩成新商业模式了

硬件层面,采用了典型的异构组合:负责长上下文Prefill的PrFaaS集群配备了32张H200 GPU;本地PD集群则配备了64张H20 GPU,专注于Decode和短请求处理。

网络层面,通过VPC对等连接模拟跨数据中心环境,提供了约100Gbps的跨集群带宽,这与主流云厂商的互联方案完全一致。

实验负载采用了截断对数正态分布来模拟请求长度,均值约为27K tokens,高度贴近真实的长上下文服务流量特征。

Kimi新论文:把KVCache玩成新商业模式了

实验结果充分证明了PrFaaS-PD架构的有效性。

在核心性能指标上,相比硬件规模相同的传统同构PD集群,PrFaaS架构将服务吞吐量提升了54%;即便与未做智能调度的简单异构部署相比,吞吐量也仍有32%的提升。

在用户体验关键的延迟指标上,优化效果更为显著,P90首词时延(TTFT)降低了64%。这主要得益于长请求被卸载到专用集群,不再与短请求在本地争抢Prefill资源,从而大幅缓解了排队阻塞问题。

最令人鼓舞的,是工程可行性的数据。PrFaaS集群的平均出口带宽占用仅为13Gbps,在100Gbps的总链路中占比仅13%,留下了充足的带宽冗余。这意味着传输过程完全不会引发网络拥塞或链路抢占。实验最终证实,在混合模型与PrFaaS调度的协同作用下,KV Cache的传输完全可以摆脱对RDMA的依赖,普通商用以太网即可稳定、高效地支撑。

论文团队介绍

这项研究由月之暗面与清华大学合作完成。论文作者包括Ruoyu Qin、Weiran He、Yaoyu Wang、Zheming Li、Xinran Xu、Yongwei Wu、Weimin Zheng、Mingxing Zhang(通讯作者)。

Kimi新论文:把KVCache玩成新商业模式了

其中,Ruoyu Qin(秦若愚)、Weiran He、Yaoyu Wang、Zheming Li、Xinran Xu(许欣然)五位作者来自月之暗面。值得一提的是,这五位同样是Mooncake分布式推理系统架构的核心贡献者。

本文第一作者秦若愚,是清华大学计算机系MADSys实验室的在读博士生,师从通讯作者章明星副教授。章明星副教授长期专注于KV Cache架构与分布式推理系统的研究。同时,秦若愚也在月之暗面参与工作,并且是Mooncake系统的第一作者。

Kimi新论文:把KVCache玩成新商业模式了

月之暗面工程副总裁许欣然也位列作者之中。

来自清华大学的作者还包括武永卫教授和郑纬民院士。郑纬民院士是中国工程院院士、清华大学计算机系教授,长期从事并行/分布处理与大规模数据存储系统的科研与教学工作。

Kimi新论文:把KVCache玩成新商业模式了

武永卫教授是清华大学计算机科学与技术系副主任、博士生导师,同时担任AI基础设施公司趋境科技的首席科学家。此前,月之暗面与清华大学MADSys实验室联合主导开源的Mooncake项目,趋境科技正是其核心共建与深度贡献单位。

参考链接:
[1] https://arxiv.org/abs/2604.15039
[2] https://madsys.cs.tsinghua.edu.cn/people/

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策