3TB 主内存 + 8TB CXL 内存:Penguin 推出 KV Cache 服务器
3TB 主内存 + 8TB CXL 内存:Penguin 推出 KV Cache 服务器
3 月 17 日消息,科技行业迎来一个重要突破——Penguin Solutions 于当地时间 16 日正式发布了业界首款采用 CXL 技术的量产型 KV Cache 服务器。这款产品的独特之处在于,它巧妙地将 3TB 的 DDR5 系统主内存与 8 个 1TB 的 CXL 内存模块结合在一起,最终为 AI 推理负载提供了高达 11TB 的海量内存空间。
值得关注的是,Penguin 在技术说明中特别强调了一个关键事实:AI 推理任务与模型训练或调优有着本质区别——前者对内存的依赖程度高达 70%,而对算力的依赖仅为 30%。这种资源需求的根本性差异,决定了专用硬件设计的走向。同时,延迟表现也成为影响推理场景用户体验的决定性因素。
这款名为 MemoryAI KV Cache 的服务器,正是为了解决这些痛点而生。它能够为 AI 推理系统带来显著的性能提升:更低的延迟、更短的首 Token 响应时间、更高的吞吐量,以及更优的 XPU 集群利用效率。这些特性使得服务器能够持续满足严苛的服务水平一致性要求,特别适合那些需要大窗口和低延迟的企业级任务,比如实时金融分析、海量数据集 RAG 和监管合规性分析等场景。
英伟达 GTC 2026 大会专题
