九章云极AI工厂技术体系:三大范式重构AI效能
6月17日,在“智算·新云·新章——2026全球智算科技峰会暨九章云极战略发布会”上,九章云极技术负责人胡宗星公开了AI工厂的核心技术架构。这套以训练工厂和Token工厂为支柱的技术体系,直指一个关键命题:当AI从“发明期”跨入“工业化生产期”,算力基础设施需要怎样的系统性重构?
推理效率为何存在10倍鸿沟
胡宗星首先亮出一组对比数据:一台顶级8卡服务器的聚合内存带宽约38 TB/秒,理论上每秒可生成约1000个Token。但主流推理框架的实际解码速度仅数十token/s,两者相差整整一个数量级。
这一瓶颈并非GPU算力不足。胡宗星将矛头指向“执行间隙”——核心程序间的等待、通信与计算的串行化、主机与设备间的同步开销,以及数据在多级存储间的反复搬运。这些间隙叠加,导致算力被“锁死”在从计算到输出的路径上。
行业共识正在形成:推理正从“计算问题”演化为“以内存为中心的状态管理问题”。进入智能体时代,多轮对话、多次工具调用、超长上下文使缓存体积可达数十PB,技术瓶颈已从“算得快不快”转向“状态管得好不好”。
三大范式破局:从“堆硬件”到“系统效率”
针对上述挑战,九章云极推出三项范式重构方案,逐层打破传统架构的天花板。
第一,系统架构重构:计算、存储、传输一体化
传统架构中,算力、存储、网络各自为政,缓存数据在各层级间反复搬运,搬运本身成为性能瓶颈。九章云极构建了三层协同架构:上层上下文管理引擎负责状态决策,通过“重用规划”和预处理与解码分离调度,将缓存命中率提升至60%至90%;中层推理优化引擎负责执行策略,使计算卡利用率提升50%;下层缓存加速引擎采用三层缓存拓扑与全链路零拷贝技术,将端到端性能提升10倍。
实测数据显示,该方案对比纯高速缓存方案性能提升10倍,对比业界主流跨节点二级缓存方案提升5.3倍。4兆字节数据块的写入延迟从传统传输协议的1.7毫秒降至远程直接内存访问的200微秒,实现8倍加速。
第二,计算范式重构:建立持续执行流
传统调度模式采用“启动—加载—计算—存储—同步”的串行执行方式,任务切换时需销毁并重建核心程序环境。九章云极通过预先编译、持久化核心引擎、线程块分工协作、异构计算节点分工等创新,实现计算与通信的持续重叠,消除核心程序间的同步等待,将计算卡利用率推向硬件物理极限。
第三,能效范式重构:以能源定义架构
传统数据中心采用被动配电模式,算力需求决定电力供给。九章云极反向设计,使算力负载主动适配能源波动:绿色电力充足时增加计算负载,电价低谷时满载运行。通过绿色电力优先迁移、多因素感知调度、仿真闭环、算力电力协同调度等四项技术,实现单Token能耗的可量化、可溯源、可管控。
“重用即算力”:千倍降本的工程逻辑
“重用即算力,决定了推理效率的上限。”胡宗星重点阐释了重用规划这一核心思路——智能判定状态复用、重新计算、数据迁移的最优路径,从源头削减无效运算。
基于三大范式重构,九章云极总结出千倍综合降本的工程公式:1000倍 = 复用效率 × 一体化协同 × 能源调度。三项重构的乘积效应,重新定义了AI效能曲线。在产能转换方面,10万亿Token的日产能并非靠堆卡获得,而是一道系统效率的乘法:10万亿Token = 能源规模 × 模型推理效率 × 跨集群调度效率 × KV/路由效率 × SLA可用时间。
这一公式的底层是五条工程路径的乘积效应:全栈自研基础架构、算电一体化协同、异构算力统一纳管、跨地域全局调度、模型与推理优化。九章云极技术团队将其概括为:算力效率的提升不依赖于硬件堆叠,而在于计算资源的系统级复用。
可验证的工程能力
九章云极的技术能力已通过中国信通院全能力域评测,结果显示:训练效率提升100%,计算卡利用率提升50%,推理速度提升10倍。目前,该平台已支持50余款主流大模型的生产环境部署,累计服务超过3万个客户算力任务。
走向软硬一体:推理专用的超级集群
展望未来,九章云极判断推理基础设施将从软件优化走向软硬一体。在软件层,可复用的状态将从KV-cache扩展到会话谱系、工具状态等更多维度;在硬件层,将借助数据处理单元(DPU)把网络、存储、KV搬运从CPU卸载出来,推进异构PD分离硬件,并与超级节点服务器厂商深度合作,打造推理专用的「超级集群」。胡宗星强调,10万亿Token的日产能不仅依赖推理工厂的持续生产,更需要超级集群作为算力底座支撑——超级集群正在成为AI工厂迈向极致效率的硬件基石。
最后,胡宗星在演讲结尾表示:“让AI获得自由,让AI像电力一样可度量、可结算、可规模化生产。这是九章云极AI工厂的工程使命。”依托成熟的技术体系,九章云极持续将系统级优化理念落地,推动AI算力产业全面迈入高效、集约的工业化新阶段。