智谱GLM-5.1高速版深度测评：全球最快400 tokens/s性能榜单

2026-05-22阅读 0热度 0

模型发布

智谱AI今天放了个大招，面向部分企业客户推出了GLM-5.1的高速版API——“GLM-5.1-highspeed”。这可不是一次普通的迭代，它直接把大模型API的响应速度拉到了一个全新的高度。

根据官方公布的数据，这个高速版的输出速度达到了惊人的每秒400个token。这个数字意味着什么？简单来说，它刷新了当前全球大模型厂商在API速度上的上限。过去，行业里有个心照不宣的“惯例”：想要速度快，往往就得牺牲模型的能力和规模，选择更“轻量”的版本。但GLM-5.1高速版这次打破了这种平衡，首次在国产大模型阵营里，将旗舰级的模型能力与极低的响应延迟同时带入了实际的生产环境。这相当于既要求一辆车拥有顶级跑车的性能，又要求它具备家用轿车的油耗和启动速度，难度可想而知。

系统级优化：从引擎到基础设施的三重奏

如此显著的性能飞跃，并非单一环节的改进所能达成。GLM-5.1高速版是智谱GLM团队与TileRT团队深度合作的成果，他们在三个关键层面进行了系统级的协同优化：

推理引擎层： 针对GLM-5.1自身的架构特点，团队重写了核心的推理路径，从而有效提升了单张显卡的吞吐能力，为高速输出打下了基础。

调度系统层： 通过引入动态批处理、智能请求合并以及对KV缓存的精细调度，显著优化了在高并发请求场景下的性能表现，特别是降低了令人头疼的“尾延迟”——也就是最慢的那部分请求的响应时间。

基础设施层： 优化并未止步于软件。围绕推理集群的部署、网络链路以及负载均衡策略，团队进行了全方位的协同调优。这一切都是为了确保那每秒400个token的速度，不是一个只能在理想条件下测出的“峰值”数字，而是一个稳定、可靠、可供企业放心投入使用的生产级能力。

突破瓶颈：TileRT如何重塑推理逻辑

模型推理速度的理论天花板确实由硬件决定，但在现实中，大多数系统距离这个物理极限还有巨大差距。问题的核心，往往出在推理框架的调度方式上。

当前主流框架的基本调度单元仍然是“算子”或“内核”。每个算子执行时，都要走完一套标准流程：由主机（host）启动、读取权重数据、进行计算、将结果写回、最后进行同步。这套流程在批量处理大任务时效率尚可，可一旦进入单token生成、小批量（batch）且需要多卡并行（TP）的典型推理场景，问题就来了。算子被切分得极其微小，原本可以忽略不计的调度开销、内存访问延迟和同步等待时间，会被急剧放大，成为拖慢整个系统的瓶颈。

TileRT的设计思路，堪称是对传统范式的一次“碘伏”。它彻底抛弃了在运行时（Runtime）进行动态调度的传统做法，转而选择在编译期（AOT）就将整个计算图静态地编排好，形成一个能够常驻在GPU中的“持久化引擎内核”。

具体来看，在单张显卡内部，所有的计算、异步输入输出以及通信操作，都被拆解成更细粒度的“Tile”级微任务。整个推理过程，只需要启动一次这个引擎内核。不同算子之间产生的中间结果，不再需要写回到全局内存中，而是通过寄存器、共享内存和L2缓存直接传递。这样一来，主机端的调度开销和跨算子的同步等待，都被压缩进了同一个常驻的内核里，效率自然大幅提升。

而当视角扩展到多卡（例如8卡NVLink互联）的尺度时，TileRT的思路更进一步。它将GPU流处理器（SM）内部那种“Warp专业化”的设计理念，推广到了整个多卡拓扑网络。不同的GPU不再执行一模一样的任务，而是根据计算密度和数据依赖关系，被特化为不同的“工作者”，各司其职，协同完成推理任务。

应用场景与开放情况

凭借超低的延迟，GLM-5.1高速版非常适合那些对响应时间有苛刻要求的场景。例如，AI辅助编程时的实时代码建议与补全、需要自然流畅连续对话的实时交互应用、依赖模型快速分析数据的商业决策系统，以及实时语音对话与翻译等。目前，该服务已在智谱的MaaS平台上，面向部分企业客户开放。

智谱GLM-5.1高速版深度测评：全球最快400 tokens/s性能榜单

系统级优化：从引擎到基础设施的三重奏

突破瓶颈：TileRT如何重塑推理逻辑

应用场景与开放情况

相关阅读

最新教程

最新资讯