智谱GLM-5.1高速版API测评：400tokens/s刷新全球速度纪录

2026-05-22阅读 0热度 0

AI新词

智谱今日正式面向部分企业客户推出GLM-5.1高速版API（GLM-5.1-highspeed）。该模型输出速度达到惊人的400tokens/s，成功刷新当前全球大模型厂商API的速度上限。

这一突破，打破了行业过去“高性能模型必然带来高延迟”或“高速模型只能是轻量级模型”的惯例。GLM-5.1高速版在国产大模型中，首次将旗舰级模型能力与极致低延迟同时带入生产环境。这意味着，用户无需再为追求响应速度而牺牲模型质量，鱼与熊掌可以兼得。

碘伏传统体验，直击速度敏感场景

速度的提升，在长程任务和复杂生产环境中，带来的不仅仅是效率的线性增长，更是产品形态的质变。具体来看，有几个场景的感受尤为明显：

AI编程（Coding Agent）：在完整保留GLM-5.1强大能力的基础上，新模型实现了“即问即答”的流畅体验。模型能够一边理解复杂的工程上下文，一边持续生成代码与修改方案。对于那些需要数十轮交互调用的项目重构任务，以往累计数分钟的等待时间被彻底消除，开发者的思路不再被打断。
实时动态建模：例如在3D地图实测中，当玩家控制角色移动并输入文字指令时，模型能够瞬时完成场景建模并实时改变环境。这种近乎零延迟的交互，为游戏、模拟仿真等领域打开了新的想象空间。
Agent Swarm并行调度：在长程任务处理中，模型展现出强大的并发协调能力。实测中，它能在30秒内完成复杂网页的信息处理，并能瞬间调度多达50个不同“人格”的智能体并行回答用户问题。这已经不仅仅是单一模型在加速，更像是一个新型操作系统的雏形正在浮现。

那么，支撑起400 TPS稳定生产级能力的背后，究竟是什么技术？这得益于智谱GLM团队与TileRT团队联合进行的系统级深度优化，其核心思路可以概括为“静态编排，极致协同”。

推理引擎层（TileRT编译期AOT静态编排）：

传统主流框架以算子（operator/kernel）作为基本调度单元，在单token、小batch的典型API场景下，频繁的调度、访存与同步开销会被放大，成为性能瓶颈。TileRT的做法是彻底抛弃Runtime层的动态调度，在编译期（AOT）就将整个计算图静态编排为一个常驻GPU的persistent Engine Kernel。在单卡内部，计算、异步IO与通信被拆解为更细粒度的Tile级微任务，整个推理过程只需启动一次Kernel。中间结果通过寄存器、Shared Memory和L2 Cache直接传递，不再写回全局内存，从而极大减少了数据搬运的开销。
调度系统层：

通过动态批处理、智能请求合并以及KV缓存调度优化，系统能够显著降低高并发场景下的尾延迟，保证大多数请求都能获得稳定、高速的响应。
基础设施层：

将优化从单卡扩展到多卡。TileRT将SM内部的Warp Specialization思路，扩展到了整张8卡NVLink拓扑。不同的GPU rank依据计算密度与数据依赖关系，被特化为不同的专用worker，再配合网络链路与负载均衡的协同优化，确保了高性能在多卡尺度上的常驻稳定性。

GLM-5.1高速版主要适用于对响应延迟要求极高的场景，例如AI编程、实时交互应用、快速商业决策以及实时语音交互等。目前，该服务已正式上线智谱MaaS平台，并面向部分企业客户开放。据智谱官方表示，未来将持续推进推理引擎的工程优化，旨在进一步扩大高速模型的服务能力与覆盖范围。