智谱GLM-5.1高速版测评：全球大模型速度排行榜新晋冠军

2026-05-23阅读 0热度 0

大模型

智谱团队今日正式向企业客户开放GLM-5.1高速版API。这款代号“GLM-5.1-highspeed”的模型，其输出速度达到每秒400个token，刷新了当前大模型API的性能基准。

这一数据标志着技术上的关键突破。长期以来，模型规模与推理速度之间存在权衡，提升响应速度往往需要压缩模型能力。GLM-5.1高速版的出现，直接改变了这一行业现状。

GLM-5.1高速版并未遵循“速度优先则性能妥协”的旧例。它在国产大模型中率先实现了旗舰级模型能力与极低延迟的共存，将二者同时带入生产环境。这不是通过模型降级实现的，而是在保持核心性能完整性的前提下，对推理效率进行的深度重构。

智谱GLM与TileRT技术团队为此进行了系统级革新。他们放弃了常规的动态调度方案，转而从推理引擎、调度系统到底层硬件协同，实施了全栈深度优化。

优化路径聚焦三个核心层面。首先是模型推理路径的重构，大幅提升了单卡计算吞吐量。其次，通过动态批处理等高级调度策略，有效控制了高并发下的尾部延迟。最后，基础设施层的针对性调优，确保了每秒400 token的速率是可持续的生产指标，而非实验室峰值。

这种级别的推理速度，为对延迟敏感的应用场景开辟了新的可能性。实时AI编程协作、流畅的语音对话交互、需要快速迭代的商业智能分析，都将成为其主要应用方向。该模型目前已通过智谱MaaS平台，面向企业客户提供接入服务。

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

相关阅读