智谱GLM-5.1高速版测评:全球大模型速度排行榜新晋冠军

2026-05-23阅读 0热度 0
大模型

智谱团队今日正式向企业客户开放GLM-5.1高速版API。这款代号“GLM-5.1-highspeed”的模型,其输出速度达到每秒400个token,刷新了当前大模型API的性能基准。

这一数据标志着技术上的关键突破。长期以来,模型规模与推理速度之间存在权衡,提升响应速度往往需要压缩模型能力。GLM-5.1高速版的出现,直接改变了这一行业现状。

性能与速度的协同突破

GLM-5.1高速版并未遵循“速度优先则性能妥协”的旧例。它在国产大模型中率先实现了旗舰级模型能力与极低延迟的共存,将二者同时带入生产环境。这不是通过模型降级实现的,而是在保持核心性能完整性的前提下,对推理效率进行的深度重构。

智谱GLM与TileRT技术团队为此进行了系统级革新。他们放弃了常规的动态调度方案,转而从推理引擎、调度系统到底层硬件协同,实施了全栈深度优化。

全栈优化实现生产级稳定

优化路径聚焦三个核心层面。首先是模型推理路径的重构,大幅提升了单卡计算吞吐量。其次,通过动态批处理等高级调度策略,有效控制了高并发下的尾部延迟。最后,基础设施层的针对性调优,确保了每秒400 token的速率是可持续的生产指标,而非实验室峰值。

这种级别的推理速度,为对延迟敏感的应用场景开辟了新的可能性。实时AI编程协作、流畅的语音对话交互、需要快速迭代的商业智能分析,都将成为其主要应用方向。该模型目前已通过智谱MaaS平台,面向企业客户提供接入服务。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策