首页 > 其他资讯 > 智谱发布GLM-5.1：将大模型能力从短时交互延伸至8小时级自治工程任务

智谱发布GLM-5.1：将大模型能力从短时交互延伸至8小时级自治工程任务

时间：26-04-21

【快讯】智谱 AI 正式推出旗舰开源大模型 GLM-5.1

智谱 AI 的旗舰开源大模型 GLM-5.1 来了。这次发布，一个核心看点在于其长程自治能力——模型能够独立规划并完成最长持续8小时的任务。更值得关注的是，它在多项硬核代码基准测试中，实现了国产模型的领先突破。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

伴随新模型的发布，智谱也对 GLM 系列模型的价格进行了调整，整体上调约10%。调价之后，在代码生成（Coding）这类核心应用场景中，其缓存 Token 的价格已经接近 Claude Sonnet4.6。这标志着国产大模型首次在关键场景的定价策略上，与海外头部厂商站到了同一水平线。

GLM-5.1 被明确为“长程任务智能体”。这意味着它能在单次任务中自主完成规划、执行与迭代的全流程，并且连续稳定工作超过8小时。根据官方介绍，这是目前唯一能达到此水准的开源模型。

性能方面，它在极具挑战性的 SWE-bench Pro 测试中刷新了全球成绩，一举超越了 GPT-5.4 和 Claude Opus 4.6。这个突破意义重大，是国产模型在该硬核指标上的首次登顶。

此外，在 Terminal-Bench 2.0、NL2Repo 等专业代码评测中，GLM-5.1 同样位列国产及开源模型的第一名，充分证明了其在高质量工程开发和系统优化方面的扎实能力。

光看分数可能不够直观，那么它具体能做什么？来看两个实例：

8 小时构建 Linux 桌面： 模型能够全自动执行超过1200步操作，从窗口管理器、状态栏到应用生态，交付一个功能完整的桌面环境。这个工作量，大致相当于一个4人团队一周的产出。

向量数据库优化： 模型经过655轮自主迭代，将系统的查询吞吐量从每秒3108次（3108 QPS）大幅提升至每秒21472次（21472 QPS），性能提升接近6.9倍。

它甚至扮演了一个“主动的系统优化器”角色。在 KernelBench 测试中，它实现了平均3.6倍的加速效果，显著优于传统的 torch.compile 方案，并且支持对 CUDA 与 Triton 内核进行深度调优。

GLM-5.1 的核心突破点，在于它重点优化了长时任务的稳定性。传统模型在长时间、多步骤的任务中，容易陷入重复性的增量调整，或者在数千次工具调用后出现“执行漂移”——即动作逐渐偏离原始目标。

而 GLM-5.1 则能做得更多：当优化收益陷入停滞时，它会主动分析性能瓶颈，并尝试切换技术路径，而不是在原地打转。更重要的是，即便在缺乏明确量化指标的复杂场景中，它依然具备自我评估与持续改进的能力。

智谱方面表示，此次发布的模型为未来实现“7×24小时全自治智能体”奠定了坚实的技术基础。后续的迭代方向，将聚焦于自我评估机制的完善和长上下文的一致性保持等方面。

这就是智谱发布GLM-5.1：将大模型能力从短时交互延伸至8小时级自治工程任务的全部内容了，希望以上内容对小伙伴们有所帮助，更多详情可以关注我们的菜鸟游戏和软件相关专区，更多攻略和教程等你发现！

精彩合集，奇葩无下限

手机版　|　电脑版　|　客户端

湘ICP备2022003375号-1

本站所有软件，来自于互联网或网友上传，版权属原著所有，如有需要请购买正版。如有侵权，敬请来信联系我们，cn486com@outlook.com 我们立刻删除。

返回顶部网站导航