首页 > 其他资讯 > 智谱发布GLM-5.1:将大模型能力从短时交互延伸至8小时级自治工程任务

智谱发布GLM-5.1:将大模型能力从短时交互延伸至8小时级自治工程任务

时间:26-04-21

【快讯】智谱 AI 正式推出旗舰开源大模型 GLM-5.1

智谱 AI 的旗舰开源大模型 GLM-5.1 来了。这次发布,一个核心看点在于其长程自治能力——模型能够独立规划并完成最长持续8小时的任务。更值得关注的是,它在多项硬核代码基准测试中,实现了国产模型的领先突破。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

伴随新模型的发布,智谱也对 GLM 系列模型的价格进行了调整,整体上调约10%。调价之后,在代码生成(Coding)这类核心应用场景中,其缓存 Token 的价格已经接近 Claude Sonnet4.6。这标志着国产大模型首次在关键场景的定价策略上,与海外头部厂商站到了同一水平线。

8 小时持续工作,代码性能超越 Opus 4.6

GLM-5.1 被明确为“长程任务智能体”。这意味着它能在单次任务中自主完成规划、执行与迭代的全流程,并且连续稳定工作超过8小时。根据官方介绍,这是目前唯一能达到此水准的开源模型。

性能方面,它在极具挑战性的 SWE-bench Pro 测试中刷新了全球成绩,一举超越了 GPT-5.4 和 Claude Opus 4.6。这个突破意义重大,是国产模型在该硬核指标上的首次登顶。

此外,在 Terminal-Bench 2.0、NL2Repo 等专业代码评测中,GLM-5.1 同样位列国产及开源模型的第一名,充分证明了其在高质量工程开发和系统优化方面的扎实能力。

可完成系统构建、数据库优化等高阶工程任务

光看分数可能不够直观,那么它具体能做什么?来看两个实例:

8 小时构建 Linux 桌面: 模型能够全自动执行超过1200步操作,从窗口管理器、状态栏到应用生态,交付一个功能完整的桌面环境。这个工作量,大致相当于一个4人团队一周的产出。

向量数据库优化: 模型经过655轮自主迭代,将系统的查询吞吐量从每秒3108次(3108 QPS)大幅提升至每秒21472次(21472 QPS),性能提升接近6.9倍。

它甚至扮演了一个“主动的系统优化器”角色。在 KernelBench 测试中,它实现了平均3.6倍的加速效果,显著优于传统的 torch.compile 方案,并且支持对 CUDA 与 Triton 内核进行深度调优。

延长有效工作窗口

GLM-5.1 的核心突破点,在于它重点优化了长时任务的稳定性。传统模型在长时间、多步骤的任务中,容易陷入重复性的增量调整,或者在数千次工具调用后出现“执行漂移”——即动作逐渐偏离原始目标。

而 GLM-5.1 则能做得更多:当优化收益陷入停滞时,它会主动分析性能瓶颈,并尝试切换技术路径,而不是在原地打转。更重要的是,即便在缺乏明确量化指标的复杂场景中,它依然具备自我评估与持续改进的能力。

智谱方面表示,此次发布的模型为未来实现“7×24小时全自治智能体”奠定了坚实的技术基础。后续的迭代方向,将聚焦于自我评估机制的完善和长上下文的一致性保持等方面。


这就是智谱发布GLM-5.1:将大模型能力从短时交互延伸至8小时级自治工程任务的全部内容了,希望以上内容对小伙伴们有所帮助,更多详情可以关注我们的菜鸟游戏和软件相关专区,更多攻略和教程等你发现!

热搜     |     排行     |     热点     |     话题     |     标签

手机版 | 电脑版 | 客户端

湘ICP备2022003375号-1

本站所有软件,来自于互联网或网友上传,版权属原著所有,如有需要请购买正版。如有侵权,敬请来信联系我们,cn486com@outlook.com 我们立刻删除。