智谱GLM-5.1代码能力测评：8小时独立作业表现超国际顶流

2026-05-24阅读 0热度 0

开源大模型

2026年4月8日，志谱AI推出新一代开源大模型GLM-5.1，其核心升级聚焦于长程任务执行与专业级代码工程能力。该模型能够自主处理持续长达8小时的复杂工作流，并在高难度软件工程基准SWE-Bench Pro的测试中，其Bug修复成功率超越了GPT-5.4与Claude Opus4.6等闭源模型。具体而言，GLM-5.1单次任务可连贯执行超1200个操作步骤，其最终产出经评估，相当于4名资深开发者协同工作一周的交付成果。

近期，一段在技术社区广泛传播的AI作业实录直观展示了这一能力。录屏显示，一个AI模型在无人干预的情况下，耗时约8小时独立完成了从环境编译、系统配置到功能验证的完整Linux桌面构建。全程累计执行1200余个步骤，任务逻辑连贯，未出现中断或偏差。这段演示的主角，正是GLM-5.1。

长期以来，无论是开源还是闭源模型，其有效任务窗口通常局限在数分钟至数十分钟的短周期内。面对步骤繁杂、周期漫长的实际工程项目，模型常因记忆丢失或逻辑链断裂而失效。GLM-5.1的核心突破正在于此：它实现了**长达8小时的连续自主作业能力**。在上述构建案例中，模型仅用20分钟便输出了一个可运行的初始版本，而最终成品的功能完整度，经评估相当于**4名资深后端工程师一周的工作产出**，其工程效率实现了量级提升。

为客观评估其专业能力，研发团队采用了业界公认的硬核基准——**SWE-Bench Pro**进行验证。该基准包含数百个从真实开源项目中提取的高难度Bug修复任务。测试结果表明，GLM-5.1在Bug定位准确率与修复成功率上，均超越了当前顶尖的闭源模型GPT-5.4和Claude Opus4.6，成为首个在此权威基准上登顶的开源模型。此外，其能力边界不仅限于代码任务，在向量数据库优化、真实机器学习负载下的自我迭代等场景中，GLM-5.1也展现出显著优于同类的潜力。

过去，AI智能体的应用多局限于简单的辅助性场景，在涉及专业领域的复杂任务中表现乏力。GLM-5.1的发布，为行业提供了一个具备强大专业生产力且可深度定制的开源基座。开发者无需承担高昂的训练成本，即可基于此构建能够自主完成工程开发、系统运维、深度数据分析等长周期、高复杂度任务的专属智能体。这为其在企业级开发与运维自动化场景中的大规模应用，奠定了坚实的技术基础。

智谱GLM-5.1代码能力测评：8小时独立作业表现超国际顶流

相关阅读

最新教程

最新资讯