智谱GLM-5.1代码能力测评:8小时独立作业表现超国际顶流

2026-05-24阅读 0热度 0
开源大模型

2026年4月8日,志谱AI推出新一代开源大模型GLM-5.1,其核心升级聚焦于长程任务执行与专业级代码工程能力。该模型能够自主处理持续长达8小时的复杂工作流,并在高难度软件工程基准SWE-Bench Pro的测试中,其Bug修复成功率超越了GPT-5.4与Claude Opus4.6等闭源模型。具体而言,GLM-5.1单次任务可连贯执行超1200个操作步骤,其最终产出经评估,相当于4名资深开发者协同工作一周的交付成果。

近期,一段在技术社区广泛传播的AI作业实录直观展示了这一能力。录屏显示,一个AI模型在无人干预的情况下,耗时约8小时独立完成了从环境编译、系统配置到功能验证的完整Linux桌面构建。全程累计执行1200余个步骤,任务逻辑连贯,未出现中断或偏差。这段演示的主角,正是GLM-5.1。

长期以来,无论是开源还是闭源模型,其有效任务窗口通常局限在数分钟至数十分钟的短周期内。面对步骤繁杂、周期漫长的实际工程项目,模型常因记忆丢失或逻辑链断裂而失效。GLM-5.1的核心突破正在于此:它实现了**长达8小时的连续自主作业能力**。在上述构建案例中,模型仅用20分钟便输出了一个可运行的初始版本,而最终成品的功能完整度,经评估相当于**4名资深后端工程师一周的工作产出**,其工程效率实现了量级提升。

为客观评估其专业能力,研发团队采用了业界公认的硬核基准——**SWE-Bench Pro**进行验证。该基准包含数百个从真实开源项目中提取的高难度Bug修复任务。测试结果表明,GLM-5.1在Bug定位准确率与修复成功率上,均超越了当前顶尖的闭源模型GPT-5.4和Claude Opus4.6,成为首个在此权威基准上登顶的开源模型。此外,其能力边界不仅限于代码任务,在向量数据库优化、真实机器学习负载下的自我迭代等场景中,GLM-5.1也展现出显著优于同类的潜力。

过去,AI智能体的应用多局限于简单的辅助性场景,在涉及专业领域的复杂任务中表现乏力。GLM-5.1的发布,为行业提供了一个具备强大专业生产力且可深度定制的开源基座。开发者无需承担高昂的训练成本,即可基于此构建能够自主完成工程开发、系统运维、深度数据分析等长周期、高复杂度任务的专属智能体。这为其在企业级开发与运维自动化场景中的大规模应用,奠定了坚实的技术基础。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策