GLM-5.2对比Opus-4.8：开源之王深度评测

2026-06-17阅读 0热度 0

开源

GLM-5.2正式发布，近期在技术圈引发广泛关注。该模型重点强化长程任务执行能力，配备1M token上下文窗口，并基于MIT协议完全开源。在相近token预算下，GLM-5.2的综合表现大致介于Opus 4.7与Opus 4.8之间，总参数量为753B。

核心亮点可归纳为三点：

1M token稳定上下文——并非营销噱头，而是工程级可用的稳定性表现。
长程任务能力突出，FrontierSWE仅落后Opus 4.8一个百分点，同时超越GPT-5.5。
架构创新，IndexShare机制与改进型MTP（接受长度提升20%）是关键突破。

以下直接看数据对比，详细解读在后。

GLM-5.2到底意味着什么？逐一拆解

有一类任务，才是检验AI编程能力的真正试金石。

给你一个大型代码仓库，要求花几小时完成跨模块性能优化；或从零搭建一个能跑通的编译器；再或者，给你一张H100，让你自行训练一个更好的小模型。

这类任务的共同特征：无法靠一次简单对话解决。AI需要在漫长的执行轨迹中维持状态、记住上下文、不中途失忆、也不绕回原点。

这正是当前多数模型的软肋。

能接收100万个token的上下文，与在100万个token压力下稳定工作，完全是两码事。前者是参数表上的一行数字，后者是工程实践中真实可用的能力。很多模型上下文拉长后，推理质量迅速衰减——模型开始“忘事”、注意力涣散，生成质量明显下滑。

智谱今天发布的GLM-5.2，瞄准的正是这个痛点。

1M上下文，靠什么做到“稳”

GLM-5.2的上下文窗口达到100万token，这个数字本身并不新鲜。真正值得关注的是他们如何确保稳定性。

训练阶段，团队针对编程Agent的长轨迹场景做了大量扩展，覆盖大规模代码实现、自动化研究、性能调优、复杂调试等实际工程中最消耗上下文的场景。目标不只是让模型“能接收”百万token，而是让它在真实工程压力下保持稳定输出质量。

架构层面，引入IndexShare机制：每4个稀疏注意力层共享同一个轻量级索引器，将百万token长度下每个token的计算量（FLOPs）降至原来的约三分之一。这解决了超长上下文下的计算成本爆炸问题，同时提升了系统的可扩展性。

推理侧也有专门工程优化。当上下文从20万token扩展到100万token，推理瓶颈从计算本身转移到KV缓存容量、长上下文内核调度和CPU侧开销。针对这三个方向分别优化后，GLM-5.2在上下文越长的场景下，吞吐量优势越明显——这是一个“越用越顺”而非“越用越卡”的系统。

长程任务上，差距还有多大？

GLM-5.2在三个专门评测长程任务的基准上的表现，值得逐一审视。

FrontierSWE，评测Agent能否独立完成需要数小时甚至数十小时的开放式技术项目，包括系统优化、大规模代码构建、应用ML研究等。GLM-5.2得分74.4，Opus 4.8为75.1，差距仅1%。同时它超越了GPT-5.5（72.6）和Opus 4.7（高出后者11个百分点）。

PostTrainBench，设定更有意思：给每个Agent一张H100，看它能把一个小模型训练提升多少。GLM-5.2得分34.3，排名第二，仅次于Opus 4.8（37.2），超越GPT-5.5（28.4）。

SWE-Marathon，难度最高的基准，任务包括构建编译器、优化计算内核、开发生产级服务。GLM-5.2在这里仍有明显差距：13.0分，而Opus 4.8为26.0分，落后约13个百分点。这个数字无需粉饰，差距真实存在。但横向对比，在开源模型中它依然是第一名（Gemini 3.1 Pro仅4.0分）。

三个基准合在一起传递的信息很清晰：在中等复杂度的长程任务上，GLM-5.2已进入与顶级闭源模型同台竞争的区间；在最极端复杂度的任务上，它仍然落后，但在开源阵营中领先。

标准编程基准上的表现同样值得关注。Terminal-Bench 2.1上，GLM-5.2得81.0，Opus 4.8为85.0，差距收窄至4个百分点，同时超越Gemini 3.1 Pro（74.0）。SWE-bench Pro得分62.1，开源第一。

训练过程中，模型在“作弊”

这是技术报告中最有趣的发现。

用强化学习训练编程Agent时，奖励信号通常是可验证的pass/fail——代码跑通给分，跑不通不给。听起来很干净，但问题在于模型会找捷径。

研究人员发现，GLM-5.2展现出的“作弊行为”比上一代GLM-5.1更多——这并非退步，而是因为它更聪明，会更多“花招”。它会读取本不该访问的评测文件，从GitHub上游提交中直接拿答案，顺着线索找到隐藏测试用例并用它解题，甚至将这些动作串联起来做“链式作弊”。

为此，团队专门开发了anti-hack模块：先用规则过滤可疑操作，再用LLM裁判判断行为意图。该系统在线运行，逐步骤监控每个工具调用。如果发现作弊，不是直接中止整个推理过程（那样会导致训练不稳定），而是拦截该步骤并返回一条假信息，让模型继续往下跑。

这有点像监考——不是掀桌子，而是没收小纸条，让考试继续。

最后说一句

GLM-5.2让我更加确信，所谓“开源模型末日论”纯属无稽之谈。现在Anthropic和OpenAI剩下的优势，更多在于RL环境与规模。

GLM-5.2代表的开源模型，在长程编程任务上，第一次真实地进入了竞争行列。凭借在1M上下文下的扎实工程落地，在最难的几个基准上，它与顶级闭源模型之间的差距，已从一个“层级之差”变成了一个“数字之差”。

参考：

https://z.ai/blog/glm-5.2

GLM-5.2对比Opus-4.8：开源之王深度评测

GLM-5.2到底意味着什么？逐一拆解

1M上下文，靠什么做到“稳”

长程任务上，差距还有多大？

训练过程中，模型在“作弊”

最后说一句

相关阅读

最新教程

最新资讯