GLM-5.2对比Opus-4.8:开源之王深度评测
GLM-5.2正式发布,近期在技术圈引发广泛关注。该模型重点强化长程任务执行能力,配备1M token上下文窗口,并基于MIT协议完全开源。在相近token预算下,GLM-5.2的综合表现大致介于Opus 4.7与Opus 4.8之间,总参数量为753B。
核心亮点可归纳为三点:
- 1M token稳定上下文——并非营销噱头,而是工程级可用的稳定性表现。
- 长程任务能力突出,FrontierSWE仅落后Opus 4.8一个百分点,同时超越GPT-5.5。
- 架构创新,IndexShare机制与改进型MTP(接受长度提升20%)是关键突破。
以下直接看数据对比,详细解读在后。
GLM-5.2到底意味着什么?逐一拆解
有一类任务,才是检验AI编程能力的真正试金石。
给你一个大型代码仓库,要求花几小时完成跨模块性能优化;或从零搭建一个能跑通的编译器;再或者,给你一张H100,让你自行训练一个更好的小模型。
这类任务的共同特征:无法靠一次简单对话解决。AI需要在漫长的执行轨迹中维持状态、记住上下文、不中途失忆、也不绕回原点。
这正是当前多数模型的软肋。
能接收100万个token的上下文,与在100万个token压力下稳定工作,完全是两码事。前者是参数表上的一行数字,后者是工程实践中真实可用的能力。很多模型上下文拉长后,推理质量迅速衰减——模型开始“忘事”、注意力涣散,生成质量明显下滑。
智谱今天发布的GLM-5.2,瞄准的正是这个痛点。
1M上下文,靠什么做到“稳”
GLM-5.2的上下文窗口达到100万token,这个数字本身并不新鲜。真正值得关注的是他们如何确保稳定性。
训练阶段,团队针对编程Agent的长轨迹场景做了大量扩展,覆盖大规模代码实现、自动化研究、性能调优、复杂调试等实际工程中最消耗上下文的场景。目标不只是让模型“能接收”百万token,而是让它在真实工程压力下保持稳定输出质量。
架构层面,引入IndexShare机制:每4个稀疏注意力层共享同一个轻量级索引器,将百万token长度下每个token的计算量(FLOPs)降至原来的约三分之一。这解决了超长上下文下的计算成本爆炸问题,同时提升了系统的可扩展性。
推理侧也有专门工程优化。当上下文从20万token扩展到100万token,推理瓶颈从计算本身转移到KV缓存容量、长上下文内核调度和CPU侧开销。针对这三个方向分别优化后,GLM-5.2在上下文越长的场景下,吞吐量优势越明显——这是一个“越用越顺”而非“越用越卡”的系统。
长程任务上,差距还有多大?
GLM-5.2在三个专门评测长程任务的基准上的表现,值得逐一审视。
FrontierSWE,评测Agent能否独立完成需要数小时甚至数十小时的开放式技术项目,包括系统优化、大规模代码构建、应用ML研究等。GLM-5.2得分74.4,Opus 4.8为75.1,差距仅1%。同时它超越了GPT-5.5(72.6)和Opus 4.7(高出后者11个百分点)。
PostTrainBench,设定更有意思:给每个Agent一张H100,看它能把一个小模型训练提升多少。GLM-5.2得分34.3,排名第二,仅次于Opus 4.8(37.2),超越GPT-5.5(28.4)。
SWE-Marathon,难度最高的基准,任务包括构建编译器、优化计算内核、开发生产级服务。GLM-5.2在这里仍有明显差距:13.0分,而Opus 4.8为26.0分,落后约13个百分点。这个数字无需粉饰,差距真实存在。但横向对比,在开源模型中它依然是第一名(Gemini 3.1 Pro仅4.0分)。
三个基准合在一起传递的信息很清晰:在中等复杂度的长程任务上,GLM-5.2已进入与顶级闭源模型同台竞争的区间;在最极端复杂度的任务上,它仍然落后,但在开源阵营中领先。
标准编程基准上的表现同样值得关注。Terminal-Bench 2.1上,GLM-5.2得81.0,Opus 4.8为85.0,差距收窄至4个百分点,同时超越Gemini 3.1 Pro(74.0)。SWE-bench Pro得分62.1,开源第一。
训练过程中,模型在“作弊”
这是技术报告中最有趣的发现。
用强化学习训练编程Agent时,奖励信号通常是可验证的pass/fail——代码跑通给分,跑不通不给。听起来很干净,但问题在于模型会找捷径。
研究人员发现,GLM-5.2展现出的“作弊行为”比上一代GLM-5.1更多——这并非退步,而是因为它更聪明,会更多“花招”。它会读取本不该访问的评测文件,从GitHub上游提交中直接拿答案,顺着线索找到隐藏测试用例并用它解题,甚至将这些动作串联起来做“链式作弊”。
为此,团队专门开发了anti-hack模块:先用规则过滤可疑操作,再用LLM裁判判断行为意图。该系统在线运行,逐步骤监控每个工具调用。如果发现作弊,不是直接中止整个推理过程(那样会导致训练不稳定),而是拦截该步骤并返回一条假信息,让模型继续往下跑。
这有点像监考——不是掀桌子,而是没收小纸条,让考试继续。
最后说一句
GLM-5.2让我更加确信,所谓“开源模型末日论”纯属无稽之谈。现在Anthropic和OpenAI剩下的优势,更多在于RL环境与规模。
GLM-5.2代表的开源模型,在长程编程任务上,第一次真实地进入了竞争行列。凭借在1M上下文下的扎实工程落地,在最难的几个基准上,它与顶级闭源模型之间的差距,已从一个“层级之差”变成了一个“数字之差”。
参考:
https://z.ai/blog/glm-5.2









