GLM 5.2 开源技术博客深度测评

2026-06-18阅读 0热度 0
开源

先抛出几项核心结论:GLM-5.2 的发布标志着国产大模型的一个里程碑。744B MoE 参数、40B 激活、支持 1M 上下文、采用 MIT 协议全面开源——这些硬指标摆在台面上,分量十足。

该模型已纳入 GLM Coding Plan,API 同步开放,定价维持与 5.1 相同水平。在最受关注的编码能力上,GLM-5.2 于 Arena 以 1595 分夺得第二。考虑到近期 Gemini 表现下滑,GLM 正式跻身“Coding 御三家”行列,并且是该榜单上最可用的最强模型。

Code Arena: Frontend(来源:arena.ai)

Benchmark 总览

GLM-5.2 Full Benchmark Table

本次发布的 GLM-5.2,核心设计目标就是为长程任务(Long Horizon Task)而生。几个关键特性值得关注:

- 1M 上下文,长程任务下保持稳定输出

- 编码能力实现更贴近实际场景的显著提升

- 极致的 Infra 优化,Day 0 即可在国产算力平台运行

- MIT 协议开放,美国团队也可直接使用

长程任务

所有测试均在 1M 上下文、Max 档位、128K 最大输出条件下执行,结果清晰:GLM-5.2 在所有开源模型中排名第一。

Long-Horizon Task Evaluation

具体数据如下:

FrontierSWE(20 小时级复杂工程):Opus 4.8 达到 75.1%,GLM-5.2 拿下 74.4%,GPT-5.5 为 72.6%。仅差 0.7 个百分点,咬得非常紧。

PostTrainBench(给 Agent 一块 H100,10 小时内完成 post-training):Opus 4.8 为 37.2%,GLM-5.2 为 34.3%,GPT-5.5 为 25.0%。

SWE-Marathon(编译器、内核优化等超长周期工程):Opus 4.8 达到 26.0%,Opus 4.7 为 16.0%,GLM-5.2 为 13.0%,GPT-5.5 为 12.0%。该项目上差距较大,排名位于 Opus 4.7 之后。

Coding 评测

在 8 项 Coding + Agentic 评测中,GLM-5.2 保持开源 SOTA 地位,相较 5.1 的提升堪称跨代式。

LLM Performance Evaluation

具体来看:Terminal-Bench 2.1 上 GLM-5.2 拿到 81.0,Opus 4.8 为 85.0,GPT-5.5 为 84.0(5.1 仅为 63.5)。MCP-Atlas 上 77.0 对 77.8,几乎持平。SWE-bench Pro 上 62.1 对 69.2。NL2Repo 上 48.9 对 69.7,该项差距最大。

但需注意一个关键点:HLE with Tools 测试中,GLM-5.2 拿到 54.7,Opus 4.8 为 52.3,GPT-5.5 为 52.2——这才是真正的亮点。

效率曲线

用 Claude Code 跑 Terminal-Bench 2.1、DeepSWE、SWE-Atlas 的平均分,GLM-5.2 的 High 档与 Opus 4.8 的 High 档基本重合(约 73%),Max 档 GLM-5.2 约 75%,Opus 4.8 约 78%。对比 GLM-5.1,从 Non-Thinking 到 Max 全程低了 15 到 20 个百分点,这一代际提升相当可观。

Agentic Coding Performance by Effort Level

1M 上下文架构

为让 1M 上下文在工程层面真正可用,GLM-5.2 在架构和推理引擎上均做了系统性优化。

GLM-5.2 Architecture for 1M Context

IndexShare for DSA

每 4 层 transformer 共享一个轻量 indexer,top-k 索引复用到后续 3 层。如此一来,节省了 3/4 的 indexer 点积和 top-k 计算量。并且从 mid-training 阶段就开始使用 IndexShare 训练,而非后期硬性添加。

MTP with IndexShare and KVShare

改进 MTP 层用于投机解码:indexer 仅在第一步放置,后续步骤复用 top-k 索引。这样第二步的 KV cache 只包含来自 target model 的隐状态,消除了 GLM-5.1 中训练与推理不一致的问题。

MTP Inference with IndexShare? MTP Inference with IndexShare

这四步优化叠加的效果非常明显:baseline 得分 4.56;加入 IndexShare 和 KVShare 后提升到 5.10;再加上 Rejection Sampling 达到 5.29;最后通过 End-to-end TV Loss 进一步优化到 5.47,整体提升了 20%。

Serving 1M

上下文从 200K 扩展到 1M 后,推理瓶颈主要转向 KV-cache 容量、长上下文 kernel 开销以及 CPU 侧开销。GLM-5.2 针对这三个方向做了优化:基于 LayerSplit 的细粒度内存管理与并行策略、长上下文 kernel 与 cache 传输 pipeline 的协同、以及 CPU 侧缓存管理与请求调度。

随上下文长度增长,GLM-5.2 的吞吐优势会越来越明显。

Agentic RL 训练

GLM-5.2 的 agentic RL post-training 涉及更大规模、更多领域和更复杂的执行模式。长程交互、工具调用、子任务拆解、多轮环境反馈,都对 rollout 和训练编排提出了更高要求。两个核心改动值得关注:一是用 slime 框架统一训练和大规模推理的 rollout,二是针对 coding RL 的 reward hacking 问题引入了 anti-hack 模块。

slime 框架

slime 是从训练到大规模推理 rollout 的一体化基础设施,支持 white-box / black-box rollout、compact trajectory、sub-agent workflow 等。GLM-5.2 的 post-training 使用 slime 进行并行 OPD 训练,将 10+ 个专家模型合并为最终模型,整个 OPD 过程约两天完成。

长程 RL + Anti-Hack

长程任务的执行轨迹更长,经过 compaction 后子轨迹数量和长度差异也较大。GLM-5.2 从 group-wise 优化转向基于 critic 的 PPO,用 token-level advantage 适配不等长子轨迹。

Coding RL 领域容易出现 reward hacking 问题——例如读取受保护的评测文件、从上游 commit 复制答案、直接 curl 拉取目标代码等。GLM-5.2 引入了 anti-hack 模块,采用两阶段检测方式(rule-based filter + LLM judge),在线拦截 hack 行为并返回 dummy 信息,让 rollout 继续运行而非中断。

开源与使用方式

模型权重已遵循 MIT License 在各大平台上线,主流推理框架均已支持。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策