GLM 5.2 开源技术博客深度测评

2026-06-18阅读 0热度 0

开源

先抛出几项核心结论：GLM-5.2 的发布标志着国产大模型的一个里程碑。744B MoE 参数、40B 激活、支持 1M 上下文、采用 MIT 协议全面开源——这些硬指标摆在台面上，分量十足。

该模型已纳入 GLM Coding Plan，API 同步开放，定价维持与 5.1 相同水平。在最受关注的编码能力上，GLM-5.2 于 Arena 以 1595 分夺得第二。考虑到近期 Gemini 表现下滑，GLM 正式跻身“Coding 御三家”行列，并且是该榜单上最可用的最强模型。

Code Arena: Frontend（来源：arena.ai）

Benchmark 总览

GLM-5.2 Full Benchmark Table

本次发布的 GLM-5.2，核心设计目标就是为长程任务（Long Horizon Task）而生。几个关键特性值得关注：

- 1M 上下文，长程任务下保持稳定输出

- 编码能力实现更贴近实际场景的显著提升

- 极致的 Infra 优化，Day 0 即可在国产算力平台运行

- MIT 协议开放，美国团队也可直接使用

长程任务

所有测试均在 1M 上下文、Max 档位、128K 最大输出条件下执行，结果清晰：GLM-5.2 在所有开源模型中排名第一。

Long-Horizon Task Evaluation

具体数据如下：

FrontierSWE（20 小时级复杂工程）：Opus 4.8 达到 75.1%，GLM-5.2 拿下 74.4%，GPT-5.5 为 72.6%。仅差 0.7 个百分点，咬得非常紧。

PostTrainBench（给 Agent 一块 H100，10 小时内完成 post-training）：Opus 4.8 为 37.2%，GLM-5.2 为 34.3%，GPT-5.5 为 25.0%。

SWE-Marathon（编译器、内核优化等超长周期工程）：Opus 4.8 达到 26.0%，Opus 4.7 为 16.0%，GLM-5.2 为 13.0%，GPT-5.5 为 12.0%。该项目上差距较大，排名位于 Opus 4.7 之后。

Coding 评测

在 8 项 Coding + Agentic 评测中，GLM-5.2 保持开源 SOTA 地位，相较 5.1 的提升堪称跨代式。

LLM Performance Evaluation

具体来看：Terminal-Bench 2.1 上 GLM-5.2 拿到 81.0，Opus 4.8 为 85.0，GPT-5.5 为 84.0（5.1 仅为 63.5）。MCP-Atlas 上 77.0 对 77.8，几乎持平。SWE-bench Pro 上 62.1 对 69.2。NL2Repo 上 48.9 对 69.7，该项差距最大。

但需注意一个关键点：HLE with Tools 测试中，GLM-5.2 拿到 54.7，Opus 4.8 为 52.3，GPT-5.5 为 52.2——这才是真正的亮点。

效率曲线

用 Claude Code 跑 Terminal-Bench 2.1、DeepSWE、SWE-Atlas 的平均分，GLM-5.2 的 High 档与 Opus 4.8 的 High 档基本重合（约 73%），Max 档 GLM-5.2 约 75%，Opus 4.8 约 78%。对比 GLM-5.1，从 Non-Thinking 到 Max 全程低了 15 到 20 个百分点，这一代际提升相当可观。

Agentic Coding Performance by Effort Level

1M 上下文架构

为让 1M 上下文在工程层面真正可用，GLM-5.2 在架构和推理引擎上均做了系统性优化。

GLM-5.2 Architecture for 1M Context

IndexShare for DSA

每 4 层 transformer 共享一个轻量 indexer，top-k 索引复用到后续 3 层。如此一来，节省了 3/4 的 indexer 点积和 top-k 计算量。并且从 mid-training 阶段就开始使用 IndexShare 训练，而非后期硬性添加。

MTP with IndexShare and KVShare

改进 MTP 层用于投机解码：indexer 仅在第一步放置，后续步骤复用 top-k 索引。这样第二步的 KV cache 只包含来自 target model 的隐状态，消除了 GLM-5.1 中训练与推理不一致的问题。

MTP Inference with IndexShare? MTP Inference with IndexShare

这四步优化叠加的效果非常明显：baseline 得分 4.56；加入 IndexShare 和 KVShare 后提升到 5.10；再加上 Rejection Sampling 达到 5.29；最后通过 End-to-end TV Loss 进一步优化到 5.47，整体提升了 20%。

Serving 1M

上下文从 200K 扩展到 1M 后，推理瓶颈主要转向 KV-cache 容量、长上下文 kernel 开销以及 CPU 侧开销。GLM-5.2 针对这三个方向做了优化：基于 LayerSplit 的细粒度内存管理与并行策略、长上下文 kernel 与 cache 传输 pipeline 的协同、以及 CPU 侧缓存管理与请求调度。

随上下文长度增长，GLM-5.2 的吞吐优势会越来越明显。

Agentic RL 训练

GLM-5.2 的 agentic RL post-training 涉及更大规模、更多领域和更复杂的执行模式。长程交互、工具调用、子任务拆解、多轮环境反馈，都对 rollout 和训练编排提出了更高要求。两个核心改动值得关注：一是用 slime 框架统一训练和大规模推理的 rollout，二是针对 coding RL 的 reward hacking 问题引入了 anti-hack 模块。

slime 框架

slime 是从训练到大规模推理 rollout 的一体化基础设施，支持 white-box / black-box rollout、compact trajectory、sub-agent workflow 等。GLM-5.2 的 post-training 使用 slime 进行并行 OPD 训练，将 10+ 个专家模型合并为最终模型，整个 OPD 过程约两天完成。

长程 RL + Anti-Hack

长程任务的执行轨迹更长，经过 compaction 后子轨迹数量和长度差异也较大。GLM-5.2 从 group-wise 优化转向基于 critic 的 PPO，用 token-level advantage 适配不等长子轨迹。

Coding RL 领域容易出现 reward hacking 问题——例如读取受保护的评测文件、从上游 commit 复制答案、直接 curl 拉取目标代码等。GLM-5.2 引入了 anti-hack 模块，采用两阶段检测方式（rule-based filter + LLM judge），在线拦截 hack 行为并返回 dummy 信息，让 rollout 继续运行而非中断。

开源与使用方式

模型权重已遵循 MIT License 在各大平台上线，主流推理框架均已支持。