摩尔线程极速适配智谱GLM-5.2深度评测

2026-06-18阅读 0热度 0

摩尔线程

6月17日，摩尔线程正式宣布：在AI训推一体全功能GPU智算卡MTT S5000上，成功完成对智谱新一代开源旗舰模型GLM-5.2的Day-0极速适配。这次升级不止于“能跑”，更延续了此前在GLM-5.1长上下文Prefill与P/D异构分离推理场景中的优化积累，针对GLM-5.2的超长上下文与复杂推理负载，进一步释放了MTT S5000在长输入Prefill阶段的高吞吐能力。

技术团队基于高性能SGLang-MUSA推理引擎与TileLang-MUSA算子编程语言，快速完成模型结构适配、关键算子优化、框架拉起及部署验证，在MTT S5000上实现了GLM-5.2的高效、高精度推理。这一成果的关键价值在于：验证了国产全功能GPU算力基础设施对前沿SOTA模型的快速响应能力，同时为软硬协同应对复杂AI推理场景提供了可复制的工程实践方案。

作为智谱迄今为止能力最强的开源模型，GLM-5.2专为长程任务（Long Horizon Task）设计。支持真正可用的1M Solid超长上下文，能够稳定支撑长达8小时的超长生命周期任务。在全球百万用户参与盲测的前端开发评估系统Code Arena上，GLM-5.2拿下全球可用模型第一的成绩。相比前代GLM-5.1，新模型在前端、后端及长程开发场景下的成功率均有显著提升，提供了更实用、更具确定性的编程能力——复杂系统工程与深度调试，表现更稳、更强。

为了充分释放GLM-5.2的长上下文与复杂推理潜力，MTT S5000从硬件算力、软件栈到开源框架完成了全链路适配与深度优化。具体来看，有两个关键方向。

支撑超长上下文：释放长输入Prefill阶段高吞吐优势

GLM-5.2的Solid 1M上下文与长程任务能力，使长Prompt编码、上下文读入与KV Cache生成成为推理链路中的核心环节。长输入请求在进入生成阶段前，必须先完成大规模Prefill计算——这一阶段高度依赖并行矩阵计算、Attention算子效率、显存容量与访存带宽。

MTT S5000的核心优势在于：硬件级原生FP8加速，单卡稠密算力高达1000 TFLOPS，配备80GB大容量显存与1.6TB/s超高带宽。这些硬件基础在长输入Prefill阶段能够集中释放高吞吐能力，为百万token级上下文处理提供充足的缓存空间与稳定数据吞吐。结合MUSA C++、Triton-MUSA与TileLang-MUSA等工具链的协同，GLM-5.2相关算子结构可快速迁移并针对长序列场景持续优化。最终效果是降低长上下文请求的首Token等待时间（TTFT），提升AI编程、RAG和长文档分析等场景的在线推理效率。

赋能前沿Coding与Agent能力：以算子与调度优化提升推理效率

GLM-5.2重点强化了编程、智能体和长程任务能力。摩尔线程基于GLM家族多代模型的适配与优化经验，将模型结构适配、算子优化、框架拉起和部署验证能力快速迁移至GLM-5.2。通过原生算子定制、TileLang-MUSA编程优化和SGLang-MUSA推理框架的协同，MTT S5000能够在保证模型精度的前提下提升推理吞吐、降低响应延迟，为客户提供面向AI编程、Agent工作流和长文档分析的高效推理服务。

从GLM-4.7、GLM-5、GLM-5.1到GLM-5.2，摩尔线程已连续实现智谱GLM家族前沿大模型发布当日即时适配，沉淀出一套高效、可复用的工程底座。面向以GLM-5.2为代表的新一代长程任务模型，摩尔线程不仅提供基础适配，更通过Prefill优化与P/D异构分离方案，提供从单卡性能、多卡扩展、KV Cache传输到集群TCO（总体拥有成本）优化的端到端支撑。

未来，摩尔线程将持续依托MUSA软件栈强大的生态兼容性，第一时间适配前沿模型能力，以高性能、可规模化的国产全功能GPU基础设施，加速大模型应用创新落地。

GLM-5.2 官方开源地址

GitHub：https://github.com/zai-org/GLM-5

Hugging Face：https://huggingface.co/zai-org/GLM-5.2

ModelScope：https://modelscope.cn/models/ZhipuAI/GLM-5.2

摩尔线程极速适配智谱GLM-5.2深度评测

支撑超长上下文：释放长输入Prefill阶段高吞吐优势

赋能前沿Coding与Agent能力：以算子与调度优化提升推理效率

GLM-5.2 官方开源地址

相关阅读

最新教程

最新资讯