摩尔线程极速适配智谱GLM-5.2深度评测
6月17日,摩尔线程正式宣布:在AI训推一体全功能GPU智算卡MTT S5000上,成功完成对智谱新一代开源旗舰模型GLM-5.2的Day-0极速适配。这次升级不止于“能跑”,更延续了此前在GLM-5.1长上下文Prefill与P/D异构分离推理场景中的优化积累,针对GLM-5.2的超长上下文与复杂推理负载,进一步释放了MTT S5000在长输入Prefill阶段的高吞吐能力。
技术团队基于高性能SGLang-MUSA推理引擎与TileLang-MUSA算子编程语言,快速完成模型结构适配、关键算子优化、框架拉起及部署验证,在MTT S5000上实现了GLM-5.2的高效、高精度推理。这一成果的关键价值在于:验证了国产全功能GPU算力基础设施对前沿SOTA模型的快速响应能力,同时为软硬协同应对复杂AI推理场景提供了可复制的工程实践方案。
作为智谱迄今为止能力最强的开源模型,GLM-5.2专为长程任务(Long Horizon Task)设计。支持真正可用的1M Solid超长上下文,能够稳定支撑长达8小时的超长生命周期任务。在全球百万用户参与盲测的前端开发评估系统Code Arena上,GLM-5.2拿下全球可用模型第一的成绩。相比前代GLM-5.1,新模型在前端、后端及长程开发场景下的成功率均有显著提升,提供了更实用、更具确定性的编程能力——复杂系统工程与深度调试,表现更稳、更强。
为了充分释放GLM-5.2的长上下文与复杂推理潜力,MTT S5000从硬件算力、软件栈到开源框架完成了全链路适配与深度优化。具体来看,有两个关键方向。
支撑超长上下文:释放长输入Prefill阶段高吞吐优势
GLM-5.2的Solid 1M上下文与长程任务能力,使长Prompt编码、上下文读入与KV Cache生成成为推理链路中的核心环节。长输入请求在进入生成阶段前,必须先完成大规模Prefill计算——这一阶段高度依赖并行矩阵计算、Attention算子效率、显存容量与访存带宽。
MTT S5000的核心优势在于:硬件级原生FP8加速,单卡稠密算力高达1000 TFLOPS,配备80GB大容量显存与1.6TB/s超高带宽。这些硬件基础在长输入Prefill阶段能够集中释放高吞吐能力,为百万token级上下文处理提供充足的缓存空间与稳定数据吞吐。结合MUSA C++、Triton-MUSA与TileLang-MUSA等工具链的协同,GLM-5.2相关算子结构可快速迁移并针对长序列场景持续优化。最终效果是降低长上下文请求的首Token等待时间(TTFT),提升AI编程、RAG和长文档分析等场景的在线推理效率。
赋能前沿Coding与Agent能力:以算子与调度优化提升推理效率
GLM-5.2重点强化了编程、智能体和长程任务能力。摩尔线程基于GLM家族多代模型的适配与优化经验,将模型结构适配、算子优化、框架拉起和部署验证能力快速迁移至GLM-5.2。通过原生算子定制、TileLang-MUSA编程优化和SGLang-MUSA推理框架的协同,MTT S5000能够在保证模型精度的前提下提升推理吞吐、降低响应延迟,为客户提供面向AI编程、Agent工作流和长文档分析的高效推理服务。
从GLM-4.7、GLM-5、GLM-5.1到GLM-5.2,摩尔线程已连续实现智谱GLM家族前沿大模型发布当日即时适配,沉淀出一套高效、可复用的工程底座。面向以GLM-5.2为代表的新一代长程任务模型,摩尔线程不仅提供基础适配,更通过Prefill优化与P/D异构分离方案,提供从单卡性能、多卡扩展、KV Cache传输到集群TCO(总体拥有成本)优化的端到端支撑。
未来,摩尔线程将持续依托MUSA软件栈强大的生态兼容性,第一时间适配前沿模型能力,以高性能、可规模化的国产全功能GPU基础设施,加速大模型应用创新落地。
GLM-5.2 官方开源地址
GitHub:https://github.com/zai-org/GLM-5
Hugging Face:https://huggingface.co/zai-org/GLM-5.2
ModelScope:https://modelscope.cn/models/ZhipuAI/GLM-5.2

