GLM-5.2深度实测:国产Coding模型排行与对比
这条消息在X上迅速突破5000万阅读量,全网炸锅。从实际体验来看,Claude Fable 5在纯代码执行层面,Opus 4.8和GPT 5.5或许也能完成,但它在方案设计、架构规划、输出完整度和全局覆盖上的表现,几乎找不到替代品。就在几天前,我还在用它优化AIHOT精选算法并完成移动端全面适配,正准备启动小程序开发,结果模型直接下线。
仅4天时间,这个号称全球最强的模型就被召回并全面下线。再联想到世界杯期间,一位索马里籍裁判因被美国禁止入境而无缘赛场,这种“筑墙”趋势让人不得不感叹:世界格局似乎正变得越来越封闭。
就在大家还在为这些事感到惋惜时,下午2点19分,智谱突然发布了一则公告。
公告里有段话特别耐人寻味:“在一些前沿模型突然变得不可用的时刻,我们选择相信另一条路:前沿智能不应只属于少数人,也不应被少数规则随时收回。它应该开放、可用、可构建,并服务于每一位开发者。”
这段话迅速刷屏朋友圈。更关键的是,这次GLM 5.2依然选择开源。
GLM 5.1在技术和AI圈的口碑早已无需多言,基本可以称得上国产之光,是为数不多能与Claude和GPT掰手腕的模型之一。在Coding和Agent能力上,它一直是那些无法使用海外模型的用户的首选。客观来说,如果不是算力资源的限制——国内训练和推理资源与国外差了一个数量级——像智谱、DeepSeek这样的团队,绝对有能力做出不亚于海外两巨头的模型。
事发突然,很多人还在外面吃饭就直接往家赶去抢权限。还好Coding Plan的资格还在,我顺利拿到了GLM 5.2的访问权限。需要说明的是,今天GLM 5.2上线的是智谱的Coding Plan,可以理解为类似Claude和GPT的订阅模式——只有订阅用户才能使用。下周会开放API方式,并直接开源。
更戏剧性的是,智谱选择在下午5点21分开放,而Anthropic收到那封信的时间,恰好也是5点21分。
一边在关门,一边在开门。一边说前沿智能是国家安全风险,一边说前沿智能属于所有人。这种鲜明的对比,戏剧性直接拉满。
不过,Coding Plan也有一个让人头疼的地方——智谱的算力太有限了,无法支撑所有用户的推理请求,所以这个计划是限量的,需要抢。
想用的朋友,记得每天早上10点定好闹钟去抢。
从实际测试和朋友们的反馈来看,GLM 5.2可以说是国产模型的一座新高峰。除了算力导致运行速度偏慢外,在纯粹的结果上,只要不是强设计类任务,GLM 5.2的表现与Opus 4.8的差距其实不大。尤其在大型工程、长任务、后端等场景下,表现非常强悍。差距主要集中在前端方案的先进性和完整度,以及设计审美上。
GLM 5.2的优点也很明显:输出结果易于理解、沟通顺畅、幻觉极低、稳定性极好。这次上下文长度终于扩展到了1M,这是一个重要的进步。在测试中,400–500k左右的上下文长度下,准确性和指令遵循能力与Claude相当接近,非常稳定。我自己写的Claude.md在400K长度下也能很好地遵循指令。至于500k到1M这个区间,平时很少涉及,就不多做评价了。
最可惜的是,GLM 5.2依然没有加入多模态能力,仍然是一个纯文本模型。干活能力没有任何问题,整体感觉更像一头勤勤恳恳的老黄牛——活肯定能干好,只是聪明程度还比不上Claude Fable 5,跟Opus 4.8相比也稍逊一筹,但已经非常出色了。
举个例子,今天在AIHOT上遇到了一个小任务。为了节省时间,我用一些方法监控了常看的公众号,以便第一时间获取信息。结果发现了一个BUG:智谱的公众号在监控列表中,但GLM 5.2的消息在2点19分发布后,AIHOT里居然没有捕捉到。直到4点智谱发了X才看到。
于是直接把这个问题扔给了GLM 5.2。在它排查的过程中,我其实已经大概猜到了原因:前段时间切换了监控方案,现在是两个方案并行灰度运行,大概率是后来切换的那个三方API账户里没钱了——本来前天就该充值,结果忙忘了。
不过这也正好可以观察模型的聪明程度。这个项目大概10万行代码,后端逻辑因为涉及各种监控和调度,相对复杂。
GLM 5.2最终定位到了问题,但结果有点意外:其实是因为智谱好几天没发文章了,跟监控体系本身没什么关系。
然后它顺着这个方向继续排查,一度以为是整个监控体系出了BUG。
思考了一阵后,它自己又推翻了一次。
最终找到了答案。
然后问是否要做一个监控。
全程耗时21分钟。对比Claude Opus 4.8,思考过程几乎一模一样,唯一区别是在fast模式下,6分钟就干完了,不开fast正常也就10分钟。
也就是说,Claude Opus 4.8比GLM 5.2快了两倍,但过程和结果完全相同。这本质上是infra和算力的差距,属于基建问题。
然后又让GLM 5.2做后续处理。
因为文档和记忆系统已经做得非常规范,还有一个专门的飞书报警群。我相信GLM 5.2肯定能完成这个任务,关键要看它能否在最短时间内找到余额报警方式、找到对应的群,然后把事情干完。
补流程、查代码文档、开发、走测试、合并、更新记忆和文档,整个过程花了26分钟,非常漂亮地完成了。
验证结果完全没问题。
接着又让它干了一个更大的活:把AIHOT的官网转成一个小程序。本来打算用Fable 5做的,既然用不了,就直接交给GLM 5.2了。Prompt很简单——直接把小程序的开发目录和小程序开发文档扔进去,说了一句“帮我把AIHOT做成小程序版”。
GLM 5.2研究了一阵后,问了两个问题。
直接无脑选了第一个。然后它开始列计划,计划完成后,并行启动4个Agent进行开发。
大约40分钟后,小程序完成了。
基本没什么BUG,各个页面都能点,该有的功能和信息都有,唯一的硬伤是:确实有点丑。底部Tab栏还有个小BUG——背景没了,适配没做好,调了一下才改好。不过在逻辑展示、接口调用等方面,几乎没有任何问题。GLM 5.2在做大任务时,稳定性确实稳如老狗。
当然,真要把它做成一个完整的小程序,还是需要对着UI一点点细调的。相比Claude(无论是Fable还是Opus),在省心程度上确实还有差距。设计审美上的差距,可能只有等GLM补齐多模态能力后,才会有质的飞跃。
之后又让GLM 5.2用Three.js做了一个线上游戏化营地的原型,一轮出来的效果如下。
稳定性没有问题,但审美也就只能说是“能用的水平”,距离精致还有距离。
Skill的构建也是模型能力的重要一环。用之前清理电脑那个Skill做了测试,从零开始用嘴复刻,最终效果跟Opus 4.8开发的Skill几乎没有区别。
看看实际效果。
在有限的时间体验下来,GLM 5.2整体很惊喜,也超出了预期。只要抛开审美和多模态这两个因素,在体验中它确实可以和Opus 4.8掰掰手腕。
现在国产模型里有两个极度值得大家使用:如果涉及Agent和Coding,无脑推荐GLM 5.2 + Claude Code框架,这是目前在国内能用到的最强组合;如果涉及策划、写作等泛知识任务,无脑推荐DeepSeek V4 Pro,这是目前世界知识表现最棒的模型。
智谱在今天公众号文章的结尾写了两行英文:
A step closer to frontier intelligence for everyone.
The future of AI is open, and it is for the people.
翻译过来就是:向前沿智能再近一步,为每一个人。AI的未来是开放的,它属于所有人。
放在今天这个语境下,这两句话格外令人感慨。2026年的AI赛道,每天都在上演让人目瞪口呆的事。一边在筑墙,一边在铺路。但可以确定的是,这些墙在汹涌向前的洪流之下,必然会倒塌。智能,应该属于所有人。
新时代,一定会到来的。