GLM-4.7闪电发布深度评测:性能与体验对比
在长达数天的预热之后,智谱AI于12月22日正式推出新一代旗舰模型GLM-4.7。此次迭代在编程与复杂推理能力上实现了跨越式提升,直接对标当前闭源模型中的顶级选手。消息一经公布,迅速引发行业高度关注。
基准测试成绩亮眼
根据Z.ai团队公布的指标,GLM-4.7在编程、复杂推理及工具调用三大维度上均有显著跃升,同时在对话、创意写作与角色扮演等场景中的表现也进一步增强。具体来看,几项核心基准测试的结果极具竞争力:
- LMArena代码竞技场(盲测):开源模型排名第一,超越GPT-5.2
- LiveCodeBench V6:得分84.8,领先Claude 4.5 Sonnet
- AIME 2025(数学):表现优于Claude 4.5 Sonnet和GPT-5.1
- 人类终极考试(HLE):得分42%,相较GLM-4.6提升38%,逼近GPT-5.1水平
- τ²-Bench:真实世界交互表现与Claude 4.5 Sonnet持平
在实际开发场景的横向对比中,GLM-4.7在前端任务上以64.6%的胜率领先GLM-4.6,后端任务胜率为46.7%,指令遵循任务胜率为58.3%。数据分布表明,新模型在前端交互能力与指令理解上的优化最为深入。
技术规格与特性
GLM-4.7支持200K上下文窗口,最大输出可达128K tokens,推理速度约为每秒55 tokens。此外,模型进一步优化了交织思维模式,引入保留思维与回合级思维——即在执行动作之间进行推理,并保持跨回合的一致性,使复杂任务的执行更加稳定、可控。
定价策略
GLM-4.7已作为GLM Coding Plan的默认模型上线。该计划提供多种订阅选项,起价每月3美元,兼容Claude Code、Cursor等十余种主流编程工具。对开发者而言,入手门槛相当友好。
小结
基准测试数据确实振奋人心,部分内测用户反馈实际编程水平大幅跃升,甚至有人将其比作又一个“deepseek时刻”。不过,早期用户的实测反馈相对保守——有用户指出,在有限测试场景中,GLM-4.7并未明显优于Claude 4.5 Sonnet或GPT-5.2,甚至可能不及Minimax M2.1。客观而言,测试任务类型与场景差异对结果影响显著,最终表现仍需更多用户实际验证。
智谱近期密集发布模型,用户直呼“GLM-4.6还没熟悉,4.7就来了”。这背后或与智谱冲刺“中国大模型第一股”的战略意图有关——智谱AI已宣布将于明年1月在香港IPO。有趣的是,minimax也传出赴港上市消息。相比之下,minimax业务更为多元,海外市场覆盖200多个国家和地区,拥有超过2.12亿个人用户,海外收入占比超70%。从这个角度看,智谱加速迭代、频繁动作,显然是在为提升国际影响力铺路。



