GLM-4.7闪电发布深度评测：性能与体验对比

2026-06-24阅读 0热度 0

角色扮演

GLM-4.7 官方基准测试数据解析

在长达数天的预热之后，智谱AI于12月22日正式推出新一代旗舰模型GLM-4.7。此次迭代在编程与复杂推理能力上实现了跨越式提升，直接对标当前闭源模型中的顶级选手。消息一经公布，迅速引发行业高度关注。

基准测试成绩亮眼

根据Z.ai团队公布的指标，GLM-4.7在编程、复杂推理及工具调用三大维度上均有显著跃升，同时在对话、创意写作与角色扮演等场景中的表现也进一步增强。具体来看，几项核心基准测试的结果极具竞争力：

LMArena代码竞技场（盲测）：开源模型排名第一，超越GPT-5.2
LiveCodeBench V6：得分84.8，领先Claude 4.5 Sonnet
AIME 2025（数学）：表现优于Claude 4.5 Sonnet和GPT-5.1
人类终极考试（HLE）：得分42%，相较GLM-4.6提升38%，逼近GPT-5.1水平
τ²-Bench：真实世界交互表现与Claude 4.5 Sonnet持平

LM Arena 测试结果概览

在实际开发场景的横向对比中，GLM-4.7在前端任务上以64.6%的胜率领先GLM-4.6，后端任务胜率为46.7%，指令遵循任务胜率为58.3%。数据分布表明，新模型在前端交互能力与指令理解上的优化最为深入。

技术规格与特性

GLM-4.7支持200K上下文窗口，最大输出可达128K tokens，推理速度约为每秒55 tokens。此外，模型进一步优化了交织思维模式，引入保留思维与回合级思维——即在执行动作之间进行推理，并保持跨回合的一致性，使复杂任务的执行更加稳定、可控。

定价策略

GLM-4.7已作为GLM Coding Plan的默认模型上线。该计划提供多种订阅选项，起价每月3美元，兼容Claude Code、Cursor等十余种主流编程工具。对开发者而言，入手门槛相当友好。

小结

基准测试数据确实振奋人心，部分内测用户反馈实际编程水平大幅跃升，甚至有人将其比作又一个“deepseek时刻”。不过，早期用户的实测反馈相对保守——有用户指出，在有限测试场景中，GLM-4.7并未明显优于Claude 4.5 Sonnet或GPT-5.2，甚至可能不及Minimax M2.1。客观而言，测试任务类型与场景差异对结果影响显著，最终表现仍需更多用户实际验证。

智谱近期密集发布模型，用户直呼“GLM-4.6还没熟悉，4.7就来了”。这背后或与智谱冲刺“中国大模型第一股”的战略意图有关——智谱AI已宣布将于明年1月在香港IPO。有趣的是，minimax也传出赴港上市消息。相比之下，minimax业务更为多元，海外市场覆盖200多个国家和地区，拥有超过2.12亿个人用户，海外收入占比超70%。从这个角度看，智谱加速迭代、频繁动作，显然是在为提升国际影响力铺路。

GLM-4.7闪电发布深度评测：性能与体验对比

基准测试成绩亮眼

技术规格与特性

定价策略

相关阅读

最新教程

最新资讯