GLM-4.7闪电发布深度评测:性能与体验对比

2026-06-24阅读 0热度 0
角色扮演

GLM-4.7官方基准测试GLM-4.7 官方基准测试数据解析

在长达数天的预热之后,智谱AI于12月22日正式推出新一代旗舰模型GLM-4.7。此次迭代在编程与复杂推理能力上实现了跨越式提升,直接对标当前闭源模型中的顶级选手。消息一经公布,迅速引发行业高度关注。

基准测试成绩亮眼

根据Z.ai团队公布的指标,GLM-4.7在编程、复杂推理及工具调用三大维度上均有显著跃升,同时在对话、创意写作与角色扮演等场景中的表现也进一步增强。具体来看,几项核心基准测试的结果极具竞争力:

  • LMArena代码竞技场(盲测):开源模型排名第一,超越GPT-5.2
  • LiveCodeBench V6:得分84.8,领先Claude 4.5 Sonnet
  • AIME 2025(数学):表现优于Claude 4.5 Sonnet和GPT-5.1
  • 人类终极考试(HLE):得分42%,相较GLM-4.6提升38%,逼近GPT-5.1水平
  • τ²-Bench:真实世界交互表现与Claude 4.5 Sonnet持平

LM Arena测试结果LM Arena 测试结果概览

在实际开发场景的横向对比中,GLM-4.7在前端任务上以64.6%的胜率领先GLM-4.6,后端任务胜率为46.7%,指令遵循任务胜率为58.3%。数据分布表明,新模型在前端交互能力与指令理解上的优化最为深入。

技术规格与特性

GLM-4.7支持200K上下文窗口,最大输出可达128K tokens,推理速度约为每秒55 tokens。此外,模型进一步优化了交织思维模式,引入保留思维与回合级思维——即在执行动作之间进行推理,并保持跨回合的一致性,使复杂任务的执行更加稳定、可控。

定价策略

GLM-4.7已作为GLM Coding Plan的默认模型上线。该计划提供多种订阅选项,起价每月3美元,兼容Claude Code、Cursor等十余种主流编程工具。对开发者而言,入手门槛相当友好。

小结

基准测试数据确实振奋人心,部分内测用户反馈实际编程水平大幅跃升,甚至有人将其比作又一个“deepseek时刻”。不过,早期用户的实测反馈相对保守——有用户指出,在有限测试场景中,GLM-4.7并未明显优于Claude 4.5 Sonnet或GPT-5.2,甚至可能不及Minimax M2.1。客观而言,测试任务类型与场景差异对结果影响显著,最终表现仍需更多用户实际验证。

智谱近期密集发布模型,用户直呼“GLM-4.6还没熟悉,4.7就来了”。这背后或与智谱冲刺“中国大模型第一股”的战略意图有关——智谱AI已宣布将于明年1月在香港IPO。有趣的是,minimax也传出赴港上市消息。相比之下,minimax业务更为多元,海外市场覆盖200多个国家和地区,拥有超过2.12亿个人用户,海外收入占比超70%。从这个角度看,智谱加速迭代、频繁动作,显然是在为提升国际影响力铺路。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策