GLM-5.1测评：SWE-bench领跑榜单与价格调整深度解析

2026-05-24阅读 0热度 0

其他

智谱GLM-5.1大模型正式发布。与此同时，模型聚合平台OpenRouter的数据显示，GLM系列全线产品的调用价格同步上调了10%。

调价后，GLM-5.1在编程等高需求场景的缓存Token定价，已与Anthropic的Claude 3.5 Sonnet处于同一区间。这一动向标志着，国产大模型首次在核心性能指标上实现了与国际标杆产品的定价对标。行业竞争逻辑正从初期的规模成本竞争，转向基于技术实力的价值竞争。

技术表现：刷新纪录的“长跑选手”

GLM-5.1的技术突破是其价格策略的基石。在评估专业代码工程能力的SWE-bench Pro基准测试中，该模型刷新了全球纪录，超越了包括Claude 4.6 Opus在内的领先模型，稳居国产与开源模型首位。

其核心突破在于任务执行模式。不同于当前主流模型侧重于短时对话交互，GLM-5.1展现了卓越的自主工程耐力。它能够以单次任务持续运行长达8小时，在此周期内自主完成需求分析、方案规划、代码执行、测试验证乃至错误调试与策略调整的全流程，最终交付可直接部署的工程级成果。这种面向复杂、长周期任务的端到端解决能力，构成了其差异化的技术壁垒。

市场反应：从价格战到价值战

市场对此给出了积极反馈。在新品与技术突破消息的驱动下，智谱股价在早盘交易中一度涨幅超过14%，公司市值显著提升。这与一年前公司为抢占市场份额而采取激进降价策略的局面形成鲜明对比。

从以价格换市场，到凭借硬核技术能力实现价值对标，智谱的路径清晰地反映了一个行业趋势：领先的国产AI厂商正通过攻克高复杂度、长周期的现实任务，来重新锚定自身的技术价值与市场定位，并试图影响全球AI价值链的分配格局。价格趋同的本质是价值认知的趋同。下一阶段的竞争，将深入至技术应用深度与产业生态构建的层面。

GLM-5.1测评：SWE-bench领跑榜单与价格调整深度解析

技术表现：刷新纪录的“长跑选手”

市场反应：从价格战到价值战

相关阅读

最新教程

最新资讯