千问3.7旗舰模型深度测评:智能体编程新突破与实战指南

2026-05-27阅读 0热度 0
旗舰模型

5月20日,阿里巴巴正式推出新一代千问旗舰模型Qwen3.7-Max。该模型一经发布,即在全球权威大模型盲测平台Arena的总榜中取得突破性成绩,不仅领先于Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1等国内主流模型,其综合性能更与GPT、Claude、Gemini系列的最强版本处于同一梯队,稳居国产大模型榜首。

Qwen3.7系列专为智能体(Agent)应用场景深度优化。其在编程与逻辑推理等核心能力上实现显著跃升,已能独立规划并执行长达35小时的复杂任务链。例如,在一个全新的芯片平台上,Qwen3.7-Max通过自主编程与超过1000次的工具调用,成功完成关键推理内核的优化迭代,最终实现推理速度10倍的性能提升。

Qwen3.7-Max发布,位列国产模型第一

性能跃升:多维度评测全面领先

阿里大模型的迭代节奏持续加速。在三个月内,千问旗舰模型已稳定发布3.5、3.6、3.7三个版本,不断突破国产模型的能力边界。Qwen3.7-Max在多项核心评测中均展现出领先优势:

编程智能体方面,其在SWE-Pro、SWE-Multilingual等基准测试中表现突出。尤其在Terminal Bench 2.0-Terminus上获得69.7分,成绩超过DeepSeek-v4-pro-Max、Claude-Opus4.6等顶级模型。

通用智能体方面,能力提升同样显著。在贴近实际应用的MCP-Atlas、MCP-Mark、Skillbench等评测中,其表现优于GLM5.1、Kimi-K2.6等对手,创下国产模型新高。同时,在Kernel Bench L3测试中展现了强大的GPU内核优化潜力。

推理能力上,Qwen3.7-Max在GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench等核心推理评测中,全面超越了Claude-Opus4.6及所有国产竞品。

通用与多语言能力同样扎实。在指令遵循基准IFBench中取得79.1分的新高;在多语言理解与翻译任务WMT24++、MAXIFE评测中也处于领先地位。

编程能力:从原型到工程的跨越

编程能力已成为评估大语言模型技术实力的关键标尺。Qwen3.7-Max在此领域实现了代际提升,能够驾驭从前端原型到复杂多文件工程项目的全栈开发。

在评估真实世界编程问题解决的SWE-bench系列测试,以及面向科学计算场景的SciCode测评中,Qwen3.7-Max不仅较Qwen3.6-Plus有大幅进步,更超越了Claude Opus 4.6-Max、Kimi-K2.6、DeepSeek-v4-Pro-Max等模型。

千问3.7可被视为一个高效的编程智能体。它能够自主编写代码、创建工具、精准执行任务,并在复杂编程过程中完成自我纠错与迭代优化。整个过程如同资深工程师,独立完成从需求分析、代码实现到测试交付的全流程,最终产出可投入生产的工业级成果。

智能体底座:赋能长程复杂任务

持续进化的编程能力,为智能体处理更复杂、更长周期的任务提供了坚实支撑。千问3.7本身具备卓越的Agent能力,并展现出跨多种智能体框架的泛化性能,无论是在Claude Code、OpenClaw还是Qwen Code框架下均能稳定运行,有望成为各类智能体系统的可靠基座。

通过MCP集成与多智能体协作,Qwen3.7-Max在企业办公场景中实现了工作流自动化。其在办公自动化基准SpreadSheetBench-v1上获得87分的顶尖成绩,堪称高效的生产力助手。以往需专业团队耗时数周的复杂项目,现在由Qwen3.7-Max驱动的智能体可在数小时内完成端到端交付。

在实战测试中,Qwen3.7-Max更是展现了当前智能体执行长程任务的极限能力。对于大模型而言,推理速度高度依赖底层算子优化,这通常需要AI基础设施工程师具备深厚的经验、算法知识以及反复的调试能力。

如今,千问3.7开始自主攻克这一高难度课题。在一个模型训练时从未接触过的全新硬件平台——平头哥真武M890芯片上,千问3.7独立完成了一项复杂的推理内核优化任务。在缺乏性能数据、硬件文档或参考实现的情况下,它仅从一个包含任务描述、SGLang Triton参考代码和评测脚本的空白工作区起步,从零开始持续编程35小时,独立进行了432次内核评估、1158次工具调用,自主完成了编写、编译、性能分析与迭代改进的全过程。

Qwen3.7-Max可独立执行35小时的长程复杂任务

最终成果极具说服力:在平头哥新AI芯片上,经千问优化后的推理内核,相比SGLang Triton的最新参考实现获得了10倍的加速比。更值得关注的是,任务轨迹显示,模型在独立运行超过30小时后,依然能发现有效的优化机会,并主动发起了一次关键的架构重设计。这充分证明了千问在复杂长周期任务中自主迭代与演进的能力,为未来模型与智能体的自我优化开启了新的可能性。

面向未来:全能智能体新基座

在2026阿里云峰会现场,阿里云宣布为智能体时代进行全面技术升级,发布了全新的“芯-云-模型-推理”一体化技术体系。据悉,Qwen3.7-Max模型API即将在阿里云百炼平台上线。同时,千问3.7系列还将推出Qwen3.7-Plus等多个版本,这些模型具备强大的多模态推理与视觉理解能力,实现了从编程智能体到视觉智能体的能力覆盖,旨在为下一代AI应用构建一个全能的智能体基座。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策