千问3.7旗舰模型深度测评：智能体编程新突破与实战指南

2026-05-27阅读 0热度 0

旗舰模型

5月20日，阿里巴巴正式推出新一代千问旗舰模型Qwen3.7-Max。该模型一经发布，即在全球权威大模型盲测平台Arena的总榜中取得突破性成绩，不仅领先于Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1等国内主流模型，其综合性能更与GPT、Claude、Gemini系列的最强版本处于同一梯队，稳居国产大模型榜首。

Qwen3.7系列专为智能体（Agent）应用场景深度优化。其在编程与逻辑推理等核心能力上实现显著跃升，已能独立规划并执行长达35小时的复杂任务链。例如，在一个全新的芯片平台上，Qwen3.7-Max通过自主编程与超过1000次的工具调用，成功完成关键推理内核的优化迭代，最终实现推理速度10倍的性能提升。

Qwen3.7-Max发布，位列国产模型第一

性能跃升：多维度评测全面领先

阿里大模型的迭代节奏持续加速。在三个月内，千问旗舰模型已稳定发布3.5、3.6、3.7三个版本，不断突破国产模型的能力边界。Qwen3.7-Max在多项核心评测中均展现出领先优势：

编程智能体方面，其在SWE-Pro、SWE-Multilingual等基准测试中表现突出。尤其在Terminal Bench 2.0-Terminus上获得69.7分，成绩超过DeepSeek-v4-pro-Max、Claude-Opus4.6等顶级模型。

通用智能体方面，能力提升同样显著。在贴近实际应用的MCP-Atlas、MCP-Mark、Skillbench等评测中，其表现优于GLM5.1、Kimi-K2.6等对手，创下国产模型新高。同时，在Kernel Bench L3测试中展现了强大的GPU内核优化潜力。

推理能力上，Qwen3.7-Max在GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench等核心推理评测中，全面超越了Claude-Opus4.6及所有国产竞品。

通用与多语言能力同样扎实。在指令遵循基准IFBench中取得79.1分的新高；在多语言理解与翻译任务WMT24++、MAXIFE评测中也处于领先地位。

编程能力：从原型到工程的跨越

编程能力已成为评估大语言模型技术实力的关键标尺。Qwen3.7-Max在此领域实现了代际提升，能够驾驭从前端原型到复杂多文件工程项目的全栈开发。

在评估真实世界编程问题解决的SWE-bench系列测试，以及面向科学计算场景的SciCode测评中，Qwen3.7-Max不仅较Qwen3.6-Plus有大幅进步，更超越了Claude Opus 4.6-Max、Kimi-K2.6、DeepSeek-v4-Pro-Max等模型。

千问3.7可被视为一个高效的编程智能体。它能够自主编写代码、创建工具、精准执行任务，并在复杂编程过程中完成自我纠错与迭代优化。整个过程如同资深工程师，独立完成从需求分析、代码实现到测试交付的全流程，最终产出可投入生产的工业级成果。

智能体底座：赋能长程复杂任务

持续进化的编程能力，为智能体处理更复杂、更长周期的任务提供了坚实支撑。千问3.7本身具备卓越的Agent能力，并展现出跨多种智能体框架的泛化性能，无论是在Claude Code、OpenClaw还是Qwen Code框架下均能稳定运行，有望成为各类智能体系统的可靠基座。

通过MCP集成与多智能体协作，Qwen3.7-Max在企业办公场景中实现了工作流自动化。其在办公自动化基准SpreadSheetBench-v1上获得87分的顶尖成绩，堪称高效的生产力助手。以往需专业团队耗时数周的复杂项目，现在由Qwen3.7-Max驱动的智能体可在数小时内完成端到端交付。

在实战测试中，Qwen3.7-Max更是展现了当前智能体执行长程任务的极限能力。对于大模型而言，推理速度高度依赖底层算子优化，这通常需要AI基础设施工程师具备深厚的经验、算法知识以及反复的调试能力。

如今，千问3.7开始自主攻克这一高难度课题。在一个模型训练时从未接触过的全新硬件平台——平头哥真武M890芯片上，千问3.7独立完成了一项复杂的推理内核优化任务。在缺乏性能数据、硬件文档或参考实现的情况下，它仅从一个包含任务描述、SGLang Triton参考代码和评测脚本的空白工作区起步，从零开始持续编程35小时，独立进行了432次内核评估、1158次工具调用，自主完成了编写、编译、性能分析与迭代改进的全过程。

Qwen3.7-Max可独立执行35小时的长程复杂任务

最终成果极具说服力：在平头哥新AI芯片上，经千问优化后的推理内核，相比SGLang Triton的最新参考实现获得了10倍的加速比。更值得关注的是，任务轨迹显示，模型在独立运行超过30小时后，依然能发现有效的优化机会，并主动发起了一次关键的架构重设计。这充分证明了千问在复杂长周期任务中自主迭代与演进的能力，为未来模型与智能体的自我优化开启了新的可能性。

面向未来：全能智能体新基座

在2026阿里云峰会现场，阿里云宣布为智能体时代进行全面技术升级，发布了全新的“芯-云-模型-推理”一体化技术体系。据悉，Qwen3.7-Max模型API即将在阿里云百炼平台上线。同时，千问3.7系列还将推出Qwen3.7-Plus等多个版本，这些模型具备强大的多模态推理与视觉理解能力，实现了从编程智能体到视觉智能体的能力覆盖，旨在为下一代AI应用构建一个全能的智能体基座。

千问3.7旗舰模型深度测评：智能体编程新突破与实战指南

性能跃升：多维度评测全面领先

编程能力：从原型到工程的跨越

智能体底座：赋能长程复杂任务

面向未来：全能智能体新基座

相关阅读

最新教程

最新资讯