阿里千问Qwen3.7-Max深度评测:国产旗舰模型如何自主完成35小时复杂任务?
5月20日,阿里云峰会揭晓了其最新力作——千问旗舰模型Qwen3.7-Max。此次发布不仅是一次版本更新,更代表了国产大模型在核心能力上的一次实质性跃迁。
根据第三方评测机构Arena的全球大模型盲测榜单,Qwen3.7-Max的综合性能已超越Kimi-K2.6、DeepSeek-v4-pro及GLM-5.1等国内竞品,其整体表现与GPT、Claude、Gemini等国际主流模型的最新版本齐平,稳居国产模型综合排名的首位。
从Qwen3.5到3.6,再到当前的3.7-Max,千问旗舰系列在三个月内完成了三次关键迭代。这一密集的升级节奏,清晰地映射出其研发效率与工程化能力的快速提升。
面向智能体场景的全新设计
Qwen3.7-Max的核心设计理念聚焦于智能体(Agent)应用场景,并在多个关键技术指标上实现了突破。
编程能力是智能体执行复杂任务的根基。在SWE-Pro、SWE-Multilingual等编程智能体权威基准测试中,Qwen3.7-Max均取得了领先成绩。尤其在Terminal Bench 2.0-Terminus评测中,其69.7的得分超越了DeepSeek-v4-pro-Max和Claude-Opus4.6等模型,验证了其卓越的代码生成与调试能力。
在通用智能体能力评估中,该模型于MCP-Atlas、MCP-Mark、Skillbench等一系列贴近真实业务场景的测试中表现突出,成功超越了GLM5.1、Kimi-K2.6等国内模型,刷新了国产智能体的性能纪录。
推理与通用能力的全面领先
模型的深度推理能力直接决定了其解决复杂问题的上限。在GPQA Diamond、HLE、HMMT 2026 Feb等高难度推理评测中,Qwen3.7-Max的表现不仅领先于所有国产模型,甚至超越了Claude-Opus4.6等国际顶级对手。
其通用能力同样出色。在评估复杂指令理解与执行的IFBench测试中,Qwen3.7-Max获得了79.1的高分,创下新高。同时,在多语言理解评测WMT24++和MAXIFE中,它也保持了稳定的领先优势。
一场持续35小时的“极限挑战”
如果说标准基准测试是规定动作,那么下面这项实战任务,则是对模型自主探索与优化能力的终极压力测试。
在一个模型训练时完全陌生的全新硬件平台——平头哥真武M890芯片上,Qwen3.7-Max被要求完成一项内核优化任务。挑战在于,它未获得任何现成的性能数据、硬件文档或参考内核代码,必须从零开始自主探索。
模型独立运行了35小时。在此期间,它自主执行了432次内核评估与1158次工具调用,完整闭环地完成了从代码编写、编译、性能分析到迭代优化的全流程,全程无人为干预。
最终成果显著:优化后的推理内核性能,相比SGLang Triton的最新参考实现,实现了高达10倍的加速。这一结果,是对其自主优化与工程实现能力的直接证明。
更值得关注的是其表现出的持久创造力:测试轨迹显示,在连续运行超过30小时后,模型仍能发现有效的优化机会,并主动发起了一次关键的架构重设计。这种在长周期任务中保持高效探索的能力,是高级智能体走向实用的关键特质。
智能体能力的泛化与协作
一个具备实用价值的智能体,必须具备良好的框架适应性。Qwen3.7-Max展示了出色的跨框架泛化能力,在Claude Code、OpenClaw以及其自研的Qwen Code等多种框架下均能稳定输出高质量结果。
此外,通过集成MCP(模型上下文协议)并应用多智能体协作技术,该模型在办公自动化基准SpreadSheetBench-v1上取得了87分的顶尖成绩。这表明其在处理电子表格等涉及多步骤、高精度操作的实际办公任务中,已具备高度的可靠性与实用性。
据阿里云官方信息,Qwen3.7-Max的API即将在百炼平台开放。后续还将推出包括Qwen3.7-Plus在内的更多版本,以覆盖从编程智能体到视觉智能体的全场景应用需求。国产大模型的生态化竞争,正步入一个以深度应用和工程落地为核心的新阶段。

