阿里千问Qwen3.7-Max深度评测：国产旗舰模型如何自主完成35小时复杂任务？

2026-05-20阅读 0热度 0

Qwen

5月20日，阿里云峰会揭晓了其最新力作——千问旗舰模型Qwen3.7-Max。此次发布不仅是一次版本更新，更代表了国产大模型在核心能力上的一次实质性跃迁。

根据第三方评测机构Arena的全球大模型盲测榜单，Qwen3.7-Max的综合性能已超越Kimi-K2.6、DeepSeek-v4-pro及GLM-5.1等国内竞品，其整体表现与GPT、Claude、Gemini等国际主流模型的最新版本齐平，稳居国产模型综合排名的首位。

从Qwen3.5到3.6，再到当前的3.7-Max，千问旗舰系列在三个月内完成了三次关键迭代。这一密集的升级节奏，清晰地映射出其研发效率与工程化能力的快速提升。

面向智能体场景的全新设计

Qwen3.7-Max的核心设计理念聚焦于智能体（Agent）应用场景，并在多个关键技术指标上实现了突破。

编程能力是智能体执行复杂任务的根基。在SWE-Pro、SWE-Multilingual等编程智能体权威基准测试中，Qwen3.7-Max均取得了领先成绩。尤其在Terminal Bench 2.0-Terminus评测中，其69.7的得分超越了DeepSeek-v4-pro-Max和Claude-Opus4.6等模型，验证了其卓越的代码生成与调试能力。

在通用智能体能力评估中，该模型于MCP-Atlas、MCP-Mark、Skillbench等一系列贴近真实业务场景的测试中表现突出，成功超越了GLM5.1、Kimi-K2.6等国内模型，刷新了国产智能体的性能纪录。

推理与通用能力的全面领先

模型的深度推理能力直接决定了其解决复杂问题的上限。在GPQA Diamond、HLE、HMMT 2026 Feb等高难度推理评测中，Qwen3.7-Max的表现不仅领先于所有国产模型，甚至超越了Claude-Opus4.6等国际顶级对手。

其通用能力同样出色。在评估复杂指令理解与执行的IFBench测试中，Qwen3.7-Max获得了79.1的高分，创下新高。同时，在多语言理解评测WMT24++和MAXIFE中，它也保持了稳定的领先优势。

一场持续35小时的“极限挑战”

如果说标准基准测试是规定动作，那么下面这项实战任务，则是对模型自主探索与优化能力的终极压力测试。

在一个模型训练时完全陌生的全新硬件平台——平头哥真武M890芯片上，Qwen3.7-Max被要求完成一项内核优化任务。挑战在于，它未获得任何现成的性能数据、硬件文档或参考内核代码，必须从零开始自主探索。

模型独立运行了35小时。在此期间，它自主执行了432次内核评估与1158次工具调用，完整闭环地完成了从代码编写、编译、性能分析到迭代优化的全流程，全程无人为干预。

最终成果显著：优化后的推理内核性能，相比SGLang Triton的最新参考实现，实现了高达10倍的加速。这一结果，是对其自主优化与工程实现能力的直接证明。

更值得关注的是其表现出的持久创造力：测试轨迹显示，在连续运行超过30小时后，模型仍能发现有效的优化机会，并主动发起了一次关键的架构重设计。这种在长周期任务中保持高效探索的能力，是高级智能体走向实用的关键特质。

智能体能力的泛化与协作

一个具备实用价值的智能体，必须具备良好的框架适应性。Qwen3.7-Max展示了出色的跨框架泛化能力，在Claude Code、OpenClaw以及其自研的Qwen Code等多种框架下均能稳定输出高质量结果。

此外，通过集成MCP（模型上下文协议）并应用多智能体协作技术，该模型在办公自动化基准SpreadSheetBench-v1上取得了87分的顶尖成绩。这表明其在处理电子表格等涉及多步骤、高精度操作的实际办公任务中，已具备高度的可靠性与实用性。

据阿里云官方信息，Qwen3.7-Max的API即将在百炼平台开放。后续还将推出包括Qwen3.7-Plus在内的更多版本，以覆盖从编程智能体到视觉智能体的全场景应用需求。国产大模型的生态化竞争，正步入一个以深度应用和工程落地为核心的新阶段。

阿里千问Qwen3.7-Max深度评测：国产旗舰模型如何自主完成35小时复杂任务？

面向智能体场景的全新设计

推理与通用能力的全面领先

一场持续35小时的“极限挑战”

智能体能力的泛化与协作

相关阅读

最新教程

最新资讯