阿里千问Qwen3.7-Max深度评测:国产旗舰模型如何自主完成35小时复杂任务?

2026-05-20阅读 0热度 0
Qwen

5月20日,阿里云峰会揭晓了其最新力作——千问旗舰模型Qwen3.7-Max。此次发布不仅是一次版本更新,更代表了国产大模型在核心能力上的一次实质性跃迁。

根据第三方评测机构Arena的全球大模型盲测榜单,Qwen3.7-Max的综合性能已超越Kimi-K2.6、DeepSeek-v4-pro及GLM-5.1等国内竞品,其整体表现与GPT、Claude、Gemini等国际主流模型的最新版本齐平,稳居国产模型综合排名的首位。

国产第一!阿里千问旗舰模型Qwen3.7-Max发布:全自主完成35小时任务

从Qwen3.5到3.6,再到当前的3.7-Max,千问旗舰系列在三个月内完成了三次关键迭代。这一密集的升级节奏,清晰地映射出其研发效率与工程化能力的快速提升。

面向智能体场景的全新设计

Qwen3.7-Max的核心设计理念聚焦于智能体(Agent)应用场景,并在多个关键技术指标上实现了突破。

编程能力是智能体执行复杂任务的根基。在SWE-Pro、SWE-Multilingual等编程智能体权威基准测试中,Qwen3.7-Max均取得了领先成绩。尤其在Terminal Bench 2.0-Terminus评测中,其69.7的得分超越了DeepSeek-v4-pro-Max和Claude-Opus4.6等模型,验证了其卓越的代码生成与调试能力。

在通用智能体能力评估中,该模型于MCP-Atlas、MCP-Mark、Skillbench等一系列贴近真实业务场景的测试中表现突出,成功超越了GLM5.1、Kimi-K2.6等国内模型,刷新了国产智能体的性能纪录。

推理与通用能力的全面领先

模型的深度推理能力直接决定了其解决复杂问题的上限。在GPQA Diamond、HLE、HMMT 2026 Feb等高难度推理评测中,Qwen3.7-Max的表现不仅领先于所有国产模型,甚至超越了Claude-Opus4.6等国际顶级对手。

其通用能力同样出色。在评估复杂指令理解与执行的IFBench测试中,Qwen3.7-Max获得了79.1的高分,创下新高。同时,在多语言理解评测WMT24++和MAXIFE中,它也保持了稳定的领先优势。

一场持续35小时的“极限挑战”

如果说标准基准测试是规定动作,那么下面这项实战任务,则是对模型自主探索与优化能力的终极压力测试。

在一个模型训练时完全陌生的全新硬件平台——平头哥真武M890芯片上,Qwen3.7-Max被要求完成一项内核优化任务。挑战在于,它未获得任何现成的性能数据、硬件文档或参考内核代码,必须从零开始自主探索。

模型独立运行了35小时。在此期间,它自主执行了432次内核评估与1158次工具调用,完整闭环地完成了从代码编写、编译、性能分析到迭代优化的全流程,全程无人为干预。

最终成果显著:优化后的推理内核性能,相比SGLang Triton的最新参考实现,实现了高达10倍的加速。这一结果,是对其自主优化与工程实现能力的直接证明。

国产第一!阿里千问旗舰模型Qwen3.7-Max发布:全自主完成35小时任务

更值得关注的是其表现出的持久创造力:测试轨迹显示,在连续运行超过30小时后,模型仍能发现有效的优化机会,并主动发起了一次关键的架构重设计。这种在长周期任务中保持高效探索的能力,是高级智能体走向实用的关键特质。

智能体能力的泛化与协作

一个具备实用价值的智能体,必须具备良好的框架适应性。Qwen3.7-Max展示了出色的跨框架泛化能力,在Claude Code、OpenClaw以及其自研的Qwen Code等多种框架下均能稳定输出高质量结果。

此外,通过集成MCP(模型上下文协议)并应用多智能体协作技术,该模型在办公自动化基准SpreadSheetBench-v1上取得了87分的顶尖成绩。这表明其在处理电子表格等涉及多步骤、高精度操作的实际办公任务中,已具备高度的可靠性与实用性。

据阿里云官方信息,Qwen3.7-Max的API即将在百炼平台开放。后续还将推出包括Qwen3.7-Plus在内的更多版本,以覆盖从编程智能体到视觉智能体的全场景应用需求。国产大模型的生态化竞争,正步入一个以深度应用和工程落地为核心的新阶段。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策