2024年AI模型排行榜:Qwen3.7-Max深度测评与国产新星解析
距离上次发布仅一个月,阿里再次推出其旗舰模型。这次亮相的是Qwen3.7-Max。
事实上,就在前一天,阿里已悄然上线了Qwen3.7的预览版,涵盖Max和Plus两个版本。根据第三方评测机构Arena的数据,这两个预览版模型分别在文本和视觉领域取得了国产第一的成绩,为正式发布做了充分预热。
在2026阿里云峰会上,正式版的Qwen3.7-Max揭晓。Arena最新发布的全球大模型盲测总榜显示,其综合性能位列国产模型榜首,整体表现已逼近GPT、Claude等国际顶尖模型。
智能体能力:一次系统性的跃升
除了综合榜单的优异表现,Qwen3.7-Max的核心突破在于对智能体(Agent)能力进行了系统性增强。这正是当前行业竞争的关键领域。
在编程智能体方面,该模型在SWE-Pro、SWE-Multilingual等多个权威基准测试中均达到了SOTA水平。尤其在Terminal Bench 2.0-Terminus评测中,以69.7分的最高成绩超越了DeepSeek-v4-pro-Max、Claude-Opus 4.6等强劲对手。
其通用智能体能力也显著提升。在MCP-Atlas、MCP-Mark、Skillbench等贴近实际应用场景的评估中,表现优于GLM-5.1、Kimi-K2.6等模型,创下国产模型新纪录。在Kernel Bench L3评测中,更展示了出色的GPU内核优化能力。
推理能力方面,Qwen3.7-Max在GPQA Diamond、HLE、IMOAnswerBench等核心推理测评中,均超越了Claude-Opus 4.6及所有国产模型。其通用与多语言能力持续领先,在指令遵循评测IFBench中得分突破79.1,多语言理解评测同样表现突出。
这种全方位的智能体基座能力升级,使Qwen3.7-Max具备了处理真实世界超长程复杂任务的潜力。发布会展示的案例极具代表性:
模型被部署在平头哥全新的训推一体AI芯片“真武M890”上,工作空间仅包含任务描述、参考实现和评测脚本。模型连续自主编程35小时,完成了一个生产级注意力内核算子的优化。经其优化的推理内核,相比最新参考实现获得了10倍的性能加速。整个过程,模型执行了432次内核评估和1158次工具调用,从代码编写、编译、性能分析到迭代改进,全程自主完成。
一手实测:从零代码开发到复杂工具调度
榜单数据之外,实际体验更能说明问题。实测表明,Qwen3.7-Max处理复杂智能体任务的速度与精度确实令人印象深刻。
假设你没有任何编程基础,却想开发一个桌面番茄钟应用。传统方式需要学习编程、配置环境、调试Bug并最终打包。现在,借助Qwen3.7-Max强大的原生Agent能力,配合Claude Code等执行工具,你只需下达一条指令。
面对“帮我做一个桌面番茄钟应用”这样的模糊需求,模型首先展现了优秀的产品架构思维。它并未急于编码,而是先输出了一份结构化的Markdown架构计划,在确认技术栈和功能范围后,才指挥工具开始执行。
执行过程中缺少必要工具?模型会调度系统自动安装。遇到因路径不匹配导致的连续报错,它能迅速定位问题根源,并展现出强大的自我纠错能力,在数秒内推理出多种替代方案进行动态试错,最终将应用成功部署到桌面。
如果你对界面配色不满意,希望调整为莫兰迪色系,也只需一句话指令。模型能精准理解审美需求并完成修改。
最后,下达“帮我打包成exe”指令,模型会识别环境缺失,自动安装打包依赖,经过后台流畅调度,最终生成一个干净的可执行文件。
如果说开发桌面软件仍在代码“舒适区”,那么它在真实互联网环境和复杂工具调用中的表现,更能体现其Agent实力。
我们测试了其使用近期热门CLI工具的能力。首先,模型自主下载了opencli,获得了检索全网信息的能力。面对“查查小红书上北京必吃的粤菜,附图片”的指令,它能从零开始阅读工具文档,摸索出正确调用语法。甚至在抓取过程遭遇网络超时崩溃时,也能自主推理出通过修改底层配置延长等待时间的解决方案。
用户无需关心后台排除了多少次Bug,只需几分钟,满屏的美食图片就已下载到本地。收集完素材后,还可以让Agent将调研结果快速转为PPT和在线文档,形成完整的工作流闭环。
Agent的另一项核心能力是灵活调用特定技能(Skill)。面对一段充满“首先其次最后”等套路化表达的游记,只需输入“去AI味”三个字,Qwen3.7-Max便能准确识别修改诉求,主动调度系统内的文本优化Skill。
完成重写后,模型还会输出一份结构化的Markdown复盘表格,清晰列出删除了哪些“填充短语”和“宣传性语言”,并从“直接性”、“真实性”等维度对修改结果进行量化评估。
从零基础开发桌面软件,到自主摸索陌生终端工具,再到高阶文本的技能调度与反思,Qwen3.7-Max在这三个场景中展现的,不仅是文本生成能力,更是一种高度成熟、独立的智能体执行力。
三个月三连更:阿里按下AI“加速度”
这一系列成绩,是千问大模型近期高速迭代的缩影。其旗舰模型的更新周期已缩短至“月更”级别:3月20日发布Qwen3.5-Max-Preview,4月20日发布Qwen3.6-Max-Preview,再到今天Qwen3.7-Max正式登场。对用户而言,这无疑带来了持续的性能红利。
能够支撑如此高频的迭代,背后是体系化的能力。自今年3月成立ATH(Alibaba Token Hub)组织以来,阿里在芯片、云、模型、应用的全栈AI能力已逐渐成型,这是实现快速迭代的基石。
平头哥的定制芯片提供了极致的训练与推理效率,阿里云的弹性算力保障了大规模预训练和部署的无缝衔接,模型层的快速迭代又能直接赋能上层应用。这种垂直整合极大降低了沟通与工程损耗,让千问的研发节奏能够像互联网产品一样快速滚动。可以说,千问的加速度,源自阿里全栈AI体系的协同效应。这种体系化壁垒,远比单个模型的一次刷榜更具长期价值。
在坚持高频迭代的同时,千问并未放松对开源社区的投入。它已成为国产乃至全球开源模型的一个重要标杆,每次新发布都会引发高度关注。上月开源的Qwen3.6-27B和Qwen3.6-35B-A3B,更是“以小胜大”的代表作,登顶了HuggingFace全球开源榜单,在主要编程基准上全面超越了上一代更大体量的模型,也大幅领先同等规模的稠密模型。
这些中小规模模型以极低的部署成本,提供了超越同级甚至跨级挑战的性能,更好地满足了本地部署和定制化需求,使其成为全球开发者的默认选择之一。正如社区反馈所言:“开源这条赛道竞争激烈,但最终推动了整体技术进步。”
开源社区的口碑形成了强大的吸引力,也体现在商业API调用上。上月,Qwen3.6-Plus在全球知名大模型API平台OpenRouter上,同时夺得日榜和周榜冠军,并创下了单日单模型调用量突破1.4万亿Token的全球纪录。这充分证明了千问模型在全球开发者生态中的影响力。
在赢得全球开发者心智的同时,千问也悄然占据了Token经济的关键流量入口。当Token日益成为解决问题的通用输入时,阿里通过千问牢牢把握住了这一核心节点。
智能体软件的地基正在被铺设
旗舰模型的月更节奏,表面是技术实力的展示,实质是在为Agent时代构建先发优势。回顾千问近半年的迭代路径,方向清晰:Qwen3.5打造原生多模态智能体,Qwen3.6-Plus强化现实世界交互能力,如今的Qwen3.7-Max则旨在开辟智能体新前沿。每一次发布,都伴随着模型在自主规划、工具调用与长程任务执行能力上的实质性提升。
此次Qwen3.7-Max被赋予了更高期望。阿里显然不满足于让其仅作为被调用的“大脑”,更希望它能深入硬件层,进行系统级编程与优化。此前提到的在平头哥新AI芯片上成功运行35小时超长程任务,正是这一战略意图的体现。
不仅如此,Qwen3.7-Max还展现出了跨智能体框架的泛化能力。无需专门训练,就能流畅支持Claude Code、OpenClaw、Hermes Agent等多种框架。这让人联想到操作系统崛起的逻辑——通过统一的标准与接口,吸引开发者在之上构建繁荣生态。千问正在努力搭建Agent时代的“标准接口”,让自己成为不同智能体框架的首选基座。这种面向未来的布局,更具战略深度。
当然,Agent时代的终极竞争,依然取决于模型的核心能力是否足够坚实。阿里深谙此道,并通过持续的开源策略,不断巩固在全球开发者社区中的影响力。当越来越多的开发者习惯使用千问作为基座来搭建和运行智能体时,阿里在下一代Agentic软件生态中的话语权将自然确立。
当前,Anthropic与OpenAI通过“产品驱动”路线赢得市场,并在商业化上寻求突破。而作为国产大模型代表之一的阿里,选择了一条更宏大也更具挑战的路径:从底层技术、开源生态到行业标准话语权,它正试图构建全方位的竞争力。
在这场关键的生态卡位战中,阿里千问的野心显然比外界想象的更大。它的目标,是成为开发者构建智能体系统时,最底层、最不可或缺的基础设施。






















