阿里千问Qwen3.7-Max深度评测：35小时硬核任务实测与国产模型性能榜单

2026-05-21阅读 0热度 0

Qwen

2026年阿里云峰会，阿里巴巴正式揭晓了千问大模型的最新旗舰——Qwen3.7-Max。这次发布意义不小，它不仅标志着千问系列在短短三个月内的第三次重大迭代，更在Arena全球大模型盲测总榜上，拿下了国产模型第一的位置。综合来看，其整体水平已经非常接近GPT、Claude、Gemini这些国际顶尖选手了。

从定位上看，Qwen3.7-Max是一款面向智能体（Agent）场景深度优化的模型。这一点，在各项权威测评中得到了充分印证。编程能力是智能体的核心，在SWE-Pro、SWE-Multilingual等智能体专项测评中，它表现突出；特别是在Terminal Bench 2.0-Terminus测试中，以69.7的得分超越了DeepSeek-v4-pro-Max、Claude-Opus4.6等一众主流模型。

而在更贴近真实应用场景的通用智能体能力测试，如MCP-Atlas、MCP-Mark、Skillbench中，Qwen3.7-Max同样刷新了国产模型的最佳成绩，表现优于GLM5.1和Kimi-K2.6。

除了智能体能力，它的推理与通用能力同样亮眼。面对GPQA Diamond、HLE、HMMT 2026 Feb这些高难度推理考题，Qwen3.7-Max超越了Claude-Opus4.6以及所有其他国产模型。在指令遵循测试IFBench中斩获79.1分，多语言测评WMT24++、MAXIFE中也保持了领先优势。

不过，最令人印象深刻的，或许是一次长达35小时的全自主硬件优化任务。在这次实验中，模型被置于一个“三无”的全新环境——无文档、无参考代码、无性能数据的平头哥真武M890芯片平台上。结果，它从零开始，独立完成了内核编写、编译、性能分析与迭代优化的全过程。期间执行了432次内核评估和1158次工具调用，最终将性能提升至官方参考实现的10倍。更关键的是，它甚至自主发起了关键架构的重构决策，展现出接近人类工程师的长期、自主工作能力。

此外，Qwen3.7-Max还具备优秀的跨框架泛化能力，并支持多智能体协同。在办公自动化场景的SpreadSheetBench-v1测试中，它取得了87分的顶尖成绩。根据阿里云透露的信息，Qwen3.7-Max的API即将登陆百炼平台，后续还将推出Qwen3.7-Plus等版本，旨在全面覆盖编程、视觉、办公等全场景的智能体需求。

上一篇Gemini 3.5 Flash模型深度测评：谷歌开发者大会重磅发布，Token容量激增7倍 下一篇DeepSeek自动生成工作总结：2024年高效办公指南

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

阿里千问Qwen3.7-Max深度评测：35小时硬核任务实测与国产模型性能榜单

相关阅读

最新教程

最新资讯