阿里千问Qwen3.7-Max深度评测:35小时硬核任务实测与国产模型性能榜单
2026年阿里云峰会,阿里巴巴正式揭晓了千问大模型的最新旗舰——Qwen3.7-Max。这次发布意义不小,它不仅标志着千问系列在短短三个月内的第三次重大迭代,更在Arena全球大模型盲测总榜上,拿下了国产模型第一的位置。综合来看,其整体水平已经非常接近GPT、Claude、Gemini这些国际顶尖选手了。

从定位上看,Qwen3.7-Max是一款面向智能体(Agent)场景深度优化的模型。这一点,在各项权威测评中得到了充分印证。编程能力是智能体的核心,在SWE-Pro、SWE-Multilingual等智能体专项测评中,它表现突出;特别是在Terminal Bench 2.0-Terminus测试中,以69.7的得分超越了DeepSeek-v4-pro-Max、Claude-Opus4.6等一众主流模型。
而在更贴近真实应用场景的通用智能体能力测试,如MCP-Atlas、MCP-Mark、Skillbench中,Qwen3.7-Max同样刷新了国产模型的最佳成绩,表现优于GLM5.1和Kimi-K2.6。
除了智能体能力,它的推理与通用能力同样亮眼。面对GPQA Diamond、HLE、HMMT 2026 Feb这些高难度推理考题,Qwen3.7-Max超越了Claude-Opus4.6以及所有其他国产模型。在指令遵循测试IFBench中斩获79.1分,多语言测评WMT24++、MAXIFE中也保持了领先优势。
不过,最令人印象深刻的,或许是一次长达35小时的全自主硬件优化任务。在这次实验中,模型被置于一个“三无”的全新环境——无文档、无参考代码、无性能数据的平头哥真武M890芯片平台上。结果,它从零开始,独立完成了内核编写、编译、性能分析与迭代优化的全过程。期间执行了432次内核评估和1158次工具调用,最终将性能提升至官方参考实现的10倍。更关键的是,它甚至自主发起了关键架构的重构决策,展现出接近人类工程师的长期、自主工作能力。
此外,Qwen3.7-Max还具备优秀的跨框架泛化能力,并支持多智能体协同。在办公自动化场景的SpreadSheetBench-v1测试中,它取得了87分的顶尖成绩。根据阿里云透露的信息,Qwen3.7-Max的API即将登陆百炼平台,后续还将推出Qwen3.7-Plus等版本,旨在全面覆盖编程、视觉、办公等全场景的智能体需求。