阿里千问Qwen3.7-Max深度评测:35小时硬核任务实测与国产模型性能榜单

2026-05-21阅读 0热度 0
Qwen

2026年阿里云峰会,阿里巴巴正式揭晓了千问大模型的最新旗舰——Qwen3.7-Max。这次发布意义不小,它不仅标志着千问系列在短短三个月内的第三次重大迭代,更在Arena全球大模型盲测总榜上,拿下了国产模型第一的位置。综合来看,其整体水平已经非常接近GPT、Claude、Gemini这些国际顶尖选手了。

从定位上看,Qwen3.7-Max是一款面向智能体(Agent)场景深度优化的模型。这一点,在各项权威测评中得到了充分印证。编程能力是智能体的核心,在SWE-Pro、SWE-Multilingual等智能体专项测评中,它表现突出;特别是在Terminal Bench 2.0-Terminus测试中,以69.7的得分超越了DeepSeek-v4-pro-Max、Claude-Opus4.6等一众主流模型。

而在更贴近真实应用场景的通用智能体能力测试,如MCP-Atlas、MCP-Mark、Skillbench中,Qwen3.7-Max同样刷新了国产模型的最佳成绩,表现优于GLM5.1和Kimi-K2.6。

除了智能体能力,它的推理与通用能力同样亮眼。面对GPQA Diamond、HLE、HMMT 2026 Feb这些高难度推理考题,Qwen3.7-Max超越了Claude-Opus4.6以及所有其他国产模型。在指令遵循测试IFBench中斩获79.1分,多语言测评WMT24++、MAXIFE中也保持了领先优势。

不过,最令人印象深刻的,或许是一次长达35小时的全自主硬件优化任务。在这次实验中,模型被置于一个“三无”的全新环境——无文档、无参考代码、无性能数据的平头哥真武M890芯片平台上。结果,它从零开始,独立完成了内核编写、编译、性能分析与迭代优化的全过程。期间执行了432次内核评估和1158次工具调用,最终将性能提升至官方参考实现的10倍。更关键的是,它甚至自主发起了关键架构的重构决策,展现出接近人类工程师的长期、自主工作能力。

此外,Qwen3.7-Max还具备优秀的跨框架泛化能力,并支持多智能体协同。在办公自动化场景的SpreadSheetBench-v1测试中,它取得了87分的顶尖成绩。根据阿里云透露的信息,Qwen3.7-Max的API即将登陆百炼平台,后续还将推出Qwen3.7-Plus等版本,旨在全面覆盖编程、视觉、办公等全场景的智能体需求。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策