通义千问Qwen3.7预览版首发测评:新旗舰性能深度解析

2026-05-19阅读 0热度 0
Qwen

阿里云通义千问大模型家族近日再添新成员。两款预览版模型——Qwen3.7-Max-Preview与Qwen3.7-Plus-Preview,已同步上线Arena AI大模型竞技场及官方Qwen Chat平台。此举通常预示着,在即将到来的阿里云峰会上,这两款模型有望迎来正式发布。

根据已披露的产品信息,此次推出的预览版聚焦于核心能力验证。模型目前仅开放“思考模式”,旨在将全部计算资源集中于处理高复杂度的逻辑推理与深度运算任务。而用户熟悉的网页搜索、代码解释器等辅助功能在此阶段暂未开放。这种聚焦策略,显然是为了在核心智能基准上接受最为严格的性能评估。

权威基准测试表现卓越

评估结果如何?其表现堪称亮眼。在评估大模型综合文本能力的权威基准中,Qwen3.7 Max Preview的全球综合排名已攀升至第13位。这一成绩直接推动阿里通义千问的实验室整体排名进入全球前六。

综合排名之外,在体现技术深度的关键细分领域,该模型的表现更具参考价值。数据显示,其在数学能力榜单上位列全球第7。同时,在专家级应用、软件与IT以及纯编程能力这几个核心技术子榜单中,它也均稳居全球前十。这充分表明,其能力架构不仅全面,更在需要深度分析与专业知识的垂直领域建立了显著优势。

视觉与专家级任务取得关键进展

文本与逻辑能力突出,是否意味着能力不均衡?同步亮相的Qwen3.7 Plus Preview给出了回应。这款高性能模型在视觉能力基准测试中,综合排名位居全球第16。正是得益于它在视觉领域的出色表现,通义千问在视觉榜单的实验室总排名也随之提升至全球第5。

更具说服力的是,在一个专门模拟高难度、复杂指令执行的“专家竞技场”测试中,Qwen3.7 Max Preview再次展现了其处理棘手问题的强大能力,排名稳定在全球第9。这一系列从综合到细分、从文本到多模态的硬核测试成绩,清晰地表明:阿里云在大模型,特别是在多模态理解与深度垂直应用的技术攻坚上,已跻身全球一线阵营。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策