国产AI榜首实测：阿里Qwen3.7轻松破解奥赛与图文难题

2026-05-20阅读 0热度 0

阿里Qwen3

今天，阿里通义千问的Qwen3.7系列预览版模型正式上线，包括Max和Plus两个版本。大模型竞技场（Arena.ai）也同步公布了Qwen3.7-Max-Preview的评测成绩。在覆盖主流基座模型的总榜上，这款模型位列第13名，正好卡在GPT 5.5和Grok 4.2之间，是目前榜单上排名最高的国产模型。

具体到细分领域，它的表现同样可圈可点：在数学榜单上排名第7，在专家任务和软件与信息技术任务中均位列第9，编程任务则排在第10。

▲ Arena.ai公布的Qwen3.7-Max-Preview成绩

至于Qwen3.7-Plus-Preview，其总榜排名尚未公布。不过，在竞技场的视觉排行榜上，已经能看到它的身影——排名第16，得分介于GPT 5.4和Gemini-3 Flash之间。

目前，阿里方面尚未披露Qwen3.7系列的具体技术细节。有消息称，在明天的阿里云峰会上，这两款模型的更多信息可能会被揭晓。

现在，用户已经可以通过Qwen Studio抢先体验这两款模型。它们目前以闭源模式发布，其中Qwen3.7-Max-Preview仅支持推理模式，暂不支持图片上传功能。

我们第一时间对两款模型进行了实测。针对Qwen3.7-Max-Preview，测试涵盖了数学、编程、推理等多种任务类型；而对Qwen3.7-Plus-Preview的考察，则主要集中在视觉能力上。

从实际体验来看，这一代Qwen模型的响应速度更快、表达更直接，思考节奏也比前代模型显得更为果断。尤其在编程和视觉理解方面，能力的提升是能够被清晰感知到的。

一、4分钟解出IMO难题，还能写个能跑的EXE

在多个细分领域的排名中，Qwen3.7-Max-Preview的数学得分尤为突出。为了验证这一点，我们直接搬出了2025年国际数学奥林匹克（IMO）的一道难题来考它。

模型拿到题目后，进行了多轮分析和反复核验，最终给出了正确答案。整个过程耗时大约4分钟，思考速度相当不错。

目前Qwen只提供思维链总结，无法看到模型完整的思考过程。但从总结中可以发现，与之前的版本相比，Qwen3.7-Max-Preview似乎“自信”了不少，反复自我核查的环节有所减少。

它在编程任务上的表现也值得一看。不过，由于目前模型只能在网页端体验，我们暂时没有尝试过于复杂的开发任务。

第一个编程任务是让它生成一个番茄钟桌面应用，并直接打包成EXE文件。Qwen3.7-Max-Preview没有在思考环节过多停留，而是迅速投入开发，设计了一个具备工作计时、短休息、长休息、自动切换、声音提醒和任务统计功能的应用。

模型坦言无法直接输出EXE文件，但提供了详细的打包指引。按照指引操作后，应用虽然成功打包，但首次运行时却无法正常启动。

在阅读了报错信息后，Qwen3.7-Max-Preview判断问题出在Tkinter底层（Tcl/Tk）在打包后不支持带透明度的十六进制颜色代码上。

修复这个问题后，桌面应用终于可以正常运行了，核心功能一切正常，只是界面设计略显粗糙。

用HTML输出内容近来成了AI圈的热点。于是，我们让Qwen3.7-Max-Preview设计一份AI社交媒体应用的产品需求文档，并要求直接输出为HTML网页。

接到任务后，它没有先输出文字版再转换，而是直接用HTML输出了全部内容。从结果看，这份产品需求文档结构完整，甚至还配上了产品原型设计。不过，在产品功能定义上似乎有些“大而全”，导致焦点不够突出。

我们还测试了其他类型的任务。在SVG图绘制上，Qwen3.7-Max-Preview顺利生成了一张动态的“鹈鹕骑自行车”图片，画面内容基本准确。

在通用推理任务中，它一眼就看穿了这道“海龟汤”谜题的答案，判断出女孩是红绿色盲，并且很可能不是父亲的亲生女儿。

二、有惊无险攻克视觉版“洗车店难题”，凭一张图复刻微信界面

接下来的测试，重点考察Qwen3.7-Plus-Preview的视觉能力。

第一个任务是道进阶版的“洗车店难题”。我们使用AI生成了一张卫星地图风格的图片，图中仅标注了两个地点之间的距离。

我们告诉模型，左侧地点是“我家”，右侧是“洗车店”，然后提问：如果要去洗车，应该走路还是开车？

从它的思考过程可以看出，模型准确地识别了图片中的文字和视觉信息，并评估了各种选项。有趣的是，在某个思考阶段，它甚至得出了“走路才是最合理高效方式”的结论，险些“掉坑”。

不过，它最终给出了正确答案：开车去洗车，然后走路回家，这样就不用浪费时间在店里干等。

此前在实测其他多模态模型时我们发现，如今的模型在“看图猜地点”上表现不俗。这次也让Qwen3.7-Plus-Preview试了试同样的题目。

看到图片后，模型首先通过建筑风格判断此处位于中国北方某大型城市，然后依据山脉形态推断远处的山属于燕山余脉。最终，它认为远处的山是军都山，并由此推测观察点位于昌平南邵。

这个判断其实是错的，但离正确答案已经非常接近。图中的山脉实际上是北京的凤凰岭，而观察地位于马池口镇，模型的猜测与实际地点相距不到10公里。

视觉能力还能与编程结合。我们随手截了一张微信的界面图，要求模型复刻出一个类似的网页版聊天工具。

执行过程中，尽管图片里没有明显的“微信”字样，但Qwen3.7-Plus-Preview通过UI风格等视觉元素，准确判断出这是微信，并据此规划了设计风格。

从最终的复刻效果来看，模型很好地把握了微信的设计特点，外观还原度相当高。当然，图中的按钮目前还无法实际点击使用。

结语：Qwen系列进入加速迭代期

今年以来，阿里Qwen系列模型的迭代速度明显加快。从2026年2月至今，阿里已经陆续发布了Qwen3.5、Qwen3.6、Qwen3.7三代模型。相比之下，整个2025年，Qwen主要只发布了Qwen3和Qwen-Next两个大版本。

这种变化意味着，Qwen正在从过去以“大版本发布”为核心的节奏，转向一种更敏捷的开发模式。通过高频的预览版发布和能力增量更新，模型得以更快地进入真实场景接受检验，技术路线的演进也显得更加清晰和持续。

国产AI榜首实测：阿里Qwen3.7轻松破解奥赛与图文难题

一、4分钟解出IMO难题，还能写个能跑的EXE

二、有惊无险攻克视觉版“洗车店难题”，凭一张图复刻微信界面

结语：Qwen系列进入加速迭代期

相关阅读

最新教程

最新资讯