国产AI榜首实测:阿里Qwen3.7轻松破解奥赛与图文难题
今天,阿里通义千问的Qwen3.7系列预览版模型正式上线,包括Max和Plus两个版本。大模型竞技场(Arena.ai)也同步公布了Qwen3.7-Max-Preview的评测成绩。在覆盖主流基座模型的总榜上,这款模型位列第13名,正好卡在GPT 5.5和Grok 4.2之间,是目前榜单上排名最高的国产模型。
具体到细分领域,它的表现同样可圈可点:在数学榜单上排名第7,在专家任务和软件与信息技术任务中均位列第9,编程任务则排在第10。
▲ Arena.ai公布的Qwen3.7-Max-Preview成绩
至于Qwen3.7-Plus-Preview,其总榜排名尚未公布。不过,在竞技场的视觉排行榜上,已经能看到它的身影——排名第16,得分介于GPT 5.4和Gemini-3 Flash之间。
目前,阿里方面尚未披露Qwen3.7系列的具体技术细节。有消息称,在明天的阿里云峰会上,这两款模型的更多信息可能会被揭晓。
现在,用户已经可以通过Qwen Studio抢先体验这两款模型。它们目前以闭源模式发布,其中Qwen3.7-Max-Preview仅支持推理模式,暂不支持图片上传功能。
我们第一时间对两款模型进行了实测。针对Qwen3.7-Max-Preview,测试涵盖了数学、编程、推理等多种任务类型;而对Qwen3.7-Plus-Preview的考察,则主要集中在视觉能力上。
从实际体验来看,这一代Qwen模型的响应速度更快、表达更直接,思考节奏也比前代模型显得更为果断。尤其在编程和视觉理解方面,能力的提升是能够被清晰感知到的。
一、4分钟解出IMO难题,还能写个能跑的EXE
在多个细分领域的排名中,Qwen3.7-Max-Preview的数学得分尤为突出。为了验证这一点,我们直接搬出了2025年国际数学奥林匹克(IMO)的一道难题来考它。
模型拿到题目后,进行了多轮分析和反复核验,最终给出了正确答案。整个过程耗时大约4分钟,思考速度相当不错。
目前Qwen只提供思维链总结,无法看到模型完整的思考过程。但从总结中可以发现,与之前的版本相比,Qwen3.7-Max-Preview似乎“自信”了不少,反复自我核查的环节有所减少。
它在编程任务上的表现也值得一看。不过,由于目前模型只能在网页端体验,我们暂时没有尝试过于复杂的开发任务。
第一个编程任务是让它生成一个番茄钟桌面应用,并直接打包成EXE文件。Qwen3.7-Max-Preview没有在思考环节过多停留,而是迅速投入开发,设计了一个具备工作计时、短休息、长休息、自动切换、声音提醒和任务统计功能的应用。
模型坦言无法直接输出EXE文件,但提供了详细的打包指引。按照指引操作后,应用虽然成功打包,但首次运行时却无法正常启动。
在阅读了报错信息后,Qwen3.7-Max-Preview判断问题出在Tkinter底层(Tcl/Tk)在打包后不支持带透明度的十六进制颜色代码上。
修复这个问题后,桌面应用终于可以正常运行了,核心功能一切正常,只是界面设计略显粗糙。
用HTML输出内容近来成了AI圈的热点。于是,我们让Qwen3.7-Max-Preview设计一份AI社交媒体应用的产品需求文档,并要求直接输出为HTML网页。
接到任务后,它没有先输出文字版再转换,而是直接用HTML输出了全部内容。从结果看,这份产品需求文档结构完整,甚至还配上了产品原型设计。不过,在产品功能定义上似乎有些“大而全”,导致焦点不够突出。
我们还测试了其他类型的任务。在SVG图绘制上,Qwen3.7-Max-Preview顺利生成了一张动态的“鹈鹕骑自行车”图片,画面内容基本准确。
在通用推理任务中,它一眼就看穿了这道“海龟汤”谜题的答案,判断出女孩是红绿色盲,并且很可能不是父亲的亲生女儿。
二、有惊无险攻克视觉版“洗车店难题”,凭一张图复刻微信界面
接下来的测试,重点考察Qwen3.7-Plus-Preview的视觉能力。
第一个任务是道进阶版的“洗车店难题”。我们使用AI生成了一张卫星地图风格的图片,图中仅标注了两个地点之间的距离。
我们告诉模型,左侧地点是“我家”,右侧是“洗车店”,然后提问:如果要去洗车,应该走路还是开车?
从它的思考过程可以看出,模型准确地识别了图片中的文字和视觉信息,并评估了各种选项。有趣的是,在某个思考阶段,它甚至得出了“走路才是最合理高效方式”的结论,险些“掉坑”。
不过,它最终给出了正确答案:开车去洗车,然后走路回家,这样就不用浪费时间在店里干等。
此前在实测其他多模态模型时我们发现,如今的模型在“看图猜地点”上表现不俗。这次也让Qwen3.7-Plus-Preview试了试同样的题目。
看到图片后,模型首先通过建筑风格判断此处位于中国北方某大型城市,然后依据山脉形态推断远处的山属于燕山余脉。最终,它认为远处的山是军都山,并由此推测观察点位于昌平南邵。
这个判断其实是错的,但离正确答案已经非常接近。图中的山脉实际上是北京的凤凰岭,而观察地位于马池口镇,模型的猜测与实际地点相距不到10公里。
视觉能力还能与编程结合。我们随手截了一张微信的界面图,要求模型复刻出一个类似的网页版聊天工具。
执行过程中,尽管图片里没有明显的“微信”字样,但Qwen3.7-Plus-Preview通过UI风格等视觉元素,准确判断出这是微信,并据此规划了设计风格。
从最终的复刻效果来看,模型很好地把握了微信的设计特点,外观还原度相当高。当然,图中的按钮目前还无法实际点击使用。
结语:Qwen系列进入加速迭代期
今年以来,阿里Qwen系列模型的迭代速度明显加快。从2026年2月至今,阿里已经陆续发布了Qwen3.5、Qwen3.6、Qwen3.7三代模型。相比之下,整个2025年,Qwen主要只发布了Qwen3和Qwen-Next两个大版本。
这种变化意味着,Qwen正在从过去以“大版本发布”为核心的节奏,转向一种更敏捷的开发模式。通过高频的预览版发布和能力增量更新,模型得以更快地进入真实场景接受检验,技术路线的演进也显得更加清晰和持续。













