Qwen3.7-Plus深度评测:想得深,看得懂,做得到
时隔不久,Qwen系列再度迎来新成员——Qwen3.7-Plus。这并非简单的能力叠加,而是视觉与语言深度融合的一体化智能体基座模型。在Qwen3.7强劲的文本功底之上,Qwen3.7-Plus对视觉-语言能力进行了全面升级,同时完整保留了编码、工具调用与生产工作流等智能体能力。简言之,它既具备视觉理解,又能落地执行。
Qwen3.7-Plus最值得关注的亮点,在于其作为多模态交互混合智能体的能力。它能够感知真实场景、读取屏幕并操控GUI、依据视觉参考生成代码、端到端导航移动应用,还能基于网络知识解答视觉问题——这一切均在同一智能体循环中完成,GUI与CLI交互无缝衔接。作为一款全能型编码智能体与生产力助手,它能应对从前端原型到复杂软件工程、再到多步工作流自动化的各类任务,并具备跨框架泛化能力。无论你通过Claude Code、OpenClaw、Qwen Code还是其他框架部署,其表现都足够稳定。
目前,Qwen3.7-Plus已在阿里云百炼上线提供服务,支持的能力包括:
- 多模态智能体:统一处理图像、视频、屏幕、网页和文本输入,在GUI / CLI / 工具环境中完成任务
- 视觉智能体:融合视觉理解、代码解释器与搜索增强,解答视觉谜题、真实世界问答和复杂推理任务
- 视觉编程:从图像或视频生成SVG、网页和交互式前端,实现视觉参考到代码的端到端转化
- GUI智能体:理解移动端和桌面端界面,进行控件定位、任务规划与多步操作
- 真实世界感知与推理:覆盖真实场景、文档图表、OCR、视频及驾驶场景理解
Blog:https://qwen.ai/blog?id=qwen3.7-plus
阿里云百炼:https://bailian.console.aliyun.com/cn-beijing/?tab=model#/model-market/detail/qwen3.7-plus?serviceSite=asia-pacific-china
Qwen Studio:https://chat.qwen.ai/?models=qwen3.7-plus
模型表现
在全球权威视觉模型榜单Vision Arena中,凭借Qwen3.7-Plus,阿里跻身全球前五、中国第一。这个成绩,分量十足。
纯文本测试集
在纯文本能力上,Qwen3.7-Plus整体表现接近Max级别模型,结果相当亮眼。具体来看:
编码Agent能力方面,它在Terminal Bench 2.0、SWE-bench系列和SciCode上表现强劲,能有效处理真实软件工程和科学编程任务。通用Agent能力方面,MCP-Mark、Deep-Planning和Kernel Bench L3的测试结果也证实,它具备稳健的工具使用与规划能力,在复杂多步规划和GPU kernel优化上尤为突出。至于推理能力,在GPQA Diamond、HMMT和IMOAnswerBench等高难度STEM基准测试中,它处于Plus级别模型的前列。指令遵循与多语言任务方面,IFBench、WMT24++和PolyMATH上的表现,说明它在广泛的语言和领域中都保持了稳定的高质量输出。
多模态测试集
Qwen3.7-Plus的多模态能力提升,不是简单的单点优化,而是围绕多模态智能体所需的关键能力做了一次系统性增强——看懂复杂视觉输入、基于视觉进行推理、调用工具解决问题,最终在代码或GUI环境中执行任务。这一点,从几个维度的测试结果中能看得很清楚。
- 多模态推理方面,在BabyVision、MathVision、HiPhO、ERQA和VisFactor等高难度视觉推理基准上,它都取得了强表现。对图像细节、空间关系、物理常识和多步逻辑的综合理解能力都上了一个台阶。尤其是BabyVision上的提升,相比Qwen3.6-Plus相当明显——这说明模型在更接近人类早期视觉认知和空间推理的任务上,展现出了更强的泛化能力。
- 视觉智能体与编码方向上,ScreenSpot Pro、OSWorld-Verified和AndroidWorld上的显著提升,意味着模型不仅能识别屏幕内容,还能定位关键UI元素、理解任务意图,并完成多步交互操作。而在QwenVision2Code上,它展现出的视觉到代码生成能力同样值得关注——能把图像、视频和设计参考直接转化为可执行代码。说到底,这就是多模态智能体从“看懂界面”走向“操作界面”和“构建界面”的关键一步。
- 多模态搜索与知识问答方面,SimpleVQA、WorldVQA、MMSearchPlus、BC-VL和MMBC上的增强,体现了模型将视觉输入与外部知识检索结合的能力。用户不只是问“图里有什么”,而是希望模型结合图像、常识和最新知识给出可靠的答案。这种能力,正是真实世界任务真正需要的。
- 通用视觉理解方面,Qwen3.7-Plus覆盖了真实世界场景、文档解析、图表阅读、OCR、计数和空间定位等基础能力,在RealWorldQA、CountQA、OmniDocBench、CharXiv、OCR-Bench-V2等任务上保持强表现。截图、票据、表格、报告、海报、商品图、复杂UI页面——这些真实业务中常见的输入,它都能稳定处理。
此外,Qwen3.7-Plus进一步增强了视频理解和驾驶场景理解。在VideoMMMU、MLVU、TVBench、LVBench等视频任务上,它能处理短视频和长视频中的事件、动作、时序和语义关系;在LingoQA、Ego3D-Bench、SURDS和VLADBench等驾驶相关评测中,对动态场景、交通参与者和空间关系的理解同样扎实。这些能力,为真实世界多模态智能体、自动驾驶理解和具身智能场景打下了基础。
Qwen3.7-Plus 案例展示
多模态交互混合智能体
Qwen3.7-Plus不仅能理解视觉界面、感知屏幕内容、执行GUI操作与CLI调用,还能结合环境反馈进行代码生成、应用操作、测试验证与迭代优化。简单说,它把“看、想、写、做、验”整合进了统一的智能体工作流中,支撑复杂软件任务从理解到交付的端到端自动完成。
基于Qwen3.7-Plus构建的Hybrid-Agent智能体系统,将大模型的代码生成能力与GUI自动化执行深度融合,实现了一款英语单词学习APP的完整研发闭环——从需求分析到版本迭代,Agent持续稳定运行11小时以上,累计生成代码超过10,000行,触发Agent调用超过1,000次。整个过程覆盖了需求文档生成、代码自动编写、自动化安装部署、测试用例创建、GUI自动化测试、多场景并行化测试、产品说明自动更新、自动版本迭代演进——软件开发的完整生命周期,全部自主完成。
在专业桌面应用场景中,Hybrid-Agent同样展示了它的实力。Agent全程自主完成了macOS原生Stocks(股市)应用的高保真复刻:自主交互原生应用并理解UI布局与功能细节,基于交互记录自动生成SwiftUI源码,接入LongBridge真实行情API获取实时市场数据,自动编译构建并启动复刻应用,最终自主执行10项功能验证测试——实时行情加载、股票选择与切换、多周期视图切换、搜索过滤、详细数据面板展示——全部通过。最终交付的应用,完整复现了原生Stocks的暗色主题、分栏布局、实时行情数据与完整交互体验。
视觉Agent
Qwen3.7-Plus也可以作为强大的视觉Agent,把视觉理解与工具使用结合起来解决复杂的视觉任务。通过代码解释器集成,它能分析图像来找不同、补图块、解华容道、走迷宫、拼拼图——全程自主生成和执行代码完成。结合搜索增强,它能基于网络知识对真实世界的视觉问题进行多模态推理和回答,支持单图、多图和视频输入。
多模态推理
在多模态推理中,我们引入了代码执行来进一步提升模型的能力。具体来说,模型会先理解图像中的结构和约束,将视觉问题转化为可计算的问题表示,再自主编写并执行代码进行求解、搜索或验证。找不同、补图块、华容道、迷宫和拼图这类任务,要求模型不仅识别图像内容,还要进行空间建模、路径搜索、状态推演和结果校验。这种能力,体现了Qwen3.7-Plus从“视觉感知”到“程序化求解”的跨越。
演示1:Find the differences
演示2:Jigsaw
搜索增强视觉问答
在搜索增强视觉问答中,Qwen3.7-Plus可以将图像、视频或多图输入与网络搜索结合起来,回答真实世界知识问题。模型会先从视觉输入中提取关键实体、场景、文字和上下文线索,再通过搜索获取外部知识,综合视觉证据和检索结果给出答案。大量开放世界问题——识别地点、理解事件背景、分析商品或物体信息、回答依赖最新知识的视觉问题——都可以靠这种能力来处理。
演示:Realworld VQA
视觉编程
Qwen3.7-Plus展现了强大的视觉到代码生成能力。图像、视频、UI截图和设计参考,都可以被转化为可执行代码,覆盖从SVG复现到完整网页生成的多种场景。
图像/视频转SVG
在图像/视频转SVG任务中,模型需要理解视觉内容中的几何结构、颜色、布局、层级关系和动态变化,然后用代码形式精确表达出来。这不仅要求模型“看懂图像”,还要求它具备结构化表达和代码生成能力。对于图标、插画、动效、图形设计和信息可视化等场景,这项能力可以显著降低从视觉参考到可编辑代码资产的成本。
演示:vision to svg
Prompt: Please generate svg code according to the image.
Qwen3.7:
视觉驱动的网页设计
在视觉驱动的网页设计中,Qwen3.7-Plus可以基于视觉参考、视频素材或设计意图生成完整的交互式网页,同时借助生成工具完成素材生产。它不仅要复现页面风格,还要组织布局、编写前端代码、处理交互逻辑,将多模态素材整合进最终页面。这展示了它作为视觉编程助手的潜力——从“给一张参考图”到“生成一个可运行的网页原型”。
演示:Web Design with Video-Generation
浏览器智能助手
基于Qwen3.7-Plus构建的浏览器智能助手,通过Qwen for Chrome浏览器插件完成演示与录制。Qwen for Chrome是一款嵌入Chrome浏览器的智能助手,用户可以在浏览器侧边栏中直接与Qwen对话,并在授权后切换至Agent模式。在该模式下,Qwen能够感知当前网页内容、理解用户任务、规划操作步骤,并以Browser Agent的形式在真实浏览器环境中执行点击、输入、跳转、配置和验证等操作。
在此基础上,Qwen3.7浏览器Agent将大模型的页面理解、任务规划与GUI自动化执行能力深度融合。面对非科班用户“采购一台最便宜ECS服务器”的需求,Agent能直接进入云控制台,完成实例规格比价、低成本选型、镜像与存储配置、安全组设置、订单确认等完整操作,并在价格变化、库存限制或购买受阻时主动反思和调整策略。随后,Agent还能继续承接实例扩容与运维升级任务,自动完成停机、配置调整、磁盘扩容、服务恢复与结果验证——覆盖云服务器从采购到升级的真实使用链路。原本需要用户理解复杂控制台逻辑、反复切换页面并手动排查问题的流程,如今可以被Agent转化为连续、高效、可交付的浏览器自动化任务。
真实世界推理
Qwen3.7-Plus在真实世界感知与多模态推理方面的表现同样扎实。真实场景比标准图像问答要复杂得多:画面中可能存在遮挡、杂乱背景、小目标、多对象关系、跨图对比和隐含物理常识。模型需要先稳定识别视觉细节,再结合空间关系、常识和逻辑推理给出可靠答案。
演示:realworld counting
总结
可以说,Qwen3.7-Plus是目前我们最强的一个多模态智能体模型。它将视觉理解与语言推理统一为一体化的智能体基座,以多模态交互混合智能体的方式运行——感知真实世界场景、操作图形界面、基于视觉参考编写代码,并在GUI与CLI环境中端到端完成任务。作为全能型编码智能体与生产力助手,它能处理从前端原型到复杂软件工程、从文档格式化到多步工作流自动化的各种任务。它具备跨框架泛化能力,无论通过Claude Code、OpenClaw、Qwen Code还是其他框架部署,表现都足够稳定。期待社区的反馈,也期待看到大家基于Qwen3.7-Plus构建的应用。





