Qwen3.7-Plus深度评测：想得深，看得懂，做得到

2026-06-02阅读 0热度 0

Plus

时隔不久，Qwen系列再度迎来新成员——Qwen3.7-Plus。这并非简单的能力叠加，而是视觉与语言深度融合的一体化智能体基座模型。在Qwen3.7强劲的文本功底之上，Qwen3.7-Plus对视觉-语言能力进行了全面升级，同时完整保留了编码、工具调用与生产工作流等智能体能力。简言之，它既具备视觉理解，又能落地执行。

Qwen3.7-Plus最值得关注的亮点，在于其作为多模态交互混合智能体的能力。它能够感知真实场景、读取屏幕并操控GUI、依据视觉参考生成代码、端到端导航移动应用，还能基于网络知识解答视觉问题——这一切均在同一智能体循环中完成，GUI与CLI交互无缝衔接。作为一款全能型编码智能体与生产力助手，它能应对从前端原型到复杂软件工程、再到多步工作流自动化的各类任务，并具备跨框架泛化能力。无论你通过Claude Code、OpenClaw、Qwen Code还是其他框架部署，其表现都足够稳定。

目前，Qwen3.7-Plus已在阿里云百炼上线提供服务，支持的能力包括：

多模态智能体：统一处理图像、视频、屏幕、网页和文本输入，在GUI / CLI / 工具环境中完成任务
视觉智能体：融合视觉理解、代码解释器与搜索增强，解答视觉谜题、真实世界问答和复杂推理任务
视觉编程：从图像或视频生成SVG、网页和交互式前端，实现视觉参考到代码的端到端转化
GUI智能体：理解移动端和桌面端界面，进行控件定位、任务规划与多步操作
真实世界感知与推理：覆盖真实场景、文档图表、OCR、视频及驾驶场景理解

Blog：https://qwen.ai/blog?id=qwen3.7-plus

阿里云百炼：https://bailian.console.aliyun.com/cn-beijing/?tab=model#/model-market/detail/qwen3.7-plus?serviceSite=asia-pacific-china

Qwen Studio：https://chat.qwen.ai/?models=qwen3.7-plus

模型表现

在全球权威视觉模型榜单Vision Arena中，凭借Qwen3.7-Plus，阿里跻身全球前五、中国第一。这个成绩，分量十足。

纯文本测试集

在纯文本能力上，Qwen3.7-Plus整体表现接近Max级别模型，结果相当亮眼。具体来看：

编码Agent能力方面，它在Terminal Bench 2.0、SWE-bench系列和SciCode上表现强劲，能有效处理真实软件工程和科学编程任务。通用Agent能力方面，MCP-Mark、Deep-Planning和Kernel Bench L3的测试结果也证实，它具备稳健的工具使用与规划能力，在复杂多步规划和GPU kernel优化上尤为突出。至于推理能力，在GPQA Diamond、HMMT和IMOAnswerBench等高难度STEM基准测试中，它处于Plus级别模型的前列。指令遵循与多语言任务方面，IFBench、WMT24++和PolyMATH上的表现，说明它在广泛的语言和领域中都保持了稳定的高质量输出。

多模态测试集

Qwen3.7-Plus的多模态能力提升，不是简单的单点优化，而是围绕多模态智能体所需的关键能力做了一次系统性增强——看懂复杂视觉输入、基于视觉进行推理、调用工具解决问题，最终在代码或GUI环境中执行任务。这一点，从几个维度的测试结果中能看得很清楚。

多模态推理方面，在BabyVision、MathVision、HiPhO、ERQA和VisFactor等高难度视觉推理基准上，它都取得了强表现。对图像细节、空间关系、物理常识和多步逻辑的综合理解能力都上了一个台阶。尤其是BabyVision上的提升，相比Qwen3.6-Plus相当明显——这说明模型在更接近人类早期视觉认知和空间推理的任务上，展现出了更强的泛化能力。
视觉智能体与编码方向上，ScreenSpot Pro、OSWorld-Verified和AndroidWorld上的显著提升，意味着模型不仅能识别屏幕内容，还能定位关键UI元素、理解任务意图，并完成多步交互操作。而在QwenVision2Code上，它展现出的视觉到代码生成能力同样值得关注——能把图像、视频和设计参考直接转化为可执行代码。说到底，这就是多模态智能体从“看懂界面”走向“操作界面”和“构建界面”的关键一步。
多模态搜索与知识问答方面，SimpleVQA、WorldVQA、MMSearchPlus、BC-VL和MMBC上的增强，体现了模型将视觉输入与外部知识检索结合的能力。用户不只是问“图里有什么”，而是希望模型结合图像、常识和最新知识给出可靠的答案。这种能力，正是真实世界任务真正需要的。
通用视觉理解方面，Qwen3.7-Plus覆盖了真实世界场景、文档解析、图表阅读、OCR、计数和空间定位等基础能力，在RealWorldQA、CountQA、OmniDocBench、CharXiv、OCR-Bench-V2等任务上保持强表现。截图、票据、表格、报告、海报、商品图、复杂UI页面——这些真实业务中常见的输入，它都能稳定处理。

此外，Qwen3.7-Plus进一步增强了视频理解和驾驶场景理解。在VideoMMMU、MLVU、TVBench、LVBench等视频任务上，它能处理短视频和长视频中的事件、动作、时序和语义关系；在LingoQA、Ego3D-Bench、SURDS和VLADBench等驾驶相关评测中，对动态场景、交通参与者和空间关系的理解同样扎实。这些能力，为真实世界多模态智能体、自动驾驶理解和具身智能场景打下了基础。

Qwen3.7-Plus 案例展示

多模态交互混合智能体

Qwen3.7-Plus不仅能理解视觉界面、感知屏幕内容、执行GUI操作与CLI调用，还能结合环境反馈进行代码生成、应用操作、测试验证与迭代优化。简单说，它把“看、想、写、做、验”整合进了统一的智能体工作流中，支撑复杂软件任务从理解到交付的端到端自动完成。

基于Qwen3.7-Plus构建的Hybrid-Agent智能体系统，将大模型的代码生成能力与GUI自动化执行深度融合，实现了一款英语单词学习APP的完整研发闭环——从需求分析到版本迭代，Agent持续稳定运行11小时以上，累计生成代码超过10,000行，触发Agent调用超过1,000次。整个过程覆盖了需求文档生成、代码自动编写、自动化安装部署、测试用例创建、GUI自动化测试、多场景并行化测试、产品说明自动更新、自动版本迭代演进——软件开发的完整生命周期，全部自主完成。

在专业桌面应用场景中，Hybrid-Agent同样展示了它的实力。Agent全程自主完成了macOS原生Stocks（股市）应用的高保真复刻：自主交互原生应用并理解UI布局与功能细节，基于交互记录自动生成SwiftUI源码，接入LongBridge真实行情API获取实时市场数据，自动编译构建并启动复刻应用，最终自主执行10项功能验证测试——实时行情加载、股票选择与切换、多周期视图切换、搜索过滤、详细数据面板展示——全部通过。最终交付的应用，完整复现了原生Stocks的暗色主题、分栏布局、实时行情数据与完整交互体验。

视觉Agent

Qwen3.7-Plus也可以作为强大的视觉Agent，把视觉理解与工具使用结合起来解决复杂的视觉任务。通过代码解释器集成，它能分析图像来找不同、补图块、解华容道、走迷宫、拼拼图——全程自主生成和执行代码完成。结合搜索增强，它能基于网络知识对真实世界的视觉问题进行多模态推理和回答，支持单图、多图和视频输入。

多模态推理

在多模态推理中，我们引入了代码执行来进一步提升模型的能力。具体来说，模型会先理解图像中的结构和约束，将视觉问题转化为可计算的问题表示，再自主编写并执行代码进行求解、搜索或验证。找不同、补图块、华容道、迷宫和拼图这类任务，要求模型不仅识别图像内容，还要进行空间建模、路径搜索、状态推演和结果校验。这种能力，体现了Qwen3.7-Plus从“视觉感知”到“程序化求解”的跨越。

演示1：Find the differences

演示2：Jigsaw

搜索增强视觉问答

在搜索增强视觉问答中，Qwen3.7-Plus可以将图像、视频或多图输入与网络搜索结合起来，回答真实世界知识问题。模型会先从视觉输入中提取关键实体、场景、文字和上下文线索，再通过搜索获取外部知识，综合视觉证据和检索结果给出答案。大量开放世界问题——识别地点、理解事件背景、分析商品或物体信息、回答依赖最新知识的视觉问题——都可以靠这种能力来处理。

演示：Realworld VQA

视觉编程

Qwen3.7-Plus展现了强大的视觉到代码生成能力。图像、视频、UI截图和设计参考，都可以被转化为可执行代码，覆盖从SVG复现到完整网页生成的多种场景。

图像/视频转SVG

在图像/视频转SVG任务中，模型需要理解视觉内容中的几何结构、颜色、布局、层级关系和动态变化，然后用代码形式精确表达出来。这不仅要求模型“看懂图像”，还要求它具备结构化表达和代码生成能力。对于图标、插画、动效、图形设计和信息可视化等场景，这项能力可以显著降低从视觉参考到可编辑代码资产的成本。

演示：vision to svg

Prompt： Please generate svg code according to the image.

Qwen3.7：

视觉驱动的网页设计

在视觉驱动的网页设计中，Qwen3.7-Plus可以基于视觉参考、视频素材或设计意图生成完整的交互式网页，同时借助生成工具完成素材生产。它不仅要复现页面风格，还要组织布局、编写前端代码、处理交互逻辑，将多模态素材整合进最终页面。这展示了它作为视觉编程助手的潜力——从“给一张参考图”到“生成一个可运行的网页原型”。

演示：Web Design with Video-Generation

浏览器智能助手

基于Qwen3.7-Plus构建的浏览器智能助手，通过Qwen for Chrome浏览器插件完成演示与录制。Qwen for Chrome是一款嵌入Chrome浏览器的智能助手，用户可以在浏览器侧边栏中直接与Qwen对话，并在授权后切换至Agent模式。在该模式下，Qwen能够感知当前网页内容、理解用户任务、规划操作步骤，并以Browser Agent的形式在真实浏览器环境中执行点击、输入、跳转、配置和验证等操作。

在此基础上，Qwen3.7浏览器Agent将大模型的页面理解、任务规划与GUI自动化执行能力深度融合。面对非科班用户“采购一台最便宜ECS服务器”的需求，Agent能直接进入云控制台，完成实例规格比价、低成本选型、镜像与存储配置、安全组设置、订单确认等完整操作，并在价格变化、库存限制或购买受阻时主动反思和调整策略。随后，Agent还能继续承接实例扩容与运维升级任务，自动完成停机、配置调整、磁盘扩容、服务恢复与结果验证——覆盖云服务器从采购到升级的真实使用链路。原本需要用户理解复杂控制台逻辑、反复切换页面并手动排查问题的流程，如今可以被Agent转化为连续、高效、可交付的浏览器自动化任务。

真实世界推理

Qwen3.7-Plus在真实世界感知与多模态推理方面的表现同样扎实。真实场景比标准图像问答要复杂得多：画面中可能存在遮挡、杂乱背景、小目标、多对象关系、跨图对比和隐含物理常识。模型需要先稳定识别视觉细节，再结合空间关系、常识和逻辑推理给出可靠答案。

演示：realworld counting

总结

可以说，Qwen3.7-Plus是目前我们最强的一个多模态智能体模型。它将视觉理解与语言推理统一为一体化的智能体基座，以多模态交互混合智能体的方式运行——感知真实世界场景、操作图形界面、基于视觉参考编写代码，并在GUI与CLI环境中端到端完成任务。作为全能型编码智能体与生产力助手，它能处理从前端原型到复杂软件工程、从文档格式化到多步工作流自动化的各种任务。它具备跨框架泛化能力，无论通过Claude Code、OpenClaw、Qwen Code还是其他框架部署，表现都足够稳定。期待社区的反馈，也期待看到大家基于Qwen3.7-Plus构建的应用。