Qwen3.7-Plus多模态智能体测评:一键复刻桌面专业软件
6月2日,阿里云正式发布Qwen3.7-Plus,这是千问3.7系列的多模态大模型新成员,在文本理解与视觉感知两大维度实现了里程碑式跨越。核心看点在于:全球视觉大模型榜单Vision Arena上,它已跻身全球前五、中国第一。这次跃升背后,是多模态混合智能体架构的系统性突破。
简单来说,Qwen3.7-Plus已经超越了“看图片、识视频”的传统视觉模型边界。它进化为一个能自主编程、深度推理、调用工具、验证测试,甚至迭代自身的完整智能体。你可以理解为:它将“观察、思考、编码、执行、验证”全部整合进统一工作流,形成全链路闭环。例如,你提供一张截图或一段视频后,它能一键复刻对应手机APP界面,甚至完成桌面专业软件级别的复杂任务。这不再是简单的识别,而是从理解到执行的端到端实现。
Qwen3.7-Plus核心能力解析
目前,该模型已通过阿里云百炼平台开放API服务。其核心能力可拆解为以下五个维度:
- 多模态智能体:统一处理图像、视频、屏幕、网页和文本等多种输入类型,能在图形界面、命令行工具及各类软件环境中自主完成任务。
- 视觉智能体:融合视觉理解、代码解释器与搜索增强能力,专用于破解视觉谜题、回答真实世界复杂问题,并完成高难度推理任务。
- 视觉编程:从单张图像或一段视频出发,直接生成SVG图形、网页代码乃至交互式前端应用。这是真正意义上的“所见即所得”编程实践。
- GUI智能体:理解移动端和桌面端界面结构,精准定位控件、制定任务规划并执行多步操作——相当于它能直接操控你的手机和电脑。
- 真实世界感知与推理:覆盖真实场景、文档图表、OCR文字识别、视频内容理解,甚至包括驾驶场景的推理分析。
值得注意的是,这五个能力并非孤立模块。它们共同构成一个完整的智能体工作流——从观察环境到做出判断、编写代码、执行操作再到验证结果,整个过程一气呵成。这也是Qwen3.7-Plus最值得关注的价值所在:它离一个能独立完成复杂任务的“数字员工”又近了一大步。