阿里巴巴Qwen3.7-Plus发布视觉语言能力全面升级评测

2026-06-02阅读 0热度 0

Plus

6月2日，阿里巴巴千问正式推出重磅升级——Qwen3.7-Plus。这并非一次常规迭代，而是真正将视觉与语言深度融合，构建统一的多模态智能体底座。简言之，Qwen3.7自身文本能力已相当扎实，此次全面增强视觉与语言理解，同时在编码、工具调用、生产力工作流等智能体核心维度上继续保持领先。 ![](http://img.318050.com/uploads/20260602/17803617026a1e29e65678c874455643.webp) 究竟“融会贯通”到了什么程度？该模型最大的亮点在于其作为多模态交互混合智能体的能力。具体来说，它不仅能“看懂”真实世界场景，还能读取屏幕、操控界面、依据视觉参考直接生成代码。更关键的是，它能端到端导航移动应用，结合联网知识回答视觉类问题——整个过程在一个智能体循环内无缝融合GUI（图形用户界面）与CLI（命令行界面）两种交互方式。作为全能型编码智能体，从最前端的设计原型到复杂软件工程任务，再到多步骤工作流自动化，几乎都能接管。且无论使用Claude Code、OpenClaw、Qwen Code还是其他框架部署，它都能保持稳定表现，不会因环境变化而掉链子。基于Qwen3.7-Plus构建的Hybrid-Agent智能体系统，将大模型的代码能力与GUI自动化执行深度耦合。举个实际案例：该系统曾稳定运行十余小时，全自动完成一款英语单词学习APP的完整研发闭环。整个过程累计生成超10000行代码，触发超1000次模型调用。从需求文档自动生成，到代码编写、安装部署、测试用例创建、GUI自动化测试、多场景并行测试，再到产品说明自动更新、版本自动迭代，覆盖了软件开发的每一个核心环节——这已不再是“辅助”，而是真正意义上的全链路自动化。此外，Qwen3.7-Plus在视觉推理方面同样亮点突出。它能解析地铁线路图这类复杂视觉信息，支持搜索增强的视觉问答，还能将图像或视频直接转换为SVG矢量代码，视觉驱动的网页设计也游刃有余。在浏览器Agent场景中，甚至能自动完成ECS云服务器采购、运维链路闭环等操作任务。在BabyVision、MathVision、ScreenSpot Pro、AndroidWorld等多项高难度基准测试中，表现均十分亮眼。目前，Qwen3.7-Plus已在阿里云百炼平台上线，支持OpenAI兼容API和Anthropic协议调用，开发者和企业可直接上手试用。

阿里巴巴Qwen3.7-Plus发布视觉语言能力全面升级评测

相关阅读

最新教程

最新资讯