阿里巴巴Qwen3.7-Plus发布 视觉语言能力全面升级评测

2026-06-02阅读 0热度 0
Plus
6月2日,阿里巴巴千问正式推出重磅升级——Qwen3.7-Plus。这并非一次常规迭代,而是真正将视觉与语言深度融合,构建统一的多模态智能体底座。简言之,Qwen3.7自身文本能力已相当扎实,此次全面增强视觉与语言理解,同时在编码、工具调用、生产力工作流等智能体核心维度上继续保持领先。 ![](http://img.318050.com/uploads/20260602/17803617026a1e29e65678c874455643.webp) 究竟“融会贯通”到了什么程度?该模型最大的亮点在于其作为多模态交互混合智能体的能力。具体来说,它不仅能“看懂”真实世界场景,还能读取屏幕、操控界面、依据视觉参考直接生成代码。更关键的是,它能端到端导航移动应用,结合联网知识回答视觉类问题——整个过程在一个智能体循环内无缝融合GUI(图形用户界面)与CLI(命令行界面)两种交互方式。作为全能型编码智能体,从最前端的设计原型到复杂软件工程任务,再到多步骤工作流自动化,几乎都能接管。且无论使用Claude Code、OpenClaw、Qwen Code还是其他框架部署,它都能保持稳定表现,不会因环境变化而掉链子。 基于Qwen3.7-Plus构建的Hybrid-Agent智能体系统,将大模型的代码能力与GUI自动化执行深度耦合。举个实际案例:该系统曾稳定运行十余小时,全自动完成一款英语单词学习APP的完整研发闭环。整个过程累计生成超10000行代码,触发超1000次模型调用。从需求文档自动生成,到代码编写、安装部署、测试用例创建、GUI自动化测试、多场景并行测试,再到产品说明自动更新、版本自动迭代,覆盖了软件开发的每一个核心环节——这已不再是“辅助”,而是真正意义上的全链路自动化。 此外,Qwen3.7-Plus在视觉推理方面同样亮点突出。它能解析地铁线路图这类复杂视觉信息,支持搜索增强的视觉问答,还能将图像或视频直接转换为SVG矢量代码,视觉驱动的网页设计也游刃有余。在浏览器Agent场景中,甚至能自动完成ECS云服务器采购、运维链路闭环等操作任务。在BabyVision、MathVision、ScreenSpot Pro、AndroidWorld等多项高难度基准测试中,表现均十分亮眼。目前,Qwen3.7-Plus已在阿里云百炼平台上线,支持OpenAI兼容API和Anthropic协议调用,开发者和企业可直接上手试用。
免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策