Qwen3.7-Plus评测：11小时从编程到GUI的APP开发

2026-06-03阅读 0热度 0

Plus

阿里近期正式发布了全新多模态大模型 **Qwen3.7-Plus**。这一版本并未局限于文本理解的单纯升级，而是深度融合了视觉与语言，在此之上构建了统一的智能体底层架构。更为关键的是，它同时支持图形界面（GUI）与命令行（CLI）两种交互方式，成为一款真正意义上的多模态混合智能体——从界面原型设计到大型软件系统开发，几乎能实现全链路的自动化闭环。 ![图片](http://img.318050.com/uploads/20260602/17803985726a1eb9ec47898169294184.webp) 数据验证了实力。在国际权威视觉大模型评测平台 **Vision Arena** 上，Qwen3.7-Plus 表现极为突出，直接将阿里推至全球前五、国内第一的位置。 ### 关键技术能力与实测性能这次升级的突破点可从三个维度拆解。 Qwen3.7-Plus 的核心突破在于构建了一条“感知—思考—表达—执行—验证”的完整智能循环。换言之，它不仅能理解视觉输入，还能推理、生成、行动，并自我校验成果。先说**纯文本推理与 Agent 能力**。在 Terminal Bench2.0、SWE-bench 以及 SciCode 这类高难度软件工程与科学计算任务中，Qwen3.7-Plus 表现始终稳定。特别是在 GPQA Diamond 这种极具挑战性的STEM领域推理基准测试中，它在同级别Plus模型里位列前茅。这不是偶然，而是硬实力的体现。再看**多模态理解与视觉编程**。例如，在 BabyVision 测试中，Qwen3.7-Plus 在几何建模与路径规划上的提升极为显著。更值得一提的是，它能将截图、图像甚至视频等视觉输入直接一键转换为可运行代码——无论是SVG渲染，还是构建响应式网页，均可胜任。最后是**现实场景感知与动态视频解析**。文档结构识别、高精度OCR、长短视频时序事件建模，这些能力一应俱全。在面向自动驾驶场景的 LingoQA 评测中，它甚至能精准捕捉复杂的动态空间关系。这意味着它不仅能识别画面，更能理解画面背后的逻辑。 ![图片](http://img.318050.com/uploads/20260602/17803985726a1eb9eca6459891698273.webp) ### 突破性的落地应用案例发布会演示的几个案例确实令人印象深刻。它们并非“理论上可行”的空谈，而是真正跑通了全流程。第一个案例是**端到端 APP 自主研发**。Hybrid-Agent 系统在实际测试中连续无间断运行超过 **11 个小时**，累计触发操作上千次，**自动生成的代码量突破 10,000 行**。全程无需任何人工介入，一个英语单词学习类App从需求分析、编码、测试到部署上线，一气呵成。坦白说，这个效率已经远超“辅助开发”的范畴。第二个案例是**桌面级应用的像素级复刻**。智能体主动操作了macOS原生的“股市”App，深度解析其UI布局后，自主编写了SwiftUI源码，并集成了真实行情接口。结果如下：全部10项功能验收测试一次性通过，就连原生暗色主题与交互逻辑都还原得毫厘不差。这意味着模型对界面设计语言的理解已深入至“像素”级别。第三个案例是**云平台的全自动运维助理**。基于Qwen3.7-Plus打造的浏览器插件“Qwen for Chrome”，能直接听懂用户用自然语言提出的云资源管理需求。你只需一句话，它便能自动登录阿里云控制台，完成ECS实例比价、规格筛选、参数配置、下单购买，甚至独立执行停机扩容这类进阶运维任务。对于不熟悉云平台的普通用户而言，这极大降低了使用门槛。目前，Qwen3.7-Plus已正式上线阿里云百炼和Qwen Studio平台，面向开发者开放调用。不论你使用的是Claude Code、OpenClaw还是Qwen Code等主流框架，该模型都展现出高度一致的跨平台兼容性与泛化稳定性。它正在为具身智能（embodied AI）的演进，以及下一代生产力自动化工作流，提供一个足够坚实的技术底座。

Qwen3.7-Plus评测：11小时从编程到GUI的APP开发

相关阅读

最新教程

最新资讯