DeepSeek 等秒变操控电脑 AI智能体,微软开源工具 OmniParser V2.0 发布

2026-05-01阅读 0热度 0
其他

微软OmniParser V2.0发布:DeepSeek等模型秒变电脑操控高手

要说近期AI智能体领域有什么值得关注的突破,微软最新开源的OmniParser V2.0绝对算一个。这款基于纯视觉的工具,专门解析和识别图形用户界面(GUI)上的可交互元素。之前,它搭配GPT-4V就已经展现出了不俗的屏幕理解能力。

DeepSeek 等秒变操控电脑 AI智能体,微软开源工具 OmniParser V2.0 发布

2月12日,微软官方正式揭晓了**OmniParser的最新版本V2.0**。这次升级意义不小——它能让OpenAI的4o、o1、o3-mini系列,国内的DeepSeek-R1、Qwen-2.5VL,以及Anthropic的Claude 3.5 Sonnet等一系列主流大模型,摇身一变,成为能直接操控计算机的AI智能体。

那么,V2.0具体强在哪里?相较于V1版本,核心进步在于训练数据的质与量。新版使用了更大规模的交互元素检测数据和图标功能标题数据进行训练。带来的直接好处就是,面对屏幕上那些较小的、不易察觉的UI元素,V2.0的识别准确率显著提升,同时推理速度也更快,整体延迟降低了足有**60%**。

性能提升不能空口无凭。在高分辨率的智能体基准测试ScreenSpot Pro中,数据给出了有力证明:**V2.0配合GPT-4o的准确率达到了39.6%**。这个数字的对比效果非常震撼,要知道,单独使用GPT-4o的原始准确率仅为0.8%。差距之大,一目了然。

当然,要让大模型顺畅地扮演“电脑操作员”的角色,光有“眼睛”(解析工具)还不够,还得有顺手的“工具箱”。为此,**微软还一并开源了OmniTool**。你可以把它理解为一个集成了智能体所需全套基本功的、Docker化的Windows沙箱系统。从屏幕理解、光标定位,到动作规划与执行,一系列工具都打包在内。它正是将各类大语言模型转化为实用智能体的那个关键枢纽。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策