Computer Use Preview - 谷歌开源的AI浏览器自动化工具
Computer Use Preview是什么
Computer Use Preview 是谷歌官方开源的一款基于视觉模型的浏览器自动化工具。其核心是 Gemini 模型的视觉理解能力,工作流程模拟人类操作:先截取屏幕画面,由AI分析页面状态并决策,最后驱动浏览器执行操作。这种“所见即所得”的范式,使其无需依赖传统自动化工具脆弱的XPath或CSS选择器定位。
这一突破使其能够胜任传统脚本难以处理的复杂场景,例如跨站数据流处理或依赖视觉反馈的交互。在标准任务完成度基准测试中,其69%的得分已超越许多现有解决方案。
得益于与 Gemini API 及 Vertex AI 的深度集成,其任务解析与执行能力显著增强。无论是网页测试、数据提取还是日常重复性操作,它都能高效完成。对于希望实现浏览器自动化但不愿编写代码的用户而言,这是一个高效的零代码解决方案。
Computer Use Preview的主要功能
其功能设计始终围绕“模拟人类智能交互”这一核心展开:
- 自然语言驱动:直接使用自然语言下达指令,例如“在亚马逊上查找销量最高的无线耳机并对比价格”。AI将自动拆解任务、规划步骤并执行,无需编写任何脚本。
- 智能交互:除了基础的点击、输入、滚动操作,其集成的Gemini模型能理解页面动态。遇到弹窗、延迟加载或布局变化时,它能自主调整交互策略,确保流程稳健。
- 双环境支持:提供两种执行环境以适应不同需求:
- Playwright(本地运行):直接控制本地Chrome浏览器,适合处理敏感数据或需要访问本地文件系统的任务。
- Browserbase(云环境):连接云端浏览器实例,提供稳定的运行环境,适合长时间任务、分布式执行或团队协作。
- 调试友好:提供完整的操作审计功能。实时截图与鼠标轨迹高亮记录每一步操作,方便用户快速定位执行瓶颈或失败环节,极大提升调试效率。
- AI 大模型集成:深度集成Gemini API与Vertex AI,赋予其强大的语义理解与多步推理能力。面对复杂的多页面工作流或非结构化网页内容,也能准确解读指令并执行。
如何使用Computer Use Preview
按照以下步骤,你可以快速部署并运行这套自动化工具:
- 准备工作:访问其GitHub仓库,下载项目源码并解压至本地目录。
- 设置运行环境:确保系统已安装Python 3.8或更高版本。建议创建并激活独立的Python虚拟环境,以隔离项目依赖。
- 安装依赖:进入项目根目录,运行依赖安装命令。该步骤将自动安装必要的Python包及Playwright浏览器驱动。
- 配置 API 密钥:通过Google Cloud平台获取Gemini API密钥,并将其设置为系统环境变量。此密钥是工具调用AI能力的凭证。
- 运行工具:通过命令行,直接输入自然语言指令启动任务。例如:“打开谷歌,搜索‘Python最新版本’,进入官网并下载安装包。” 工具将自动执行整个流程。
- 可选配置:根据任务需求,可指定运行环境(本地Playwright或云端Browserbase),并调整超时阈值、模型版本等高级参数以优化性能。
Computer Use Preview的项目地址
- GitHub仓库:项目全部源代码、技术文档及版本更新均在此处:https://github.com/google-gemini/computer-use-preview
- 在线体验地址:可通过Browserbase提供的托管服务直接在线体验核心功能,无需进行本地环境配置。
Computer Use Preview的应用场景
该工具在多个实际领域能有效提升效率:
- Web 自动化测试:执行智能化的功能与回归测试。它能验证动态内容加载、复杂表单提交及多步骤用户流程,尤其擅长处理无固定标识符的UI元素。
- 数据采集:自动化抓取公开网页数据。无论是价格监控、竞品信息收集还是舆情追踪,它都能以结构化方式持续提取目标信息。
- 跨网站数据搬运:实现平台间数据自动同步。例如,将社交媒体动态导入内容管理系统,或将多个电商平台的销售数据汇总至统一仪表板。
- 日常任务自动化:替代重复性手动操作。自动登录系统导出报表、定时执行网页签到、批量处理文件上传下载等任务,均可交由它定时完成。
- 视觉交互任务:完成依赖图像识别的精细操作。例如,在设计平台中识别并组合特定组件,或根据视觉特征对网页元素进行分类与操作,突破了传统自动化工具的能力边界。