Computer Use Preview - 谷歌开源的AI浏览器自动化工具

2026-04-25阅读 137热度 137

其他

Computer Use Preview是什么

Computer Use Preview 是谷歌官方开源的一款基于视觉模型的浏览器自动化工具。其核心是 Gemini 模型的视觉理解能力，工作流程模拟人类操作：先截取屏幕画面，由AI分析页面状态并决策，最后驱动浏览器执行操作。这种“所见即所得”的范式，使其无需依赖传统自动化工具脆弱的XPath或CSS选择器定位。

这一突破使其能够胜任传统脚本难以处理的复杂场景，例如跨站数据流处理或依赖视觉反馈的交互。在标准任务完成度基准测试中，其69%的得分已超越许多现有解决方案。

得益于与 Gemini API 及 Vertex AI 的深度集成，其任务解析与执行能力显著增强。无论是网页测试、数据提取还是日常重复性操作，它都能高效完成。对于希望实现浏览器自动化但不愿编写代码的用户而言，这是一个高效的零代码解决方案。

Computer Use Preview的主要功能

其功能设计始终围绕“模拟人类智能交互”这一核心展开：

自然语言驱动：直接使用自然语言下达指令，例如“在亚马逊上查找销量最高的无线耳机并对比价格”。AI将自动拆解任务、规划步骤并执行，无需编写任何脚本。
智能交互：除了基础的点击、输入、滚动操作，其集成的Gemini模型能理解页面动态。遇到弹窗、延迟加载或布局变化时，它能自主调整交互策略，确保流程稳健。
双环境支持：提供两种执行环境以适应不同需求：
- Playwright（本地运行）：直接控制本地Chrome浏览器，适合处理敏感数据或需要访问本地文件系统的任务。
- Browserbase（云环境）：连接云端浏览器实例，提供稳定的运行环境，适合长时间任务、分布式执行或团队协作。
调试友好：提供完整的操作审计功能。实时截图与鼠标轨迹高亮记录每一步操作，方便用户快速定位执行瓶颈或失败环节，极大提升调试效率。
AI 大模型集成：深度集成Gemini API与Vertex AI，赋予其强大的语义理解与多步推理能力。面对复杂的多页面工作流或非结构化网页内容，也能准确解读指令并执行。

如何使用Computer Use Preview

按照以下步骤，你可以快速部署并运行这套自动化工具：

准备工作：访问其GitHub仓库，下载项目源码并解压至本地目录。
设置运行环境：确保系统已安装Python 3.8或更高版本。建议创建并激活独立的Python虚拟环境，以隔离项目依赖。
安装依赖：进入项目根目录，运行依赖安装命令。该步骤将自动安装必要的Python包及Playwright浏览器驱动。
配置 API 密钥：通过Google Cloud平台获取Gemini API密钥，并将其设置为系统环境变量。此密钥是工具调用AI能力的凭证。
运行工具：通过命令行，直接输入自然语言指令启动任务。例如：“打开谷歌，搜索‘Python最新版本’，进入官网并下载安装包。” 工具将自动执行整个流程。
可选配置：根据任务需求，可指定运行环境（本地Playwright或云端Browserbase），并调整超时阈值、模型版本等高级参数以优化性能。

Computer Use Preview的项目地址

GitHub仓库：项目全部源代码、技术文档及版本更新均在此处：https://github.com/google-gemini/computer-use-preview
在线体验地址：可通过Browserbase提供的托管服务直接在线体验核心功能，无需进行本地环境配置。

Computer Use Preview的应用场景

该工具在多个实际领域能有效提升效率：

Web 自动化测试：执行智能化的功能与回归测试。它能验证动态内容加载、复杂表单提交及多步骤用户流程，尤其擅长处理无固定标识符的UI元素。
数据采集：自动化抓取公开网页数据。无论是价格监控、竞品信息收集还是舆情追踪，它都能以结构化方式持续提取目标信息。
跨网站数据搬运：实现平台间数据自动同步。例如，将社交媒体动态导入内容管理系统，或将多个电商平台的销售数据汇总至统一仪表板。
日常任务自动化：替代重复性手动操作。自动登录系统导出报表、定时执行网页签到、批量处理文件上传下载等任务，均可交由它定时完成。
视觉交互任务：完成依赖图像识别的精细操作。例如，在设计平台中识别并组合特定组件，或根据视觉特征对网页元素进行分类与操作，突破了传统自动化工具的能力边界。

Computer Use Preview - 谷歌开源的AI浏览器自动化工具

Computer Use Preview是什么

Computer Use Preview的主要功能

如何使用Computer Use Preview

Computer Use Preview的项目地址

Computer Use Preview的应用场景

相关阅读

最新教程

最新资讯