OpenAI智能体ChatGPT Agent正式发布:功能评测与上手指南

2026-06-23阅读 0热度 0
ai

Agent AI时代,确实比大多数人预想的要来得更快。

北京时间周五凌晨,OpenAI毫无预兆地开启了新产品直播。

这次发布的核心,是全新的ChatGPT Agent——一个真正意义上的通用智能体。它不再只是被动回答问题,而是能主动调用各种工具,帮你规划和执行一整串任务——从自动浏览日历、生成可编辑的PPT,到运行代码、调用API访问各类应用。

和以往的基础模型升级相比,这次的关键跃迁在于“通用Agent能力”。它能连接你的Gmail、GitHub等外部服务获取信息,并用API来操作各种应用。效果也很直观:基于ChatGPT Agent的模型在HLE(人类最后考试)基准上拿下了41.6%的分数——几乎是o3和o4-mini的两倍。

目前,这项功能已面向OpenAI Pro、Plus和Team计划的订阅用户开放。用户只需要在ChatGPT的工具下拉菜单中选择「Agent模式」,就能开始使用。企业版和教育版用户预计会在夏季晚些时候获得新功能。使用额度方面,Pro用户每月最多可使用约400次Agent提示,其他付费用户则为40次。ChatGPT免费用户何时能用上,目前还没有明确时间表。

这无疑是OpenAI迄今为止最大胆的一次产品发布。从此,ChatGPT不再只是一个问答工具,而是一个能真正为你采取行动、分担任务的Agent产品。

OpenAI CEO山姆·奥特曼(Sam Altman)也坦言,看着ChatGPT智能体自行使用计算机执行复杂任务,对他来说是一个真正的“感受AGI”的时刻——看到计算机思考、计划并执行,那种感觉很不一样。

ChatGPT现在拥有自己的虚拟电脑环境,可以从头到尾帮你处理复杂任务。用户只需提出需求,比如“查询年度财务报告”,它就能智能地浏览网站、筛选结果,在需要时提示你安全登录,运行代码进行分析,甚至直接交付可编辑的幻灯片和电子表格。

举个例子:让ChatGPT Agent搜索旧金山市2020至2024年的年度综合财务报告——

再比如,你可以输入这样的提示:“我是一位网球迷,想去棕榈泉看网球比赛(最好是半决赛或决赛),住在旧金山。帮我制定一份详细的三天行程,包括航班、酒店、活动内容(比赛、徒步、美食、水疗等)。我喜欢徒步、纯素食餐厅和水疗。总预算3000美元。行程需要精确时间、每项活动的细节和费用,如有需要提供购票或预订链接。”随后,ChatGPT Agent就会帮你制定出一份相当详细的行程方案。

这背后,是一个统一的智能Agent系统,融合了三个早期突破性能力的优势:Operator的网站交互能力、Deep Research的信息综合能力,以及ChatGPT自身的智能推理与对话能力。ChatGPT借助自己的虚拟计算环境,在推理与执行之间灵活切换,根据用户的指令,从头到尾处理复杂的工作流程。

最重要的是,用户始终掌控全局。ChatGPT会在执行任何重要操作前征求你的许可,你也可以随时中断任务、接管浏览器或停止运行。

OpenAI也很坦诚地表示:“虽然ChatGPT Agent已经能处理复杂任务,但这次发布只是开始。我们会持续迭代,定期推出重大改进,让它变得更强大、更实用。”

Operator与深度研究的自然进化

回顾过去,Operator和Deep Research各有各的独特优势:Operator擅长在网页上滚动、点击和输入,而Deep Research则擅长分析和总结信息。但问题在于,它们在不同场景下才能发挥最大作用,各自的盲区也很明显——Operator无法深入分析或撰写详细报告,而Deep Research又无法与网页交互、进一步筛选结果,也无法访问需要用户登录的内容。

OpenAI发现,许多用户尝试用Operator处理的任务,其实更适合用Deep Research。于是,他们决定将两者的优势整合在一起。

通过将这些互补能力集成进ChatGPT,并引入更多工具,OpenAI在一个模型中解锁了全新的能力。现在,ChatGPT可以主动与网站交互——点击、筛选并收集更精准、高效的结果。用户也可以在同一个对话中,从自然的交流无缝过渡到发出具体的操作请求。

为了让这个Agent更强大,OpenAI为它配备了一整套工具:一个通过图形用户界面与网页交互的可视化浏览器、一个用于处理简单推理类网页查询的文本浏览器、一个终端(命令行界面),以及直接调用API的能力。此外,它还可以利用ChatGPT Connectors,将Gmail、GitHub等应用连接进来,让ChatGPT能够查找与你提示相关的信息,并将其用于回答中。用户也可以通过接管浏览器,在任意网站上登录账户,帮助它在信息检索和任务执行方面走得更深、更广。

提供多种访问和交互网页信息的方式,意味着ChatGPT Agent能够选择最优路径,以最高效地完成任务。例如,它可以通过API获取你的日历信息,用文本浏览器高效处理大量文本内容,同时也能通过可视化界面与专为人类设计的网站进行交互。

所有这些操作都是在ChatGPT Agent自己的虚拟计算机上完成的。这保证了在使用多个工具时,任务所需的上下文信息不会丢失。Agent可以根据需要选择用文本浏览器或可视化浏览器打开网页,从网上下载文件,在终端中运行命令处理文件,再通过可视化浏览器查看输出结果。它会根据任务动态调整策略,以确保快速、准确和高效的执行。

ChatGPT Agent专为迭代式、协作式的工作流程而设计,远比以往的模型更加互动和灵活。在它执行任务的过程中,你可以随时打断它,进一步澄清指令,让它朝着你期望的方向发展,或者完全更换任务内容。它会在新的信息基础上继续工作,而不会丢失此前的进度。

同样,ChatGPT也会在需要时主动向你请求更多细节,确保任务始终与你想要的目标保持一致。如果某项任务耗时超出预期或陷入停滞,你可以选择暂停任务、请求进度摘要,或者直接终止任务并获取当前已有的部分结果。如果你在手机上安装了ChatGPT应用,它还会在任务完成后发送通知。

基准测试结果:拓展现实世界的实用性

ChatGPT Agent及背后模型的能力提升,在多个基准测试中都有明确体现。这些测试评估的内容,涵盖了网页浏览和现实世界任务的完成能力。

在“人类最后考试”(HLE)评估中——这项评估衡量AI在各个领域的专家级问题上的表现——支持ChatGPT Agent的模型Pass@1分数达到了41.6。由于Agent能够动态规划并自主选择工具,它可以通过不同的方式处理相同的任务。当通过简单的并行策略进行扩展(同时运行最多8次尝试,选择自我报告信心最高的结果)时,Agent的HLE得分提高到了44.4。

FrontierMath是目前已知最难的数学基准测试,包含全新且未公开发表的问题,通常需要数学专家花费数小时甚至数天才能解决。在具备工具使用能力(例如可访问终端以执行代码)的情况下,ChatGPT Agent在该测试中达到了27.4%的准确率,远远超越此前的所有模型。

OpenAI还用模拟复杂真实任务的基准测试对模型进行了评估。在一个用于评估模型在复杂、具有经济价值的知识型工作任务中表现的内部基准中,ChatGPT Agent的输出在大约一半的情况下可与人类相媲美,甚至优于人类,任务完成时间范围不等,并且显著优于o3和o4-mini模型。

在DSBench基准测试中——用于评估Agent在涵盖数据分析与建模的真实数据科学任务中的表现——ChatGPT Agent超越了人类的平均表现,且优势明显。

在SpreadsheetBench基准测试中——用于评估模型处理真实场景电子表格编辑任务的能力——ChatGPT Agent表现远超现有模型。当赋予直接编辑电子表格的能力时,它的得分更是高达45.5%,而Excel中的Copilot仅为20.0%。

需要说明的是,方法上有一些细微差异:SpreadsheetBench的作者使用的是基于Windows系统的Microsoft Excel环境来评估电子表格任务,而OpenAI使用的是macOS系统和LibreOffice,这可能会导致评分上的差异。例如,作者报告GPT-4o在“整体高难度限制”项上的得分为15.02%,而OpenAI测得的结果为13.38%。OpenAI使用的是包含全部912道题目的完整基准测试集。

在一个内部基准测试中,OpenAI评估了模型处理投资银&行分析师一至三年级建模任务的能力,例如为一家《财富》500强公司制作带有规范格式和引用的三大财务报表模型。ChatGPT Agent所依托的模型在这一评估中显著优于Deep Research和o3。

OpenAI还在BrowseComp基准测试中评估了ChatGPT Agent。该基准由OpenAI于今年早些时候发布,用于衡量浏览型Agent在网络上查找难以获取信息的能力。ChatGPT Agent在该测试中创下了新的SOTA(当前最优表现),得分为68.9%,比Deep Research高出17.4个百分点。

最后,在WebArena基准测试中——用于评估网页浏览型Agent完成真实网页任务的能力——ChatGPT Agent在表现上超越了由o3驱动的CUA(即驱动Operator的模型)。

更多基准测试细节,可参考ChatGPT Agent系统卡(System Card):

最后,山姆·奥特曼还发了一篇长推,专门介绍了ChatGPT Agent的安全限制。

Agent代表了AI系统能力的新高度——它能够利用自身的计算机为你完成一些特殊而复杂的任务。它融合了Deep Research和Operator的精髓,但实际功能远超想象:它可以进行长时间思考,使用一些工具,进行更深入的思考,采取一些行动,再进行更深入的思考,如此循环。

例如,在发布会上,他们展示了一个为朋友婚礼做准备的演示:购买服装、预订行程、挑选礼物等。还展示了一个分析数据并创建工作演示文稿的示例。

尽管Agent的效用很大,但潜在的风险也同样很大。OpenAI在其中构建了大量的安全措施和警告,以及比以往任何时候都更广泛的缓解措施——从强大的训练到系统安全措施再到用户控制——但他们也无法预见一切。秉持迭代部署的精神,他们会向用户发出很多警告,并给予用户自主选择是否谨慎采取行动的自由。

山姆·奥特曼也向他的家人解释了,这是前沿和实验性的产品。这是一个尝试未来的机会,但在有机会在现实世界研究和改进之前,他不会将其用于高风险用途或获取大量个人信息。目前尚不清楚具体会造成什么影响,但恶意行为者可能会试图“诱骗”用户的AI Agent,使其提供不该提供的隐私信息,并采取不该采取的行动,而这些行为的方式目前无法预测。

一个实用的建议是:授予Agent完成任务所需的最低访问权限,以降低隐私和安全风险。例如,授权Agent访问日历以安排聚餐时间是合理的,但如果只是让它帮忙买衣服,就不需要授予任何访问权限。而像“查看我昨晚收到的电子邮件,并采取一切必要措施处理,不要问任何后续问题”这样的任务,风险则要大得多——因为这可能会导致恶意电子邮件中的不可信内容诱骗模型泄露你的数据。

总的来说,更重要的还是从接触现实开始学习,并且随着我们更好地量化和降低潜在风险,人们应该谨慎而缓慢地采用这些工具。与其他新的能力水平一样,社会、技术和风险缓解策略需要共同发展。

网友一手体验

至于这款Agent到底好不好用,不少网友已经给出了第一手体验。

X用户@rowancheung提前获得了访问权限,并让ChatGPT Agent在20分钟内为他创建了一个完整的提前退休计划。拿到任务后,ChatGPT Agent就开始查找温哥华的当地税法、分析平均每月支出率、计算30岁退休所需的储蓄金额、研究最佳投资分配,还发现了Rowan从未听说过的税务优化策略,构建了多种财务独立提前退休(FIRE)场景,最终创建一个可下载的演示文稿总结结果。Rowan表示,这项工作如果由财务顾问完成,可能会花费5000美元以上并且需要数周时间。不过他也指出,其中的电子表格和幻灯片生成能力确实不错,但与Manus或Genspark等工具得到的结果类似。

于是,Genspark联合创始人兼CEO Eric Jing将Rowan Cheung的提示词进行了OCR,并将其输入到Genspark中。

他表示,在相同的提示下,Genspark仅用了一小部分时间和成本,就生成了比ChatGPT Agent质量高得多的结果。

还有网友让ChatGPT Agent去Tesco食品店完成购物,订购烤肉晚餐和粘稠焦糖布丁。他给出的提示词也相当简单:“帮我为这个周末的两人份烤肉晚餐做个Tesco购物清单,包括一份甜品。”该网友感叹:“我看着它浏览网站、提示我输入登录信息、将商品加入购物车,并自主完成整个过程,真是太不可思议了。”

不过,这位网友也坦言,ChatGPT Agent干活的整个过程大约花了20分钟,如果自己手动操作可能会更高效一些——未来还有改进的空间。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策