OpenAI智能体全方位评测:发布后掌声不多的深度探究与根本原因
等到今天,OpenAI终于把通用型Agent给端上桌了。
Sam Altman亲自带队,今天凌晨正式发布了ChatGPT的Agent模式。
说实话,这次发布带来的震撼远不及当年ChatGPT横空出世那会儿。毕竟今年年初,我们就见过类似的产品形态——Manus当时“一号难求”,Minimax、Kimi也陆续拿出了相似方案。“起大早,赶晚集”,技术再强的OpenAI,也有卷不过同行的时候。
OpenAI 的 Agent,您终于来了
到了这个节点发布AI产品,“惊喜”和“强大”往往是两码事——毕竟对手是OpenAI。
但在产品直播演示里,这款Agent展现的能力确实值得期待:它能自己访问网页、调用终端、自动下单,从旅行规划到PPT制作,再到图像生成和在线购物,一整条流程都能跑通。
根据官方信息,ChatGPT Agent即日起向Pro、Plus、Team版用户开放,Enterprise和Education版用户要等到7月。Pro用户每月可调用400次,Plus和Team用户每月40次。
从“Chat”到“Agent”的跃升,靠的是OpenAI两套核心成果的融合:Operator(视觉层交互袋里)负责“手脚”,Deep Research(多步骤网页推理)充当“大脑”,两者一起形成任务拆解、思考、行动的闭环。
这套机制需要三大模块支撑:文本浏览器(Text-based Browser)处理密集型网页阅读,提取信息;可视化浏览器(Text-based Browser)在图形界面里操作鼠标点击、输入、截图;终端工具(Terminal)运行代码、生成文件、调用API、与其他系统集成。
有意思的是,这款Agent不仅能执行任务,还能评估执行效果,在每一步动态选择最优路径。用户随时可以插话调整指令,或者临时接管进程。
拆解任务并优化路径,一直是Agent的难点。不妨把Agent想象成一个小团队:有产品、品牌、数据三个角色。老板(用户)下达指令:“给我设计一款年轻人喜欢的手机壳。”然后大家分头行动,市场做调研,品牌做推广,数据盯反馈。过程中难免有冲突和越界——市场调研可以发问卷,数据部也能看大数据报告,到底谁做最高效?好的Agent总能自我优化,追求最快、最好的路径。
Agent 这么火?它和 Chatbot 有啥区别?
ChatGPT Agent和ChatGPT到底有什么本质区别?
最简洁的解释是:Agent能完成任务,Chatbot能完成对话。“任务”和“对话”究竟差在哪里?
举个最日常的例子:决定今天中午吃什么,需要考虑类型、距离、口味,最后定一家外卖下单——这就是Agent式的任务。而Chat式的任务则是:当我决定吃日料后,问“最短距离哪家日料评分最高”。
说白了,Agent能完成的任务更复杂、更高维、需要更多工具。
在OpenAI的演示里,操作员让Agent挑选一套适合参加婚礼的礼服和礼物。Agent先用文本浏览器打开用户给的网页,确认婚礼日期、天气、位置;然后用可视化浏览器展示可选礼服效果;接着继续搜索礼物……
另一个任务:给团队吉祥物——一只叫Bernie的狗狗——做一批笔记本贴纸,并订购500份邮寄到指定地址。Agent先用终端工具Imagen生成动漫版图片,设计贴纸,然后访问Sticker Mule网站,上传设计图,填写数量、尺寸,选择订购500份,任务最终停在请求信用卡信息这一步。
做PPT也是典型的Agent式任务。团队演示了让Agent从Google云中提取分析评估数据,制作成PPT并用图表展示结果。Agent链接Google云API进行搜索,读取相关内容,然后使用图像生成功能。第一次生成PPT后,Agent还主动优化了一次,生成了一张视觉更流畅的PPT。
咋就迟到了?
奥特曼想做Agent不是一天两天了。OpenAI早就公布过“五级路线图”:一级Chatbots(聊天机器人)、二级Reasoners(推理者)、三级Agents(袋里)、四级Innovators(创新者)、五级Organizations(组织者)。Agent作为第三级,是整个AI进化路径中从工具属性跃升到创新属性的必经一环。
只不过,奥特曼不是第一个发出Agent产品的。
今年3月,Manus推出通用Agent产品,一夜之间所有人都在“万能的朋友圈”求测试账号,一个账号甚至被炒到一百万。Manus能借Agent东风快速出产品,很大原因是他们没有自研大模型,而是用Claude等底层基础模型来实现功能,再封装组合——业内当时也称之为“套壳”产品。
除了Manus,MiniMax、Kimi、Perplexity AI也都更早发布了通用Agent形态的产品。OpenAI这波推出Agent,明显缺乏先发优势。从ChatGPT到Agent,OpenAI在行业中的位置已经从“抢先跑”变成了“赶班车”。
除了时间压力,OpenAI还面临两方面的竞争压力:生态竞争和成本竞争。一直坚持闭源的OpenAI今年接连受到竞品冲击。DeepSeek训练成本只有OpenAI的二十分之一,性能却相差无几。本来靠闭源API商业化做到全球第一的OpenAI,眼看着英伟达、英特尔、亚马逊、微软、AMD等科技大厂全部接入DeepSeek,连奥特曼都公开反思“闭源策略可能是个失误”。
成本优势必然带来生态优势,这个商业规律在AI市场不会失效。即使OpenAI在产品上保持优势,那些“差不多但便宜很多”的竞争对手集体围剿,也会让它体会到“被瓜分”的痛——这一点,奥特曼可以和一直阴阳他的马斯克谈谈心。
关于 Agent 的想象力,才刚刚开头
人类对Agent的开发还不足1%。Agent的出现和成熟,将彻底碘伏一代人——就像互联网对90后的影响,AI将重塑整个阿尔法世代。
从商业化角度看,目前讨论最多的痛点是场景化难度。Agent达到“行动”级别,必然涉及跨应用调用——比如贴纸订购演示里,网购平台的调用权限必不可少。但这就像当年我们无法想象淘宝怎么说服店家上线一样,AI时代应用的互通只是时间问题。
在这种大势之下,作为用户更应该思考的是Agent对我们以及后代生活方式的改变——
设想一下:七八岁的孩子下午四点放学,父母还在上班,门口接他们的不是爷爷奶奶,而是接入Agent的机器人——Agent是妈妈们训练出来的。到家后,Agent早已打开空调,房间温度正好。快到七点,Agent指挥炒菜机器人做饭,等着下班回来的爸爸妈妈。
再设想:一个对星座塔罗感兴趣的上班族想搞占星副业,Agent直接搜集各种语言的占星资料,翻译成中文,提取摘要做成报告,顺便制定一份学习计划。然后搜集文案引流灵感,做成海报发布在社交账号帮忙揽客。
回头看OpenAI的“五级路线图”,Agent不仅是AI从思考到行动的拐点,更是AI从被动到主动的拐点。当AI从工具化逐渐走向拟人化,人类的命运也将彻底改写。






