年谷歌深夜重磅开源深度研究智能体对比GPT-5 Pro:性能SOTA,价格仅一成

2026-06-19阅读 0热度 0
ai

01 Deep Research Agent:更新网页搜索、低成本生成研究报告功能

谷歌在博客里提到,Gemini 3 Pro是迄今为止最“真实”的模型,这很大程度上归功于Deep Research Agent的迭代式流程。它会主动提问、阅读结果、识别知识空白,然后继续搜索。新版本的这项能力被大大强化,能够深入网站内部查找特定数据,而不是只在表面扫荡。 更重要的是,谷歌对这个Agent进行了专门优化,让它能以一个非常低的成本,生成高质量的深度研究报告。这从根本上改变了前期调研的成本结构。 对于金融、生物技术和市场调研这类行业,Deep Research Agent的价值在于它能提供快速、准确的初步调研,并基于早期反馈进行测试和修正。它不只是一个搜索引擎,而是一个可以分析复杂信息并输出结构化报告的系统。 * **统一信息综合**:能分析你的文档,也能搜索公开网络数据。最重要的是,它强大的长上下文处理能力,让你可以直接在提示中塞入大量背景信息。 * **报告可控性**:你可以通过提示词定义报告的结构、标题,甚至指定数据表的生成格式。 * **详细引用**:它会提供非常细粒度的来源链接,让你可以随时回去验证数据的真伪。 * **结构化输出**:支持JSON模式,下游应用可以直接解析、使用研究成果,非常方便集成。

02 DeepSearchQA:新Agent基础,涵盖17大领域、900条任务

这才是真正的“幕后功臣”。DeepSearchQA不是一个普通的测试题集,它是谷歌专门为评估像Deep Research这样的Agent在真实、复杂的网页研究任务中的表现而设计的。它弥补了现有基准测试与现实世界之间巨大的鸿沟。 这个基准有多硬核?它包含了900个由专家手工设计的“因果链”任务,覆盖了从分子生物学到宏观经济学的17个领域。这些任务一环扣一环,下一步的答案完全依赖于对上一步的分析。传统的测试只关心答案对不对,但DeepSearchQA评估的是“全面性”——你的Agent能不能生成一个详尽的答案集,覆盖问题的所有方面。这既是检验研究准确性,也是在考察Agent的“记忆力”。 另一个有趣的点是,DeepSearchQA还能衡量Agent的“思考时长”效率。谷歌内部评估后发现,允许Agent执行更多的搜索和推理步骤,其性能会显著提升。换句话说,这个基准可以帮你找到Agent的“思考效率”与“思考时长”之间的最佳平衡点。

03 交互API:集成专为Agent应用开发设计的接口

如果说Deep Research Agent和DeepSearchQA是“发动机”和“测试跑道”,那么Interactions API就是那个“驾驶座舱”。它不是一个简单的API,而是一套专门为Agent应用开发场景设计的交互界面。 开发Agent应用最大的痛点之一,就是处理那些交错出现的消息、思维链、工具调用和状态信息。Interactions API原生集成了处理这种复杂上下文的能力。目前,它除了提供Gemini模型套件,还直接内置了Deep Research Agent。 这意味着什么?你只需要一个API端点,就能同时连接Gemini模型、谷歌内置的Agent,以及未来你自己定制的Agent。这极大地简化了开发流程。 它的设计思路非常务实,主要解决了几个核心问题: * **可选的服务器端状态管理**:把历史记录管理的负担从客户端甩给服务器。这不仅简化了你的代码,减少了上下文管理的错误,还能通过提高缓存命中率来降低成本。 * **可解释和可组合的数据模型**:为复杂的Agent历史记录提供了一套干净的数据架构。开发者可以方便地对交错的信息、思维过程、工具调用及其结果进行调试、流式分析和推理。 * **背景执行**:可以把那些需要长时间运行的推理任务交给服务器,不需要一直保持客户端连接。这对后台任务或自动化流程非常有用。 * **远程MCP工具支持**:模型可以直接调用模型上下文协议(MCP)服务器作为工具。这为Agent连接外部数据源提供了标准化的方式。

04 结语:Gemini生态再扩容,谷歌简化Agent开发模式

总的来说,谷歌这次的动作,不只是更新了一个Agent,更是在围绕Gemini构建一个更完整的开发生态。Deep Research Agent证明了其自身在金融、科研等领域的巨大潜力。而Interactions API的发布,则是这把火的关键助燃剂,它试图把从模型能力到Agent应用之间的开发门槛降到最低。 未来,谷歌还会继续给这个生态添砖加瓦,比如让Deep Research Agent原生生成图表来做可视化分析,通过模型上下文协议(MCP)来连接更丰富的数据源,以及把它接入面向企业的Vertex AI平台。可以预见,在谷歌的规划里,Agent将不再是实验室里的新奇玩意,而是能立刻上手、马上创造价值的标准生产力工具。
免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策