阿里云AgenticSearch荣登GAIA Agent榜单榜首
背景介绍
AI Agent:从被动响应到主动执行
大语言模型能力的阶跃式突破,正推动AI系统从“问答交互”模式,向“自主执行”范式全面转型。智能体(Agent)作为这一转变的核心构件,能自主感知环境信号,解析复杂目标,调度外部工具,并在闭环中迭代行动策略。本质上,它将单次推理能力扩展为端到端的任务交付管线。至此,AI首次具备了独立处理多步骤、跨系统、长周期任务的潜力。2026年,也因此被业界视为Agent规模化落地元年。
然而,Agent价值落地的路径上,仍存在一系列棘手的工程挑战:
- 幻觉传导:单步误差在多轮执行中被层层放大,系统行为极易失控。
- 任务失败率高:复杂任务执行中途卡顿,前序投入全部归零的现象屡见不鲜。
- 长程任务一致性难保证:执行链越长,原始目标越容易模糊,任务漂移成为常态。
- 工具调用可靠性不足:外部工具集成缺乏统一契约,每一次对接都可能引入不稳定因素。
GAIA:Agent能力的“试金石”
GAIA,由Meta AI、Hugging Face等顶级研究机构联合推出的通用AI助手评估基准,被业界公认为衡量Agent综合能力的权威标尺。该基准包含466个测试实例,覆盖推理、多模态处理、网页浏览、工具调用等真实应用场景。其中300道为私有测试题,专门用于构建全球领先者榜单。
GAIA的难度层级:
- 要求多步推理与复杂规划能力。
- 涉及真实世界信息检索与交叉验证。
- 须准确调用外部工具并整合结果。
- 即便是GPT-4,在GAIA上的平均得分也不超过30%。
- 而人类专家的水平锚点为92%。
登顶时刻
历史性突破:首次达到人类水平
近日,阿里云AI搜索团队发布的企业级智能体框架Ops-Agentic-Search,以92.36%的准确率登顶GAIA榜单,首次达到人类专家水平!
这一成绩意味着什么?阿里云在AI Agent领域完成了从“跟跑”到“领跑”的跨越。它不仅超越了Manus、OpenAI Deep Research等明星产品,更首次将Agent能力推升至人类专家水准。这为AI Agent的规模化落地,奠定了坚实的工程基础。
核心技术优势
Ops-Agentic-Search是阿里云OpenSearch团队打造的企业级智能体框架,其深度融合了OpenSearch的检索能力,构建了一个端到端的推理闭环,涵盖任务理解、动态规划、工具执行、反馈迭代、评估验证等关键环节。
框架能力概览
核心能力矩阵:
| 能力维度 | 内置支持 | 说明 |
|---|---|---|
| 多模态理解 | ✅ 原生支持 | 文档/图片/视频/语音全模态处理 |
| 浏览器自动化 | ✅ BrowserUse | 自主网页浏览与信息提取 |
| 代码执行 | ✅ CodeAgent | Python/Shell代码生成与执行 |
| 文件操作 | ✅ 内置 | 本地文件读写与处理 |
| MCP协议 | ✅ 兼容 | 支持MCP Server生态接入 |
| Skills体系 | ✅ 自进化 | 自动提炼与迭代可复用技能 |
1. 全局动态规划(Plan-with-Files)
其中一项关键创新是plan_with_files机制。它将任务规划过程、中间结果与执行状态显式文件化,实现了规划与执行的深度解耦。本质上,是将大脑中的计划“外化”为可追溯、可修改的文档。
| 能力特性 | 技术实现 | 业务价值 |
|---|---|---|
| 突破上下文窗口限制 | 计划与中间结果外置到文件 | 解耦任务长度与上下文长度,支持超长复杂任务 |
| 增强任务执行一致性 | Agent每次行动前重载计划 | 确保每一步对齐初始目标,避免“目标漂移” |
| 支持动态更新与自我修正 | 步骤失败触发计划重排 | 实现自适应执行,提升复杂任务成功率 |
| 可观测与可解释性 | 文件形式留存执行轨迹 | 每一步的目标、结果、状态均有据可查 |
| 天然支持断点续传 | 从文件恢复执行状态 | 任务中断后无需从头开始,提升系统稳定性 |
2. 自我反思机制(Reflection)
执行过程中,Agent会对自身输出、行为或推理过程进行自我评估与迭代修正,使输出质量持续逼近最优。简单说,它能“回头看自己做得对不对”,并主动调整策略。
核心机制:
执行输出 → 交叉验证 → 错误识别 → 策略调整 → 重新执行
↑___________________________________________↓
| 能力特性 | 实现效果 |
|---|---|
| 迭代式质量收敛 | 多轮自我评估与错误修正,输出质量逐步逼近最优解 |
| 幻觉主动抑制 | 对自身输出进行交叉验证,降低模型过度自信导致的事实偏差 |
| 长链任务稳定性 | 阶段性校准防止误差在多步骤执行中累积放大 |
| 策略动态自适应 | 依据中间反馈实时调整执行路径,避免局部死循环 |
| 会话内经验复用 | 将失败信息结构化存入短期记忆,指导后续决策优化 |
3. 动态上下文管理
目标是在信息完整性、推理连贯性与资源效率之间找到最优平衡点,让Agent始终用最精准的信息视野驱动推理。
双策略协同:
| 策略 | 机制 | 适用场景 |
|---|---|---|
| Summary策略 | 语义级动态压缩,保留关键推理节点,将冗余内容转化为语义摘要 | 长对话历史、多轮推理链路 |
| Discard策略 | 基于时效性/相关度/依赖性多维度评估,动态淘汰低优先级内容 | 上下文窗口满载、信息过载 |
4. 自进化Skills体系
这一机制赋予智能体自我学习与持续进化能力,使其从“单次执行”跃迁为“经验沉淀”。
| 能力特性 | 说明 |
|---|---|
| Skills自动提炼 | 无需人工干预,从多条推理路径中归纳抽象,提炼出可复用的结构化Skills |
| Skills自进化机制 | 形成「执行 → 提炼 → 应用 → 再提炼」闭环,驱动技能质量螺旋式跃升 |
| Skills驱动推理加速 | 面对同类任务,已有Skills直接参与后续推理路径生成,跳过重复探索 |
应用场景与案例
典型应用场景
| 场景 | 描述 | 效果 |
|---|---|---|
| 企业知识问答 | 基于企业内部文档库的智能问答 | 回答准确率提升至92%+ |
| 市场研究报告生成 | 自动收集、分析、整合多源信息 | 研究效率提升10倍+ |
| 代码辅助开发 | 理解需求、生成代码、调试优化 | 开发效率提升50%+ |
| 数据分析报告 | 自动提取数据、生成可视化图表 | 报告生成时间从天级降至分钟级 |
| 客户服务自动化 | 理解用户问题、查询知识库、给出解答 | 问题解决率提升至90%+ |
案例:复杂研究任务执行
任务:"分析2025年全球AI Agent市场格局,包括主要厂商、技术路线、市场份额,并预测未来3年发展趋势"
执行过程:
Step 1: 任务分解
├── 子任务1: 收集2025年AI Agent市场主要厂商信息
├── 子任务2: 分析各厂商技术路线差异
├── 子任务3: 获取市场份额数据
└── 子任务4: 预测未来3年发展趋势
Step 2: 信息收集(并行执行)
├── 搜索权威市场报告(Gartner/IDC等)
├── 浏览厂商官网获取产品信息
├── 检索学术论文和技术博客
└── 分析开源社区活跃度
Step 3: 信息整合与分析
├── 交叉验证多源数据
├── 识别关键趋势和模式
└── 生成结构化分析报告
Step 4: 报告生成
├── 撰写执行摘要
├── 生成详细分析章节
├── 制作对比表格和图表
└── 输出最终研究报
执行结果:
- 自动完成20+次网页浏览
- 整合15+份权威报告
- 生成包含图表的完整研究报告
- 总耗时:5分钟内
AgenticSearch产品介绍
AgenticSearch是阿里云OpenSearch推出的AI搜索新范式。它以智能体为核心,融合深度检索、多步推理、工具调用与多模态理解,实现了从“被动响应”到“主动执行”的范式跃迁。
产品核心能力
| 能力 | 说明 |
|---|---|
| 深度检索 | Multi-Agent协同的递进式信息检索 |
| 任务执行 | 支持复杂多步骤任务的端到端执行 |
| 工具调用 | 内置浏览器、代码执行、文件操作等工具 |
| 多模态理解 | 支持文档、图片、视频、语音全模态处理 |
| 知识库集成 | 无缝对接企业知识库和OpenSearch索引 |
| 结果验证 | 自动验证信息准确性和来源可靠性 |
快速体验
- 产品介绍文档:https://developer.aliyun.com/article/1708935
- 立即体验:https://opensearch.console.aliyun.com/cn-shanghai/rag/agentic-search
总结与展望
Ops-Agentic-Search首次登顶GAIA榜单Top1,这不仅验证了阿里云在AI Agent领域的技术实力,更是整个行业的一个里程碑。我们首次将Agent能力推升至人类专家水平(92.36%),为AI Agent在企业中的规模化落地提供了坚实底座。
技术贡献
- 开源贡献:核心技术将逐步开源,推动行业共同进步。
- 标准制定:积极参与MCP等Agent协议标准的制定。
- 生态建设:与百炼、钉钉等阿里云产品深度集成,构建完整Agent生态。
关于阿里云OpenSearch
阿里云OpenSearch是阿里巴巴集团旗下的一站式AI搜索服务平台,为企业提供智能搜索、向量检索、AI Agent等全栈AI智能搜索能力。服务覆盖电商、内容、游戏、教育等多个行业,助力企业构建面向AI时代的智能搜索体验。

