多智能体金融应用探索：蚂蚁集团前沿实践

2026-06-16阅读 0热度 0

ai 人工智能

金融科技浪潮中，多智能体技术正成为驱动创新的关键引擎。面对海量信息和复杂决策，这项技术究竟能给金融决策带来怎样的改变？在AICon全球人工智能开发与应用大会（北京站）上，蚂蚁集团资深算法专家陈鸿带来了他的深度思考，分享了大模型技术在金融领域的最新进展，并针对信息爆炸、知识复杂性以及决策难度等核心挑战，提出了创新解法。他重点介绍了基于AgentUniverse框架的PEER模式（Plan-Execute-Express-Review），这一模式有望让金融决策的精准度和效率再上一个台阶。以下内容是对陈鸿演讲的整理，希望能为读者带来前沿洞察，并激发将这些技术落地金融实际问题的思路。

在大模型技术飞速迭代的当下，技术观点也得日拱一卒，没有一成不变的铁律。与其把一时的思考锁在抽屉里，不如抛出来碰撞灵感。所以我把这次AICon的PPT材料公开，并补上解读，从“在线生成”转为“离线生成”，没有时间限制，或许能更系统地说清楚。

从大模型到多智能体

智能体、多智能体是眼下最热的技术话题，但技术人得明白：任何技术都有它要解决的问题和边界，没有放之四海皆准的方案。我们有必要理清从大模型到智能体再到多智能体这几个概念的差异和适用场景。

先说语言模型。一个经过海量语料充分预训练的基模型（base model），就是压缩了海量知识的“知识容器”，但这些知识困在数百亿到千亿的参数黑盒里，用起来很费劲。2020年OpenAI推出GPT-3时，因为生成内容不可控、不可靠，媒体没少嘲笑，哪像现在这么追捧。

2022年底ChatGPT一炮而红，扭转了大众对大模型的看法。基模型完成对齐（SFT + RLHF/DPO）后，就成了助手模型（Chat model）。它像一个以自然语言为输入输出接口的AI机器——不仅懂语言，还对上了人的偏好；能流利交流，还能通过语言操控工具。另外我们发现，这些对齐后的模型具备一些简单的推理能力，不过问题一复杂就容易翻车。整体上，这批Chat Model已经开始让人产生“它有智能”的错觉。但实际上，大模型只是一个无状态的query-answer machine，某种程度上等于哲学家约翰·塞尔（John Searle）提出的“中文屋子”（建议去搜一下这个有趣的思想实验）。LLM没有状态：你和大模型聊五分钟再聊，跟隔五天再聊，它对你的态度毫无差别。本质上，LLM和其他神经网络一样是个无状态的函数，现在LLM所有的“状态性”都依赖外部的Prompt机制。它能跟人进行多轮对话，靠的是外部系统把整个对话过程的上下文保持住并回传到prompt里。

从大模型到智能体，关键变化就是从无状态模型变成了有状态的状态机。智能体要接入（Grounding）环境、完成任务，必然涉及工作流（workflow），也就必须有能力保持任务状态。无状态的模型没法持续跟进一个任务。下一页我们会详聊这一点：智能体的感知、行动、记忆、规划，都建立在离散定义的状态基础上。发散一下，人类也是这样——光谱是连续的，但人能叫出来的只有赤橙黄绿青蓝紫；声频是连续的，但知觉把音频加工成离散的元音、辅音、字、词。这些离散的token而不是连续的音高构成了语言的基础。要让大模型接入真实世界解决真实任务，就得把大模型进一步封装成智能体。

成为状态机是Agent规划和完成任务的关键，但专业任务往往有多环节、多分支。在每个环节和分支上，专业化分工能带来更高效的ROI。这就催生了从智能体到多智能体的必要性。在不同职能岗位上，智能体之间如何通过合理的协同模式组织起来，是多智能体的核心技术问题。多智能体作为一个团队，必须比直接大模型端到端或单一智能体从头单打独斗更鲁棒，不能因为组织复杂就让整体变得更脆弱。后面还有专门一页聊多智能体的协同模式。

再看PPT下面部分。我们把金融场景里的任务粗分为两类：一类是可以由大模型端到端直接生成结果的——端到端类似人类的系统1或快思考，包括问答、摘要、给建议。说话时，我们不需要一个字一个字往外蹦，真正思考的单位是念头或想法，这些念头构成了推理和思考的基础单元（building-block），也就是系统2或慢思考，这正是当前大模型难以处理的推理问题。但我们可以基于Agent的workflow与自省来应对。在金融场景里，许多专业任务需要一定程度的分析、归因、决策，这些都更适合通过智能体或多智能体来实现。

智能体：核心与状态

这页讨论基于大模型的智能体。

智能体（Agent）不是新概念，它的历史比大模型还久。1995年出版的经典《Artificial Intelligence: A modern approach》第一版就以Agent为中心展开（顺带一提，这本教材最新2020年第4版依然以Agent为总纲，如果出第5版，肯定会讨论Large Language Agent了）。感知器Sensor、行动器Effector、规划器Planner、Memory——这些Agent的核心组件早在1995-2000年就已成体系提出。

如前所述，对以端到端完成任务为目标的智能体而言，“没有状态，不成方圆”。我们能发现感知、规划、行动、记忆这些智能体的核心能力都依赖对特定状态的定义和识别。感知依赖对环境状态的定义和识别；规划依赖对任务状态的定义和识别；行动依赖对行动选项状态的定义和识别；记忆则依赖对行为结果状态的定义和识别。智能体通过识别这些状态与外部环境有效对接，管理并完成任务。这套设计很合理，但涉及状态识别或状态迁移时，只能靠规则或上一代机器学习算法，泛化能力不足，智能体在实际任务中就容易出各种bug。比如扫地机器人，典型的具身+自治Agent，只要家里用过扫地机器人的，应该还记得它们因为corner case闹出的笑话。

大模型横空出世后，AutoGPT、LangChain等框架出现，充分发挥了大模型控制工具的能力，让很多人看到了用大模型作为智能体核心引擎的优势。更重要的是，LLM取代机械的规则，能更鲁棒、更泛化地识别任务（以及环境）状态。理想情况下，当前LLM-based Agent能基于自然语言的任务描述持续展开任务，泛化地确认任务完成进度，并视情况动态规划再采取行动。设计很美好，但未经调整的通用大模型还是很难无痛苦地顺利完成专业任务——因为专业任务不可避免地涉及大量过程性知识，比如如何感知、如何执行、如何规划，背后都依赖各种专业Know-How。所谓Know-How，就是一件事如何完成，属于过程性知识。这些专业Know-How往往不成文，交接工作时最麻烦的就是这些没写在文档里的经验。要让智能体顺利完成任务，就需要把那些不成文的专家Know-How形式化，并提供合理的机制引入智能体。

多智能体协同

从单Agent到多Agent协同，根源来自ROI的压力。专业任务往往是多环节多分支的，在每个环节和分支上，经济规律决定了专业分工能有更高效的ROI。这就产生了从智能体到多智能体的必要。在不同职能岗位上，智能体之间如何通过合理的协同模式组织起来，是多智能体的核心技术问题。

人类自己就是靠分工协同成为地球顶级掠食者的。人没有尖牙利爪、力量速度这些个体能力，而是靠组成社会后形成的集体能力，这超越了任何超级个体。集体力量大，在AI上也不会例外。当然，成功的社会化并不容易，历史反复证明：引入有效社会化机制（组织形态）的价值和力量，以及错误组织形态的破坏性。不同的组织形态（协同模式）适配不同的任务。

回到多智能体上，不同类型的专业任务需要我们为它们设计不同的协同模式。第一类：任务可以逐层分解的，适合上下级协同的模式（这个模式很常见，后面我们开源的Agent框架核心贡献就是提供了这个模式的一个核心抽象：PEER，Plan-Execute-Express-Review，此处不展开）。第二类：存在解法但难以拆解为固定步骤的，更适合师生传授式协同（比如数学证明需要思路点拨或样题举例，从费马大定理到行程问题都不适合分工规划再解决）。第三类：开放性的复杂问题无从规划，更适合交给某种竞争-评价机制，让不同智能体并发搜索可能解法。

金融场景中的多智能体

回到金融场景，我们把金融场景的特殊性总结为三点：信息密集、知识密集、决策密集。

关于信息密集：一方面，金融业务强依赖高频更新的资讯（更新密集），严谨的时效性处理必不可少；另一方面，这些信息里大量是相关但无因果关系的噪声信息（噪声密集），必须有效屏蔽噪声才能做出正确决策。

知识密集：金融市场中围绕各种资产有各种不同的理论和分析，但金融知识不仅密度高，而且彼此高度对立。很多观点互相冲突——某种程度上，这些冲突构成了市场交易的基础：买卖双方必然对资产价格有截然不同的预期，所以才有买卖。双方意见一致则无法交易，这正是金融市场存在的意义——通过交易形成共识。于是，金融领域中的观点必然冲突（知识冲突），这对大模型构成了有趣的挑战：面对多篇观点时，LLM不能强行捏合成统一观点，既要明确共识，也要暴露分歧。

比知识冲突更值得LLM关注的是知识的边界。不存在无远弗届、永远生效的知识——牛顿三定律在接近光速时失效；很多金融逻辑也有对宏观经济形势的潜在要求（知识边界）。大模型在处理这些逻辑时，需要理解这些边界，否则就会闹笑话。

最后是决策密集。金融领域的决策（decision-making）有非常强的特征：一是不确定性，金融决策面对的是开放环境，其他市场主体的参与和博弈带来无穷变数，从头到尾都要和不确定性共舞；二是高度不对称——搜索推荐解决的是海量信息中只有个别有效的信息不对称问题，但金融决策中也存在类似不对称：往往在大量决策中只有个别决策处于关键位置，带来关键收益（或避免风险）。如何定位这些关键决策点，是金融要处理的决策不对称性问题。

信息、知识、决策的问题，大模型都有标准解法，比如用RAG提供信息更新、引入图谱规范知识、用CoT强化推理能力。但面对金融特性，这些标准方案的效果不及预期。RAG容易，但混入的多篇噪声信息不好处理；图谱有效，但难以处理冲突和有边界的知识（有边界知识不是Knowledge Graph中简单的二元关系，需要N元关系刻画）；CoT也难以处理决策的不确定性和不对称性。

所以我们需要金融场景的定制方案。此处把信息、知识和决策三类任务总结成两个对齐方向：一个是严谨性，一个是专业性。后面有两个独立页分别展开，这里简单过一下：我们期望通过大模型和多智能体两层各司其职——大模型负责压入必要的知识和能力，多智能体装载相关过程性Know-How来保障金融的严谨和专业。

大模型幻觉与严谨性

大模型有幻觉这个内在缺陷，已经是老生常谈。但有内在缺陷并不意味着基于大模型的智能体应用无法按严谨标准完成任务——毕竟人也有类似问题，人类早已熟知通过系统的方式保障严谨标准。

幻觉是两种生成式智能（人和AI）共同的特征，它恰恰来源于对空缺的预测和生成。一系列认知神经科学实验表明，当一些人类患者与视觉相关的脑组织被切除或破坏后，本应消失的视野（盲区）里会被大脑自动填补出生动的幻觉形象（爱丽丝综合症）。更日常的例子，每个人应该都体验过：当被人问到知识边界之外的问题时，大脑会快速脑补出一些“幻觉”来填充知识空洞。我们列出了知识引用、知识边界、知识冲突来说明容易引发大模型幻觉的场景，当然不仅限于此。

有内在缺陷，不代表系统不能安全工作。人就是例子。人会有注意力问题、预判力问题，但大多数情况下我们还是信任司机能把我们安全送到目的地。培训司机的驾照考试，某种程度上就是一个对齐过程：让普通人向老司机一步步对齐。科目一/科目二/科目三分别对应知识注入的预训练、持续训练、SFT阶段，以及最后的强化学习阶段（边上坐一个老司机评价你是否OK）。但如果汽车本身不安全，光有安全司机也不行。汽车需要遵循安全规范、预防各种情况、做好最坏情况下的安全措施。最终如果我们有安全的司机和安全的汽车，还要期待交通系统整体安全——比如信号灯、车道、交通警察。

把这个隐喻映射回LLM应用：LLM需要面向严谨性对齐（基于各种细分任务并接受老司机检验，就像驾照培训要分解到转弯、倒车入库等具体任务）；LLM外的智能体则需要准备好更多面向严谨的辅助性措施（相当于汽车之于司机）；最终才是AI应用所在的整体系统可以做的一些规范性工作。从实践来看，严谨性任务还是应该聚焦在模型和智能体这两层——系统级别的围栏有效且必要，但如果模型和智能体毫无改善，就会产生大量尴尬的拒答。

专业性建设

专业是相对于通识而言的。讨论专业性时，需要意识到，专业本身就是分工的产物——无分工，不专业。一个个专业职能和擅长这些职能的专家，是人类社会面向经济效率优化的结果。只有协同分工才是针对多任务难问题的高ROI方案。那么问题自然来了：AGI不需要面向任务优化，用一个超强的AGI（或当前最强模型）去处理所有问题，是不是LLM时代的合理做法？滥用最强模型当然不合理。各家大模型厂商提供不同尺寸的模型供选择，应用方更有责任面向专业任务，将基座向特定专家对齐（向普通人偏好对齐的通用基座容易underqualified或overqualified）。面对复杂困难任务时，通过多智能体团队协作，ROI更容易胜过超级基座单打独斗。

其次，在专业领域，知识容易速成（弥补），但专业能力提升困难。这一点，LLM和人也高度一致。新知识新技术出现时，我们可以通过网络或翻查手册快速弥补知识漏洞；但如果能力有缺，不经过亲手实践和踩坑获取第一手经验教训，难以进步。对大模型也是如此：知识缺乏可以RAG、可以KG，但如果模型的一些专业能力不足——计算、推理、行情归因——都不是简单能解决的问题。

于是结论也很明显：专业性建设的核心，就是对一个系统中不同专业职能的差异化能力的定义和实现。起步阶段可以从优秀基座通过人设套取数据，但面向专家的对齐工作逃不掉。最终需要差异化精调的不同能力，这些能力建议聚合在一个基座中，但由不同Agent差异化使用。

多智能体框架AgentUniverse

关于我们已经开源的多Agent框架AgentUniverse，各位可以通过《从孤立到协作，大模型多智能体协同使复杂任务迎刃而解》一文深入了解，GitHub上也有相关项目介绍和代码：AgentUniverse项目地址：

https://github.com/alipay/agentUnivers
https://gitee.com/AgentUniverse/AgentUniverse

欢迎开发者们加入社区体验、共建。

投研支小助底层基于agentUniverse的PEER框架，融入大量投研专家经验，构建了一个投研Copilot。PEER模式是agentUniverse当前版本最具特色的多智能体协作模式组件，包含计划（Planning）、执行（Executing）、表达（Expressing）、评价（Reviewing）四个不同职责的智能体。计划者拆解任务（例如把query分解为一系列子query），执行者完成任务（例如检索），表达者汇总表达，评价者最终把关——OK则输出，不OK则重复workflow。PEER这个计划-执行-表达-评价的循环构成了层级式分工协同的抽象。值得指出，虽然PEER看起来像Rag Fusion（而且它确实胜任Rag Fusion工作），但它不止于此，它本质上是分工这件事的一个合理抽象。抽象的价值在于让分工可以递归使用，不断深入。例如PEER可以在计划环节也引入一层PEER通过分工获得足够好的拆解，或在评价环节再引入PEER的分工做细粒度精细评价。抽象让PEER的分工可以递归深入直到Know-How的尽头。

在图里右侧的专家框架是当前我们对投研领域专家经验的形式化落地，针对9类典型的定性分析场景，给出了30个不同的细分专家框架。这体现了前面说的专家Know-How引入。在一系列消融实验中，我们确认了这些专家框架的价值——不同机构可以通过定制这些专家框架让投研支小助呈现出完全不同的解读思路，这比用SFT强行调校基座模型合理且便捷。

投研支小助目前在蚂蚁内部用于报告解读、市场分析、政策解读、宏观分析等多个场景，是助力金融专家提升生产力的典型应用。实测数据显示，它每天可辅助一名投研分析师高质量完成超过100+篇研报、财报和金融资讯的专业解读，完成50+金融事件的推理归因分析。

实际案例

这是财报解读的例子。Query是：“结合英伟达2024财年Q4财报分析人工智能行业后续走向”。可以看到在策划环节，智能体展开了一系列分析师关注的典型维度。规划智能体遵循分析师的解读框架，通过一个嵌套的PEER过程产出了这一系列新的问题。

每天的行情资讯高度套路化，解读行情也有自己的套路。难点在于能否在套路化解读中展现足够洞察，保持观点数据的严谨则是基础要求。

政策——尤其是财政政策和货币政策——对经济影响深远，也对用户投资策略牵一发而动全身。用户可以向支小助提问相关政策对市场的影响。支小助得益于专家分析框架，能像个老手一样对比政策前后的变化去分析政策影响。

宏观分析是指对整个经济体的广泛性分析，包括但不限于经济增长、通货膨胀、就业状况、财政政策、货币政策、国际贸易和汇率变动等。支小助通过PEER范式，对宏观经济等复杂问题也能生成完整报告，胜任基础的宏观工作。

最后，做个简单预告：我们团队的同学很快会针对AgentUniverse框架核心的PEER（Plan-Execute-Express-Review）框架产出论文，敬请期待。