Anthropic重磅发布AI自省技术：智能体如何通过“梦境”实现自我进化与优化

2026-05-09阅读 0热度 0

Anthropic

Anthropic的“Dreaming”功能将AI智能体推向了新的高度。这项突破性技术首次使AI能够像人类专家一样复盘任务执行过程、提炼核心方法论，并基于历史经验持续优化未来表现。结合同步推出的“成果评分”与“多智能体协作”机制，AI正从被动响应的对话工具，演进为具备自主工作与进化能力的数字生产力单元。

在旧金山举办的第二届“Code with Claude”开发者大会上，Anthropic为其Claude托管智能体平台发布了三项关键更新。核心亮点是名为“dreaming”的新功能，它使AI智能体能够从历史会话中主动学习并迭代改进。这标志着AI系统向企业级应用的核心需求——即在承担实际生产负载前，具备自我纠正与优化能力——迈出了实质性一步。

同时，此前处于实验阶段的“成果”与“多智能体编排”功能已升级为公开测试版，面向所有Claude平台开发者开放。这三项功能共同解决了规模化部署AI智能体时的核心挑战：如何确保输出准确性、如何实现持续学习，以及如何在复杂多步骤任务中避免性能瓶颈。

早期采用者的数据验证了其效能。法律科技公司Harvey应用“dreaming”功能后，任务完成率提升约6倍。医疗文档审核平台Wisedocs通过“成果”功能，将文件处理时长缩短50%。Netflix则利用“多智能体编排”功能，并行处理了数百个构建版本的日志分析。

此次发布正值Anthropic增长曲线陡峭上升之际。首席执行官Dario Amodei在炉边谈话中透露，公司增速远超内部激进预期。2026年第一季度，Anthropic营收与使用量的年化增长率达到80倍，大幅超越原定10倍年增长目标。Claude平台API调用量同比增长近70倍，使用Claude Code的开发者平均每周投入时间达20小时。

“我们曾为年增长10倍规划了完整架构，”Amodei表示，“但实际增速达到80倍。这正是我们在算力供给上面临挑战的根本原因。”

Anthropic的“dreaming”功能如何教会AI智能体从自身历史中学习

“dreaming”是本次最具架构创新的功能，Anthropic明确区分了它与传统记忆系统的差异。尽管平台此前已推出智能体记忆功能，支持会话内及跨会话的上下文保留，但“dreaming”在更高抽象层级运作。

它是一个计划性流程，主动分析智能体的历史会话与记忆存储，识别行为模式，并通过结构化归纳驱动持续优化。该流程能发现单次会话无法捕捉的深层洞察：例如重复出现的错误类型、多个智能体独立形成但趋同的工作流，以及跨智能体团队的共享偏好。

Anthropic研究产品管理负责人Alex Albert阐释了这一设计理念。他将“dreaming”类比为组织内专家在完成任务后固化经验的过程。“团队与Claude协同完成一个工作流，经过多次迭代验证后，他们希望记录从起点到终点的最优路径，”Albert解释道，“‘dreaming’实现了类似效果——区别在于，它不是由人工手动创建知识库，而是模型自主完成这一过程，为未来会话提供优化后的上下文。”

关键在于，“dreaming”不修改底层模型权重。“我们不会通过此功能更新模型参数，”Albert强调。相反，智能体将学习成果以纯文本笔记和结构化操作手册形式存储，供未来会话调用。这使得整个优化过程对人类而言完全可观察、可审计。针对智能体整合知识涉及的信任问题，Albert承认“需要建立一定的信任机制”，但他指出所有记忆均可检查，且更先进的模型正在更有效地管理这一过程。“它们正在学习为未来的自己撰写更精准的笔记。”他补充道。

现场演示：AI智能体在无人指导的情况下隔夜改进

在主题演讲中，Anthropic团队通过虚构的航空航天初创公司“Lumara”案例，现场演示了三项功能的协同效应。该公司任务是在月球上自主降落无人机以进行资源勘探。演示配置了一个包含三个专业智能体的多智能体系统：负责整体任务成功的指挥智能体、识别优质着陆点的探测智能体，以及处理无人机安全飞行与着陆的导航智能体。团队明确定义了成功标准：实现软着陆、着陆点地表清晰，且保留充足返航燃料。

对六个假设着陆点的首次模拟产生了合格但非最优的结果。为提升性能，演示者直接从Claude开发者控制台启动了“dreaming”会话。一夜之间，“dreaming”智能体分析了所有历史模拟数据，并生成了一份详细的下降操作手册——一套从多次任务模式中提炼的复合启发式规则。次日，当团队将这份基于“dreaming”产出的操作手册载入记忆并运行新模拟时，此前表现欠佳的着陆点结果得到显著改善。

“我们只是让Caitlin按下一个按钮，”Claude平台产品负责人Angela Jiang在提及台上同事时表示，“其余工作全部由‘dreaming’自主完成。”

该演示清晰呈现了三项功能的实际联动：多智能体编排负责将复杂任务分解并分配给拥有独立上下文窗口的专业智能体；“成果”功能提供了客观评估标准，并由独立评分智能体依据标准对每次运行进行评价；而“dreaming”则从这些评价中提取经验，持续提升未来表现。这构成了Anthropic所描述的无需人工干预的持续改进闭环。

Anthropic为何构建独立的“评分”智能体来检查Claude自身的工作

现已进入公开测试的“成果”功能，为开发者提供了定义成功标准的能力。开发者可设定一套准则（如结构框架、呈现要求、品牌语调或任何其他规范），随后智能体将自主向该标准迭代。其架构设计的核心在于关注点分离：当工作智能体完成任务后，一个独立的评分智能体会在全新的上下文窗口中，依据既定标准评估输出质量。由于评分智能体运行在独立上下文中，它不会受到工作智能体推理过程或会话历史中累积偏见的影响。

当评分智能体识别出输出与标准间的差距时，它会明确指出需修改的内容，工作智能体随即进行迭代。该循环将持续直至满足所有标准——整个过程无需人工审查每次迭代。

Albert将Anthropic的整体验证策略描述为“投入更多测试阶段算力，让更多模型以更长时间思考一个问题，以交叉验证另一个模型的工作”。他承认，让模型检查自身工作会引发合理质疑，但指出在一个全新上下文窗口中审查已完成工作的模型，其表现始终优于让同一长时间运行线程进行自我错误诊断。“如果你将输出交给一个全新的Claude实例，询问‘你发现了哪些错误？’，你会获得更高的识别成功率，”他表示，“在超长会话中，注意力确实会衰减。我们正积极在未来模型架构中解决这一局限。”

该方法与GitHub已采用的策略高度契合。GitHub首席产品官Mario Rodriguez在另一场演讲中描述了Copilot如何运用类似的“顾问模式”——将一个更小、更经济的模型作为执行者，与一个更大的模型作为导师配对。当较小模型遇到能力边界外的问题时，它会向较大模型寻求指导，然后继续自主执行。Rodriguez指出，这种方法以显著更低的成本提供了接近顶级模型（Opus级别）的智能水平。GitHub在编码工作流的三个关键节点嵌入了这种批判性模型：在起草计划后、完成复杂实现后，以及在编写测试后但运行测试前。

并行AI智能体现在可以处理单个模型线程无法完成的复杂任务

第三个进入公开测试的功能是“多智能体编排”。它允许一个主导智能体将大型任务分解为多个子任务，并将每个子任务委托给一个专业智能体——每个专业智能体都拥有独立的模型实例、系统指令、工具集和上下文窗口。该过程的每一步都可在Claude控制台中追踪，清晰显示每个智能体的执行内容、顺序及决策依据。

这种设计为每个子智能体提供了隔离的上下文环境。Anthropic表示，这比让单个智能体在单一线程中处理所有复杂任务能产生更优结果。“每个子智能体都拥有独立的线程和上下文窗口，”主题演讲者解释道，“这是经过深思熟虑的设计。我们发现，通过拆分工作再合并结果，我们能获得更出色的产出。”

Albert分享了关于何时采用多智能体架构、何时坚持使用单线程的经验法则。“并行智能体更适合调查类工作，”他指出——即那些会产生大量最终将被丢弃的上下文信息的情境。“如果你需要回答一个具体问题，你并不需要来自未找到答案区域的所有搜索过程数据，你只需要最终答案。”他描述了为特定检索任务启动一次性子智能体，并将结果带回主线程的做法。他认为，模型本身将越来越多地自主决定何时需要并行处理。“未来，你可能无需真正关心底层是一个智能体还是多个智能体在协作。你只需与Claude对话，它会自动为你部署最合适的架构。”

Anthropic的更大赌注：缩小AI能力与实际应用之间的差距

这三项功能是Anthropic在整个大会期间强调的更大平台战略的一部分，其核心目标是弥合“AI技术能力与其实际为用户创造的价值之间的鸿沟”。Anthropic首席产品官Ami Vora在开幕主题演讲中确立了这一基调，她指出，尽管模型能力呈指数级增长，但大多数组织对AI的采用仍遵循线性路径。

Anthropic研究团队产品负责人Dianne Penn将公司衡量进展的标准定义为“任务时长”——即一个AI智能体在提升交付成果质量的同时能够自主工作的持续时间。“去年此时，模型仅能独立工作几分钟，”她表示，“现在，我们大多数智能体已能连续工作数小时。展望未来，我们将拥有主动的、始终在线的智能体，它们能自主识别该执行的工作，并始终保持任务焦点。”

大会还宣布了几项旨在帮助开发者跟上发展节奏的基础设施更新。Anthropic表示，将把Pro、Max、Team和Enterprise计划的五小时速率限制提高一倍，并大幅提升API速率限制。此外，公司宣布与SpaceX建立合作伙伴关系，将利用其Colossus数据中心的全部容量来扩展算力供应——这是对Amodei所描述的需求激增的直接响应。

所有新功能均已内置至Claude托管智能体平台。该平台于4月8日以公开测试版形式推出，作为一个集成了最佳实践（包括记忆、工具集成和操作处理）的专用框架。Anthropic表示，使用托管智能体的团队，其部署速度比那些从头构建自身智能体基础设施的团队快10倍。Albert用操作系统比喻该平台：“使用托管智能体，你无需考虑所有周边系统的技术实现细节，”他说，“这就像为Mac开发应用——你肯定不想重新实现macOS的每一个底层模块。”

“dreaming”“成果”和“多智能体编排”对企业AI的未来意味着什么

这些功能的发布，其竞争格局影响深远。随着OpenAI、谷歌等公司的AI智能体平台竞相争夺开发者，Anthropic将赌注押在了生产可靠性上——而不仅仅是原始模型的智能水平——这将成为赢得企业预算的关键。“dreaming”功能尤其开辟了新赛道：虽然其他平台也提供记忆和工具调用功能，但让智能体系统回顾自身历史以提取可重用知识的理念，更贴近企业在委托高风险工作前所期望的持续改进体系。

大会展示了已在此规模上运营的实际案例。拉丁美洲最大电商平台Mercado Libre有23,000名工程师使用Claude Code，在人工监督下审查了超过50万份拉取请求，并目标在当年第三季度实现90%的自主编码。Shopify不仅在工程团队，还在设计、产品和数据科学团队中部署了Claude Code。

但Dario Amodei对演进方向阐述了最宏大的愿景。他描述了从单个智能体到多个智能体，再到整个组织智能的演进路径——从“一个房间里的一群聪明人”到他所谓的“数据中心里的一群天才”。他还重申了约一年前做出的预测：2026年将出现第一家由单人运营的十亿美元级公司。“这尚未完全实现，”他表示，“但我们还有七个月时间。”

目前，“dreaming”功能已提供研究预览版。“成果”和“多智能体编排”功能则处于公开测试阶段，Claude平台上的所有开发者均可使用。七个月时间是否足够一位独立创始人建立一家十亿美元级公司，仍是未知数。但可以肯定的是，周二之后，他们手中拥有了更多值得深度测试的强大工具。