Claude与马斯克联手:智能体性能全开深度测评与实战指南
Anthropic在“Code with Claude”开发者大会上密集发布了一系列关键更新,覆盖了从开发者工具、智能体能力到算力基础设施的完整技术栈,展现了其加速产品迭代与市场扩张的明确意图。
对于开发者社区,最直接的利好是资源限制的放宽。即日起,Pro、Max、团队版及按席位计费的企业版套餐中,Claude Code的调用限额从5小时提升至10小时。同时,Pro和Max账户在高峰时段的额度削减限制已被取消,Claude Opus模型的API速率限制也获得了显著提升。
Claude Opus模型更新后的API速率限制
其次,Claude托管智能体(Managed Agents)获得了三项核心能力升级:多智能体编排、目标结果(Outcomes)以及自主推演(Dreaming)。其中,Dreaming功能目前处于研究预览阶段,需申请体验;而Outcomes、多智能体编排及记忆能力,则已作为托管智能体服务的一部分开放公测。
Claude Code新增了远程控制、UI刷新、无闪烁渲染、权限控制等多项功能。
最后,一项关键合作引发了行业关注:Anthropic已与SpaceX AI(即更名后的xAI)达成协议,将全权使用SpaceX AI Colossus 1数据中心的全部算力资源。此举将为Anthropic在本月内新增超过300兆瓦的算力容量,相当于超过22万张英伟达GPU的规模。这些新增算力将直接用于提升Claude Pro和Claude Max订阅用户的服务承载能力与体验。
此次算力扩容,是Anthropic近期一系列重大算力布局中的最新举措。
回顾其近期动作,战略路径清晰:与亚马逊达成最高5吉瓦算力合作协议,其中近1吉瓦将于2026年底前落地;与谷歌、博通签署5吉瓦算力协议,相关产能预计2027年上线;与微软、英伟达的战略合作,则涵盖了价值3000亿美元的Azure云算力资源;此外,还与Fluidstack联手,计划向美国人工智能基础设施投入5000亿美元建设资金。
在大会对话环节,Anthropic联合创始人兼CEO Dario Amodei表示,得益于Claude的成功,公司正经历前所未有的市场关注。其年度经常性收入(ARR)增速呈指数级爆发,增长幅度远超早期预期的10倍,最终达到了约80倍。他们正以最快速度扩充算力以应对需求,但Dario也坦言,希望这种增长态势“保持在可控范围内”,以确保服务稳定性。
Anthropic首席产品官Ami Vora、Anthropic联合创始人Daniela Amodei、Anthropic联合创始人兼CEO Dario Amodei(从左至右)
01. 托管智能体升级:AI获得自我复盘与进化能力
此次Claude托管智能体的三项新能力,标志着AI从被动执行工具向具备主动规划与协作能力的智能体演进。
首先是多智能体编排能力。开发者现在可以组建智能体集群,像一支分工明确的团队一样,协同处理高度复杂的复合型任务。
其次是目标结果(Outcomes)功能。开发者可以像设定关键绩效指标一样,精准定义任务的成功标准。Claude会据此自动进行反复迭代与优化,直至输出完全符合预设标准的结果,这显著提升了任务完成的确定性与输出质量。
最后是具备前瞻性的自主推演(Dreaming)能力。启用此功能后,Claude能够主动复盘过往的会话记录,分析自身在任务执行中暴露的能力短板和应吸取的经验,并自主将这些“认知”写入长期记忆库。这为AI赋予了自我总结与持续进化的初步能力。
为了直观展示这些能力,Anthropic的产品主管与工程师进行了一次现场演示:他们虚拟了一家名为Lumara的初创公司,任务是开发一套基因算法软件,以实现无人机在月球的自主着陆与矿产勘探。
演示者首先设定了任务场景:一位客户希望在月球部署无人机,开采特定矿产资源。随后,他们通过命令行工具配置了多个协同工作的智能体:一个“总指挥”负责全局协调;一个“探测智能体”负责筛选高品质矿藏着陆点;一个“导航智能体”确保无人机安全精准着陆。
任务运行时,总指挥智能体会创建一个主会话,各子智能体则拥有独立的执行线程和专属上下文窗口。
接着,他们利用Outcomes功能配置了一个高阶“验收智能体”。一份简洁的Markdown文件列出了成功标准:平稳软着陆、降落在平整地面、预留充足返航燃料。
他们将这套标准作为事件发送给任务会话,定义为最终验收依据。同时,还会创建一个“评分审核智能体”,在任务执行过程中实时评估每一轮结果是否达标,开发者可以设定最大迭代次数以防止无限循环。
在针对六个假想着陆点的模拟测试中,系统成功判断了四个,但三号和四号站点的结果需要进一步优化。
这时,Dreaming功能登场。演示者进入控制台,点击“Dream”按钮并选择一个记忆库。随后,自主推演智能体开始复盘所有模拟会话,将总结出的经验(例如“在崎岖地形着陆需要更保守的燃料预算”)写入记忆。更重要的是,它还会主动生成一份《月球着陆操作手册》,供未来所有新任务会话参考。
02. Claude Code十余项更新:聚焦开发体验与自主智能深化
Claude Code工程师Dickson Tsai介绍了其在两大方向上的十余项更新,核心目标是优化开发者体验,同时赋予AI更高的自主性。
首先是开发者体验的全面优化。
远程控制(Remote Control):允许任务在电脑端后台持续运行,开发者外出时可通过手机无缝接续同一会话和开发环境,实现了跨设备的工作流连续性。
无闪烁渲染(Flicker-free Rendering):旧版界面在追加内容时容易因视图错位导致频繁重绘和闪烁。新版终端UI支持全屏模式,并采用虚拟列表渲染技术,彻底消除了卡顿和闪动。即使面对超长会话日志,也能保持流畅的点击交互和稳定的内存占用。
UI刷新:新增了按项目、任务进行筛选与分组管理的能力。开发者可以通过拖拽自由组合各类面板,支持多种视图布局切换。现在,开发者可以直接跳转到任务规划概要并添加批注,所有批注将由Claude统一汇总跟进。当会话日志过长时,只需将鼠标悬停在任意消息上并为其自定义标题,顶部便会自动生成可跳转的目录大纲。
第二个主题是自主智能(Autonomy)的深化。
Auto Modo模式:Claude现在可以自主处理诸如权限授权提示、创建代码分支、执行构建命令等琐碎操作,进一步解放开发者。
权限模式:借助内置的安全分类器,AI可替开发者自动进行权限决策。分类器主要评估两点:一是操作是否具有破坏性风险(如删除关键文件);二是是否存在提示注入特征。若判定安全则自动放行,若存在风险则拦截并等待开发者手动确认。
Worktrees:优化了原生的Git工作树体验,解决了其原有的使用痛点和边界问题。开发者现在拥有更友好的界面,可以将不同的工作项彻底隔离,保持各代码环境的独立与干净。
自动记忆(Auto Memory)功能:Claude能够跨会话累积知识,自动记住关键的构建命令、调试心得、项目偏好设置等信息。它会自动判断这些信息对未来对话是否有用,从而决定是否保存,实现了开发经验的持续沉淀。
多阶段、多智能体代码评审:系统会启动一组评审智能体,分别从安全性、性能、可读性等不同维度独立审查代码,最后对所有评审结果进行交叉核验。这套机制能高效识别许多原本需要人工花费数小时才能排查的潜在问题。
任务例行程序(Routines):该功能已开启预览。开发者只需一次性配置好提示词、代码仓库和相关连接项,并选择定时任务(Cron)、每日执行或GitHub Webhook事件等触发方式,Claude便可全自动运行这些例行任务,实现工作流的自动化。
此外,Claude Code近期还包括下图所示的一系列更新:
03. 未来方向:为下一代模型设计架构
Anthropic的Dianne Penn在分享中指出,公司已累计推出18个版本的Claude模型,包括Sonnet、Opus以及全新的Mythos系列,并已全部开放给开发者。过去一年,他们向开发者推出了八款前沿大模型,模型智能正朝着更有逻辑、更善规划、思考更缜密的方向指数级发展。
这意味着,未来的AI智能体将是主动式、全天候在线的,它们清楚自己要做什么,且能保持连贯的逻辑思维。因此,开发者和企业使用与基于Claude开发的方式也必须随之演进。
Anthropic内部形成一个共识:架构设计必须面向下一代模型,而不仅仅是适配当前版本。最终能胜出的开发者,是那些提前优化架构、为下一次智能能力跃迁做好准备的人,而不是只盯着眼前小幅的性能迭代。这要求业界持续构建更高标准的评估体系,并大胆尝试那些当前看似“跑不通”的前沿原型。
对于企业用户,核心挑战通常有两个:一是获得符合预期的高质量输出结果;二是让业务应用能快速上线和交付。Claude平台正是为此而生,它提供了为Claude模型深度调优的API基础原语,是企业构建和规模化部署智能体系统的底层基础设施,同时配套了完整的管控运维能力。
Anthropic的产品负责人Angela指出,企业常面临“需要高阶智能却难以落地”的困境。他们的解决方案之一是“咨询策略”能力。企业只需在Messages API中更新工具数组配置即可启用。
具体而言,这套智能体架构将“执行”与“决策顾问”环节进行了拆分。在执行具体任务时,可以选用更轻量、成本更低的小模型。当这个小模型遇到复杂决策,不确定下一步该如何进行时,可以随时调用更大的模型(如Opus)来获取高阶指导建议。
在实际落地中,企业可以用Sonnet模型负责任务执行,同时让Opus模型担任决策顾问。实测数据显示,这种“Sonnet执行 + Opus顾问”的组合方案,其整体表现远超单独使用Sonnet模型,而整套方案的使用成本甚至比单独使用Sonnet还要低,实现了效果与成本的双赢。
04. 结语:模型、算力、商业化三线并进
面对日益激烈的大模型竞争,Anthropic清晰地勾勒出其研发重心与未来规划:首先是更强的判断力与更高质量的代码能力,让Claude能处理更自主的工程开发任务;其次是高质量的长上下文记忆能力,以支持长周期复杂任务并获得更佳输出;最后是多智能体协同能力的深化,实现多个Claude实例围绕复杂目标进行高效分工协作。
当前,大模型竞争已全面转向算力基建、模型能力、开发生态与商业化落地的综合实力比拼。此次Anthropic不仅大幅升级了产品矩阵,更官宣了与SpaceX AI的重磅算力合作。叠加此前与亚马逊、谷歌、微软达成的庞大算力协议,其整体算力储备与竞争对手的差距正在持续拉大。
与此同时,伴随着API降价与调用限额的提升,Claude系列产品的综合性价比日益凸显。这有望吸引大量中小企业客户从其他平台加速向Claude生态迁移,从而进一步巩固其在企业级AI市场的领先地位。可以说,Anthropic正在模型、算力、商业化三条战线上同时发力,展现出全力冲刺的态势。



















