生成认知：图灵奖得主Sutton预测AI未来方向

2026-06-03阅读 0热度 0

图灵奖

先提炼几个关键结论。

从大语言模型超长上下文的处理能力、视频生成模型逼近真实的视觉效果，到智能体自主规划与执行的日趋成熟，再到视觉-语言-行动模型与世界模型开始介入物理世界，人工智能的边界正在持续扩展。模型迭代周期不断压缩，行业动态与学术讨论热度始终在线。在这股势不可挡的浪潮中，通用人工智能似乎近在咫尺。

但一个根本问题始终悬而未决：那些运行在服务器里的AI，真的“理解”这个世界吗？或者说，它们展现出的智能，与生物在真实物理环境中生存所需的认知能力，在本质上是否一致？

近期，学者Banafsheh Rafiee与强化学习之父Richard S. Sutton共同发表论文，对当前主流人工智能——涵盖大语言模型、纯视觉模型乃至传统符号系统——所依赖的“被动表征”路径进行了系统性反思与批判。更关键的是，他们将认知科学中的“生成认知”框架引入AI领域。

该研究主张，感知、认知与行动是相互建构、不可分割的整体。它探讨的是，AI能否从依赖静态数据的被动信息处理系统，逐步演变为一个通过环境交互、具身行动与自我评估来积累经验的智能体。

论文标题：Toward Enactive Artificial Intelligence
论文地址：https://arxiv.org/abs/2605.24238v1

世界本身就是它最好的模型

先说清楚：当前主流AI的发展，很多仍被困在一条旧路——表征主义。

在传统人工智能范式下，无论是早期的符号系统，还是今天的深度学习模型，感知通常被理解为一种“先输入、再处理、后行动”的线性流程：系统接收外部信号，加工成内部表征，基于这些表征进行推理与决策，最后输出动作。

这样一来，智能系统就像一个中央处理器，需要在内部构建一个尽可能精确的“世界副本”。感知的成功与否，取决于这个内部模型能否准确还原外部现实。

但Rafiee与Sutton指出，这条路径本身存在根本性局限。真实世界是开放、动态且无限复杂的，任何有限的内部模型都无法完整捕捉其全部状态。世界并非一组等待编码的静态特征，而是会随着智能体的行动、上下文与交互历史不断变化的可能性空间。

因此，论文引用了机器人学家Rodney Brooks的名言：「世界本身就是它最好的模型。」

这句话的深层含义是：信任环境本身——它每时每刻都在提供最新、最丰富的信息，远胜于费力在内部存储一个副本。智能体不应试图完全用内部表征替代现实，而应保持与环境的持续互动，在实时反馈中调整行动、校准预期、形成理解。

AI不只是“看见世界”，还要“在行动中理解世界”

“生成认知”源自认知科学中的生成主义。其核心思想是：认知并非对一个预先存在的客观世界进行内部复制，而是在具身主体与环境的交互中被生成出来的。

该理念吸收了现象学、格式塔心理学与生态心理学的思想。现象学强调，感知不是在头脑中重建世界，而是主体在生活经验中直接与世界相遇；吉布森的生态心理学提出了“示能”这一概念——环境中的物体是“可抓握”还是“可攀爬”，取决于其与具体身体能力之间的关系。

换言之，世界并非以抽象特征的形式被动呈现给智能体，而是在智能体能够采取的行动中变得有意义。

将这套思想引入AI，Rafiee与Sutton提炼出四个关键支柱：经验、感知与行动的不可分割性、自主性，以及具身性。它们共同指向同一判断：智能不是对世界的静态表征，而是在环境中行动、反馈与自我维持的过程。

经验

在生成认知框架下，经验不等于数据。真正的经验来自智能体与环境之间持续、实时、相互影响的交互。智能体不是被动接收现成数据，而是在行动、反馈、失败与修正中不断获取技能。

这也揭示了当前主流机器学习的局限性。监督学习依赖人类预先收集与标注的数据，模型学到的只是经验留下的痕迹，而非自身亲历的经验。相比之下，强化学习更接近生成认知的要求：智能体通过主动探索环境、接收反馈并调整策略，在交互中持续生成新数据与新能力。

也就是说，一个真正自主的系统，不能永远依靠人类准备好的静态数据集存活，它必须能通过自身经验不断扩展能力边界。

感知与行动的不可分割性

生成认知反对将感知与行动拆分为两个独立模块。感知不是行动之前的准备环节，感知本身就是一种行动能力。

人类并非被动接收画面。我们通过眼球、头部、身体与手部的运动，不断改变输入，从而判断空间、声音、纹理与物体形态。因此，感知并非等待信息进入大脑，而是通过有目的的行动来揭示环境的结构。

这一点对当前的视频生成模型尤为重要。纯观察系统或许能学会大量视觉规律——例如预测物体运动或红绿灯变化顺序——但这不代表它真正理解了物理世界。一旦环境出现异常，它们往往缺乏主动干预、试错与纠正的能力。

生成认知强调的正是这一点：智能体不仅要预测世界如何变化，还要能通过行动改变世界，并在反馈中形成理解。

自主性

生成认知认为，智能体不是简单响应外部刺激的机器，而是一个自我组织、自我维持的系统。环境中的事物之所以有意义，是因为它们关系到智能体自身的目标、需求与持续存在。

这意味着智能体需要某种内在的成败标准。食物、障碍物、能量之所以重要，并非因为它们天然重要，而是因为它们会影响智能体能否继续行动、维持自身状态或完成目标。

从这个角度看，当下许多AI系统仍缺乏真正的自主性。监督学习依赖外部标签，大语言模型主要在模仿人类数据模式，传统规划系统的目标也大多由人类预先设定。强化学习虽然通过奖励机制引入了行为评估，但大多数奖励函数仍由外部设计者指定，并非从智能体自身的自我维持过程中自然产生。

因此，距离真正的自主性，还有一段路要走。

具身性

生成认知的最后一个关键是具身性。身体并非智能系统完成推理后才使用的执行工具，恰恰相反，它是感知与理解世界的前提。

身体的形态、传感器的位置、运动能力与行动方式，会直接决定智能体如何探索环境，也决定世界以何种方式对其呈现意义。同一把椅子，对人类是“可坐的”，对蚂蚁可能是一个巨大的障碍物，对机器人则取决于它是否具备相应的高度、关节结构与控制能力。

这就能解释，为何许多主流AI仍然是“离身”的。它们可以处理海量文本、图像与视频，却无法通过自身运动改变感知输入，也无法在真实环境中主动探索与适应变化。

即使在机器人领域，许多系统仍将感知、规划与控制拆成独立模块，身体只是执行策略的硬件平台，而非塑造认知本身的核心条件。

强化学习的下一步？

在经验、感知—行动、自主性与具身性四个维度上，Rafiee与Sutton对当前AI范式给出了清晰判断：主流AI——尤其大语言模型与纯视觉模型——仍然主要停留在被动表征与模式预测的层面。

它们能生成极其逼真的文本、图像或视频，也能在复杂任务中展现强大的推理与规划能力。但只要缺乏与环境的持续互动、缺乏基于自身行动后果的评估、缺乏真正具身的探索过程，它们距离“理解世界”就还有关键差距。

相比之下，强化学习与生成认知之间存在更强的结构共鸣。强化学习强调行动、反馈、探索、适应与长期评估，这使其成为最接近生成认知理念的AI分支。

但这种接近不等于等同。当前强化学习仍有三重不足：第一，奖励函数大多由外部指定，而非来自智能体自身的自我维持与组织结构；第二，感知与行动在许多系统中仍被拆分为相对独立的步骤；第三，具身性常被视为工程约束，而非认知形成的基础。

因此，强化学习自身也需要继续演进：从外部奖励走向更内在的自我评估，从任务驱动走向持续生存与适应，从单纯优化策略走向真正的具身经验生成。

更多技术细节请参见原论文。

生成认知：图灵奖得主Sutton预测AI未来方向

世界本身就是它最好的模型

AI不只是“看见世界”，还要“在行动中理解世界”

经验

感知与行动的不可分割性

自主性

具身性

强化学习的下一步？

相关阅读

最新教程

最新资讯