生成认知：图灵奖得主Sutton最新AI方向深度解读

2026-06-03阅读 0热度 0

图灵奖

从大语言模型处理百万级token的长上下文，到视频生成模型输出的画面几乎无法分辨真伪，再到AI Agent自主规划并执行复杂任务日趋成熟，乃至VLA架构与世界模型开始介入物理世界的模拟与操控——人工智能的能力边界正以季度甚至周为单位持续扩展。模型迭代周期压缩至极致，行业动态与技术辩论占据每场顶会焦点。在这种高速前进的叙事里，不少人产生了一种错觉：通用人工智能（AGI）似乎只差临门一脚。

但一个根本追问始终悬而未决：这些运行在服务器中的AI，究竟是否真正“理解”它所处理的世界？或者说，它们展现出的智能表现，与生物在真实物理世界中为了生存而演化出的认知能力，在本质上是否同源？

近期，学者Banafsh Rafiee与强化学习奠基人Richard S. Sutton联合发表了一篇论文，对当前主流人工智能——涵盖大语言模型、纯视觉模型乃至经典符号系统——所依赖的“被动表征”范式，进行了系统性的反思与批判。更关键的是，他们将认知科学中的“生成认知”（Enactive Cognition）框架系统地引入AI领域。

该研究主张：感知、认知与行动是彼此构造、不可割裂的有机整体。它探讨了AI如何从依赖静态数据的被动信息处理器，进化为能够通过与环境的交互、具身行动以及自我评估来积累经验的自主智能体。

论文标题：Toward Enactive Artificial Intelligence（走向生成式人工智能）
论文地址：https://arxiv.org/abs/2605.24238v1

世界本身就是它最精确的模型

当前主流AI的发展路径，本质上仍沿着一条被称为“表征主义”的旧有轨迹。

在传统人工智能范式中，无论是早期的符号推理系统，还是今天的深度学习模型，感知通常被理解为一条“先采集输入、再内部处理、最后执行动作”的线性流水线：系统先接收外部信号，将其转化为内部表征，接着基于这些表征进行逻辑推理或模式匹配，最后输出动作指令。

在这种视角下，AI系统就像一台中央处理器，必须在内部构建一个尽可能忠实于外部世界的“副本”。感知是否成功，取决于这个内部模型能否精确还原客观现实中的结构、因果与状态。

但Rafiee与Sutton指出，这种思路存在深层局限。真实世界是开放、动态且无限复杂的，任何有限的内部模型都不可能穷尽它的全部信息。世界并非一组等待被编码的静态特征，而是一个随着智能体的行动、上下文与历史互动不断重塑的可能性空间。

论文因此引用了机器人学家Rodney Brooks那句经典断言：“世界本身就是它最好的模型。”

这句话的实质含义是：最可靠、最新鲜、最丰富的信息，从来不在智能体内部，而始终存在于外部的实时环境中。智能体不应试图用内部表征完全替代现实，而应保持与环境的持续互动，在每一轮反馈中动态调整行动、校准预期并逐步形成理解。

AI不只要“看见世界”，更要“在行动中理解世界”

“生成认知”源于认知科学中的生成主义（enactivism），其核心命题是：认知并非对一个预先存在的客观世界进行内部复制，而是在具身主体与环境的实时互动中涌现出来的。

它汲取了现象学、格式塔心理学与生态心理学的思想养分。现象学强调，感知不是在头脑中重建世界，而是主体在生活经验中直接与世界相遇；吉布森的生态心理学则提出了“示能”（affordance）概念——环境中的物体是否“可抓握”“可攀爬”“可通过”，取决于它相对于具体身体能力之间的关系。

换句话说，世界并不是以抽象特征的形式被动呈现给智能体，而是通过智能体能够采取的行动才变得有意义。

将这些思想引入AI领域后，Rafiee与Sutton提炼出四个关键支柱：经验、感知与行动的不可分割性、自主性，以及具身性。它们共同指向一个判断：智能不是对世界的静态表征，而是在环境中行动、获取反馈并维持自身存在的过程。

经验

在生成认知框架中，经验不等于静态数据。真正的经验来自智能体与环境之间持续、实时且相互塑造的交互。智能体并非被动接收现成数据集，而是在主动试错、反馈、失败与修正中持续习得技能。

这也点出了当前监督学习的核心局限：模型依赖人类提前收集并标注的数据，所学到的只是经验留下的“痕迹”，而非自身亲身经历的经验。相比之下，强化学习更接近生成认知的要求——智能体通过主动探索环境、接收奖励或惩罚信号并动态调整策略，在交互中持续产出新数据与新能力。

说白了，一个真正自主的系统，不能永远依赖人类准备好的静态数据集，它必须能够通过自身经验不断扩展能力的边界。

感知与行动的不可分割性

生成认知坚决反对将感知与行动拆成独立模块。感知并不是行动之前的准备阶段——感知本身就是一种行动能力。

人类并非被动接收视觉画面。我们通过眼球扫视、头部转动、身体移动与手部操作，不断改变输入，从而判断空间关系、声音方位、材质触感与物体形态。感知不是等待信息进入大脑，而是通过有目的的行动来揭示环境的结构。

这一点对当前的视频生成模型尤为重要。纯观察系统或许能学会大量视觉统计规律，比如预测物体运动轨迹或交通灯变化顺序，但这不等于真正理解物理世界。一旦环境出现异常，它们往往缺乏主动干预、试错和纠错的能力。

生成认知强调的正是：智能体不仅要预测世界如何变化，还要能够通过行动改变世界，并从反馈中形成深层次理解。

自主性

生成认知认为，智能体不是简单对外部刺激做出响应的机器，而是一个自我组织、自我维持的系统。环境中的事物之所以有意义，是因为它们关系到智能体自身的目标、需求与存续。

这意味着智能体需要具备某种内在的成败评判标准。食物、障碍物、能量之所以重要，并非因为它们天然具有重要性，而是因为它们影响智能体能否继续行动、维持自身状态或达成目标。

从这个角度看，当前许多AI系统仍然缺乏真正的自主性。监督学习依赖外部标签，大语言模型主要模仿人类数据分布，传统规划系统的目标也大多由人类预先设定。强化学习虽然通过奖励机制引入了行为评估，但大多数奖励函数仍由外部设计者指定，并非从智能体自身的自我维持过程中自然涌现。

因此，当前AI距离真正的自主性，仍有实质差距。

具身性

生成认知的最后一项关键支柱是具身性。身体并非智能系统完成推理之后才调用的执行工具——它是感知和理解世界的前提条件。

身体的形态、传感器的位置、运动能力与行动方式，直接决定了智能体如何探索环境，也决定了世界以何种方式对它具有意义。同一把椅子，对人类是“可坐的”，对蚂蚁可能是巨大的障碍物，对机器人则取决于它是否具备相应的关节结构、高度与控制能力。

这解释了为什么许多主流AI仍然是“离身”的。它们能处理海量文本、图像与视频，却没有通过自身运动改变感知输入的能力，也无法在真实环境中主动探索和适应变化。

即使在机器人领域，许多系统仍将感知、规划与控制拆成独立模块，身体只是执行策略的硬件平台，而非塑造认知本身的核心条件。

强化学习的下一步演进方向

在经验、感知-行动、自主性与具身性这四个维度上，Rafiee与Sutton对当前AI范式给出了一个清晰的判断：主流AI——尤其是大语言模型与纯视觉模型——仍然主要停留在被动表征与模式预测层面。

它们可以生成极度逼真的文本、图像或视频，也能在复杂任务中展现出强大的推理与规划能力，但只要缺乏与环境的持续互动、缺乏基于自身行动后果的自我评估、缺乏真正具身的探索过程，它们距离“理解世界”仍有本质差距。

相比之下，强化学习与生成认知之间存在更强的结构共鸣。RL强调行动、反馈、探索、适应与长期评估，这些特性使其成为目前最接近生成认知理念的AI分支。

但这种接近并不意味着等同。当前强化学习依然存在三重不足：第一，奖励函数大多由外部指定，而非来自智能体自身的自我维持与组织；第二，感知与行动在许多系统中仍被拆分为相对独立的步骤；第三，具身性常被当作工程约束来对待，而非认知形成的基础。

因此，强化学习也需要进一步演化：从外部奖励走向更内在的自我评估，从任务驱动走向持续生存与适应，从单纯优化策略走向真正的具身经验生成。

更多技术细节与实验设计，请参见原论文。

生成认知：图灵奖得主Sutton最新AI方向深度解读

世界本身就是它最精确的模型

AI不只要“看见世界”，更要“在行动中理解世界”

经验

感知与行动的不可分割性

自主性

具身性

强化学习的下一步演进方向

相关阅读

最新教程

最新资讯