生成认知:图灵奖得主Sutton最新AI方向深度解读

2026-06-03阅读 0热度 0
图灵奖

从大语言模型处理百万级token的长上下文,到视频生成模型输出的画面几乎无法分辨真伪,再到AI Agent自主规划并执行复杂任务日趋成熟,乃至VLA架构与世界模型开始介入物理世界的模拟与操控——人工智能的能力边界正以季度甚至周为单位持续扩展。模型迭代周期压缩至极致,行业动态与技术辩论占据每场顶会焦点。在这种高速前进的叙事里,不少人产生了一种错觉:通用人工智能(AGI)似乎只差临门一脚。

但一个根本追问始终悬而未决:这些运行在服务器中的AI,究竟是否真正“理解”它所处理的世界?或者说,它们展现出的智能表现,与生物在真实物理世界中为了生存而演化出的认知能力,在本质上是否同源?

近期,学者Banafsh Rafiee与强化学习奠基人Richard S. Sutton联合发表了一篇论文,对当前主流人工智能——涵盖大语言模型、纯视觉模型乃至经典符号系统——所依赖的“被动表征”范式,进行了系统性的反思与批判。更关键的是,他们将认知科学中的“生成认知”(Enactive Cognition)框架系统地引入AI领域。

该研究主张:感知、认知与行动是彼此构造、不可割裂的有机整体。它探讨了AI如何从依赖静态数据的被动信息处理器,进化为能够通过与环境的交互、具身行动以及自我评估来积累经验的自主智能体。

  • 论文标题:Toward Enactive Artificial Intelligence(走向生成式人工智能)
  • 论文地址:https://arxiv.org/abs/2605.24238v1

世界本身就是它最精确的模型

当前主流AI的发展路径,本质上仍沿着一条被称为“表征主义”的旧有轨迹。

在传统人工智能范式中,无论是早期的符号推理系统,还是今天的深度学习模型,感知通常被理解为一条“先采集输入、再内部处理、最后执行动作”的线性流水线:系统先接收外部信号,将其转化为内部表征,接着基于这些表征进行逻辑推理或模式匹配,最后输出动作指令。

在这种视角下,AI系统就像一台中央处理器,必须在内部构建一个尽可能忠实于外部世界的“副本”。感知是否成功,取决于这个内部模型能否精确还原客观现实中的结构、因果与状态。

但Rafiee与Sutton指出,这种思路存在深层局限。真实世界是开放、动态且无限复杂的,任何有限的内部模型都不可能穷尽它的全部信息。世界并非一组等待被编码的静态特征,而是一个随着智能体的行动、上下文与历史互动不断重塑的可能性空间。

论文因此引用了机器人学家Rodney Brooks那句经典断言:“世界本身就是它最好的模型。”

这句话的实质含义是:最可靠、最新鲜、最丰富的信息,从来不在智能体内部,而始终存在于外部的实时环境中。智能体不应试图用内部表征完全替代现实,而应保持与环境的持续互动,在每一轮反馈中动态调整行动、校准预期并逐步形成理解。

AI不只要“看见世界”,更要“在行动中理解世界”

“生成认知”源于认知科学中的生成主义(enactivism),其核心命题是:认知并非对一个预先存在的客观世界进行内部复制,而是在具身主体与环境的实时互动中涌现出来的。

它汲取了现象学、格式塔心理学与生态心理学的思想养分。现象学强调,感知不是在头脑中重建世界,而是主体在生活经验中直接与世界相遇;吉布森的生态心理学则提出了“示能”(affordance)概念——环境中的物体是否“可抓握”“可攀爬”“可通过”,取决于它相对于具体身体能力之间的关系。

换句话说,世界并不是以抽象特征的形式被动呈现给智能体,而是通过智能体能够采取的行动才变得有意义。

将这些思想引入AI领域后,Rafiee与Sutton提炼出四个关键支柱:经验、感知与行动的不可分割性、自主性,以及具身性。它们共同指向一个判断:智能不是对世界的静态表征,而是在环境中行动、获取反馈并维持自身存在的过程。

经验

在生成认知框架中,经验不等于静态数据。真正的经验来自智能体与环境之间持续、实时且相互塑造的交互。智能体并非被动接收现成数据集,而是在主动试错、反馈、失败与修正中持续习得技能。

这也点出了当前监督学习的核心局限:模型依赖人类提前收集并标注的数据,所学到的只是经验留下的“痕迹”,而非自身亲身经历的经验。相比之下,强化学习更接近生成认知的要求——智能体通过主动探索环境、接收奖励或惩罚信号并动态调整策略,在交互中持续产出新数据与新能力。

说白了,一个真正自主的系统,不能永远依赖人类准备好的静态数据集,它必须能够通过自身经验不断扩展能力的边界。

感知与行动的不可分割性

生成认知坚决反对将感知与行动拆成独立模块。感知并不是行动之前的准备阶段——感知本身就是一种行动能力。

人类并非被动接收视觉画面。我们通过眼球扫视、头部转动、身体移动与手部操作,不断改变输入,从而判断空间关系、声音方位、材质触感与物体形态。感知不是等待信息进入大脑,而是通过有目的的行动来揭示环境的结构。

这一点对当前的视频生成模型尤为重要。纯观察系统或许能学会大量视觉统计规律,比如预测物体运动轨迹或交通灯变化顺序,但这不等于真正理解物理世界。一旦环境出现异常,它们往往缺乏主动干预、试错和纠错的能力。

生成认知强调的正是:智能体不仅要预测世界如何变化,还要能够通过行动改变世界,并从反馈中形成深层次理解。

自主性

生成认知认为,智能体不是简单对外部刺激做出响应的机器,而是一个自我组织、自我维持的系统。环境中的事物之所以有意义,是因为它们关系到智能体自身的目标、需求与存续。

这意味着智能体需要具备某种内在的成败评判标准。食物、障碍物、能量之所以重要,并非因为它们天然具有重要性,而是因为它们影响智能体能否继续行动、维持自身状态或达成目标。

从这个角度看,当前许多AI系统仍然缺乏真正的自主性。监督学习依赖外部标签,大语言模型主要模仿人类数据分布,传统规划系统的目标也大多由人类预先设定。强化学习虽然通过奖励机制引入了行为评估,但大多数奖励函数仍由外部设计者指定,并非从智能体自身的自我维持过程中自然涌现。

因此,当前AI距离真正的自主性,仍有实质差距。

具身性

生成认知的最后一项关键支柱是具身性。身体并非智能系统完成推理之后才调用的执行工具——它是感知和理解世界的前提条件。

身体的形态、传感器的位置、运动能力与行动方式,直接决定了智能体如何探索环境,也决定了世界以何种方式对它具有意义。同一把椅子,对人类是“可坐的”,对蚂蚁可能是巨大的障碍物,对机器人则取决于它是否具备相应的关节结构、高度与控制能力。

这解释了为什么许多主流AI仍然是“离身”的。它们能处理海量文本、图像与视频,却没有通过自身运动改变感知输入的能力,也无法在真实环境中主动探索和适应变化。

即使在机器人领域,许多系统仍将感知、规划与控制拆成独立模块,身体只是执行策略的硬件平台,而非塑造认知本身的核心条件。

强化学习的下一步演进方向

在经验、感知-行动、自主性与具身性这四个维度上,Rafiee与Sutton对当前AI范式给出了一个清晰的判断:主流AI——尤其是大语言模型与纯视觉模型——仍然主要停留在被动表征与模式预测层面。

它们可以生成极度逼真的文本、图像或视频,也能在复杂任务中展现出强大的推理与规划能力,但只要缺乏与环境的持续互动、缺乏基于自身行动后果的自我评估、缺乏真正具身的探索过程,它们距离“理解世界”仍有本质差距。

相比之下,强化学习与生成认知之间存在更强的结构共鸣。RL强调行动、反馈、探索、适应与长期评估,这些特性使其成为目前最接近生成认知理念的AI分支。

但这种接近并不意味着等同。当前强化学习依然存在三重不足:第一,奖励函数大多由外部指定,而非来自智能体自身的自我维持与组织;第二,感知与行动在许多系统中仍被拆分为相对独立的步骤;第三,具身性常被当作工程约束来对待,而非认知形成的基础。

因此,强化学习也需要进一步演化:从外部奖励走向更内在的自我评估,从任务驱动走向持续生存与适应,从单纯优化策略走向真正的具身经验生成。

更多技术细节与实验设计,请参见原论文。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策