图灵奖得主Sutton新作:生成认知定义AI未来
讨论一个相对硬核的问题:当前AI系统究竟是否具备对世界的真实理解?
从大语言模型轻松处理数百万字文本,到视频生成模型输出高保真画面,再到Agent自主规划与执行复杂任务,乃至VLA架构与世界模型开始触碰物理世界——AI的能力边界正以肉眼可见的速度拓展。
模型迭代周期不断缩短,行业每则消息都能引发热烈讨论。在这种氛围下,通用人工智能似乎触手可及。
然而一个根本性问题始终悬而未决:服务器中运行的AI,是否真正“理解”了世界?或者说,它们表现出的智能,与生物在真实物理环境中通过互动积累的认知能力,本质是否相同?
最近,学者Banafsheh Rafiee与强化学习之父Richard S. Sutton合作发表论文,对当前主流AI——包括大语言模型、纯视觉模型乃至传统符号系统——所依赖的“被动表征”路线进行了系统性反思与批判,并将认知科学中的“生成认知”(Enactive Cognition)框架正式引入AI讨论。
该论文的核心主张:感知、认知与行动三者并非独立模块,而是相互构建、不可分割的整体。探讨的是AI如何从依赖静态数据的被动信息处理器,进化为能够通过环境互动、在具身行动中持续积累经验的智能体。
论文标题:Toward Enactive Artificial Intelligence
世界本身就是它最精确的模型
当前相当一部分主流AI发展路径,仍在沿袭一套经典的观念——表征主义。
在该范式下,无论是最早期的符号系统还是今天的深度学习模型,感知通常被理解为“先输入、再处理、后行动”的线性流程:系统先接收外部信号,将其加工成内部表征,据此进行推理与决策,最后输出动作。
简单说,智能系统就像中央处理器,需要在内部构建一个尽可能精确的“世界副本”。感知成功与否,取决于内部模型能否准确还原外部现实。
但Rafiee与Sutton指出,这一思路存在根本性局限。真实世界开放、动态、无限复杂。任何有限的内部模型都无法完整捕捉其全部状态。世界不是一组等待编码的静态特征,而是随着智能体行动、上下文及互动历史不断变化的可能性空间。
因此,论文引用机器人学家Rodney Brooks那句经典论述:「世界本身就是它最好的模型。」
这句话的言下之意:最可靠、最新鲜、最丰富的信息不在智能体内部,而始终存在于外部世界。智能体不应试图用内部表征完全替代现实,而应持续与环境保持互动,在实时反馈中调整行动、校准预期,并在此过程中形成理解。
AI不只是“看见世界”,更需“在行动中理解世界”
“生成认知”这一概念源于认知科学中的生成主义(enactivism)。其核心思想:认知不是对预设客观世界的内部复制,而是在具身主体与环境的互动中“生成”出来的。
它吸收了现象学、格式塔心理学和生态心理学的思想。现象学强调,感知并非在大脑内重建世界,而是主体在生活经验中直接与世界相遇;吉布森(Gibson)的生态心理学提出“示能”(affordance)概念——环境中物体是“可抓握”还是“可攀爬”,取决于其与具体身体能力的关系。
换言之,世界并非以抽象特征被动呈现给智能体,而是在智能体能够采取的行动中才变得“有意义”。
将这些思想引入AI领域,Rafiee与Sutton提炼出四个关键支柱:经验、感知与行动的不可分割性、自主性以及具身性。这四个维度指向同一个判断:智能不是对世界的静态表征,而是在环境中行动、反馈和自我维持的过程。
经验
在生成认知框架中,经验不等于数据。真正的经验来自智能体与环境之间持续、实时、相互影响的互动。智能体并非被动接收已有数据,而是在行动、反馈、失败与修正中不断获得技能。
这揭示了当前主流机器学习的内在局限。监督学习依赖人类预先收集与标注的数据,模型学到的其实是经验留下的痕迹,而非自身亲历的经验。相比之下,强化学习更接近生成认知的要求:智能体通过主动探索环境、接收反馈并调整策略,在互动中持续生成新数据与新能力。
一个真正自主的系统,不能永远依赖人类准备好的静态数据集,它必须能够通过自身经验不断扩展能力边界。
感知与行动的不可分割性
生成认知反对将感知和行动拆分为独立模块。感知并非行动之前的准备环节,感知本身就是一种行动能力。
人类并非被动接收画面。我们通过眼球、头部、身体和手部的运动不断改变输入,从而判断空间、声音、纹理、物体形态。感知不是等着外部信号传进来再分析,而是通过有目的的行动去揭示环境的结构。
这一点对如今的视频生成模型尤为重要。纯观察系统或许能学会大量视觉规律——比如预测物体运动或红绿灯颜色变化顺序,但这不等于真正理解物理世界。一旦环境出现异常,这类模型往往缺乏主动干预、试错和纠正的能力。
生成认知强调的正是这一点:智能体不仅要能预测世界如何变化,还要能通过自身行动去改变世界,并在反馈中形成理解。
自主性
生成认知认为,智能体不是简单响应外部刺激的机器,而是能够自我组织、自我维持的系统。环境中的事物之所以有意义,不是因为它们天然重要,而是因为它们关系到智能体自身的目标、需求和持续存在。
这意味着智能体需要拥有某种内在的成败标准。食物、障碍物、能量之所以重要,在于它们会影响智能体能否继续行动、维持自身状态、完成目标。
从这一角度看,当前许多AI系统仍缺乏真正的自主性。监督学习依赖外部标签,大语言模型主要模仿人类数据模式,传统规划系统的目标也多由人类预设。强化学习虽通过奖励机制引入行为评估,但大多数奖励函数仍由外部设计者指定,而非从智能体自身的自我维持过程中自然产生。
因此,当前AI距离真正的自主性,还有一段路要走。
具身性
生成认知的最后一个关键是具身性。身体不是智能系统完成推理后才拿来用的执行工具,而是感知和理解世界的前提。
身体的形态、传感器位置、运动能力和行动方式,会直接决定智能体如何探索环境,也决定世界以何种方式对它呈现意义。同一把椅子,对人类而言是“可坐的”,对蚂蚁可能是巨大障碍物,对机器人则取决于其是否具备相应的高度、关节结构与控制能力。
这也解释了为何许多主流AI仍然是“离身”的。它们能处理海量文本、图像和视频,却没有通过自身运动改变感知输入的能力,也无法在真实环境中主动探索和适应变化。
即使在机器人领域,很多系统仍将感知、规划和控制拆为独立模块。身体只是执行策略的硬件平台,而非塑造认知本身的核心条件。
强化学习的下一步?
在经验、感知-行动、自主性和具身性这四个维度上,Rafiee与Sutton对当前AI范式给出了非常清晰的判断:主流AI,尤其是大语言模型与纯视觉模型,仍然主要停留在被动表征与模式预测的层面。
它们可以生成极其逼真的文本、图像或视频,也能在复杂任务中展现出色的推理与规划能力。但只要缺乏与环境的持续互动、缺乏基于自身行动后果的评估、缺乏真正具身的探索过程,它们距离“理解世界”就仍存在关键差距。
相比之下,强化学习与生成认知之间存在更强的结构共鸣。强化学习强调行动、反馈、探索、适应与长期评估,这些特质使它成为当下最接近生成认知理念的AI分支。
但这种接近并不等同于等同。当前的强化学习仍存在三重不足:第一,奖励函数大多由外部指定,而非来自智能体自身的自我维持与组织结构;第二,感知和行动在许多系统中仍被拆分为相对独立的步骤;第三,具身性常被当作工程约束,而非认知形成的基础。
因此,强化学习也需要进一步演进:从外部奖励走向更内在的自我评估,从任务驱动走向持续生存与适应,从单纯优化策略走向真正的具身经验生成。
