意识模型新突破：PNAS刊发「有意识的图灵机」理论计算机研究

2026-05-15阅读 0热度 0

PNAS

去年十月，《美国国家科学院院刊》接收了一篇题为《有意识的图灵机》的论文，并于今年五月正式刊发。这项研究从理论计算机科学的严谨视角出发，为“意识”这一古老议题构建了一个形式化的计算模型。值得注意的是，深度学习先驱Yoshua Bengio也对这项工作的理论价值给予了积极评价。

该研究的核心论点极具启发性：意识并非生物组织的专属产物。只要一个计算系统的组织架构满足特定条件，无论其物理基础是碳基还是硅基，意识都可能作为涌现属性而出现。这项研究的目标并非直接模拟大脑或定位意识的神经关联，而是构建一个抽象的计算框架，用以系统性地解释意识、自由意志、梦境乃至感知错觉等现象。

研究团队强调了一个关键的计算原理：任何计算过程都需要时间。基于此，自由意志可以被重新诠释为：在有限的时间、空间、算力和信息等资源约束下，一个系统计算不同行动路径的潜在后果，并从中选择最优路径的能力。接下来，我们将深入解析这篇论文的核心要点。

1. 从理论计算机的视角看「意识」

1.1. 理论计算机科学

理论计算机科学的基石是艾伦·图灵的开创性工作。他定义的“图灵机”奠定了可计算性的理论基础，并揭示了停机问题的不可判定性——即不存在一个通用算法能预先判断任意程序是否会终止运行。

随着计算实践的深入，研究者们发现，许多理论上可解的问题，在实际中会因计算资源（尤其是时间）的指数级增长而变得“不可行”。计算复杂性理论由此诞生，它严格区分了在多项式时间内可解的问题与那些可能更困难的问题，并催生了P与NP等核心难题。这一理论不仅划定了“高效”与“低效”的界限，其思想还衍生出“伪随机序列”的概念——一种在多项式时间计算视角下无法与真随机序列区分的序列。这一概念对意识研究至关重要：如果一台概率型的有意识图灵机能够展现“自由意志”，那么使用伪随机序列的确定性版本同样可以模拟这一特性。

1.2. 全局工作空间理论

有意识的图灵机模型，在数学上形式化并精炼了认知神经科学家Bernard Baars提出的“全局工作空间理论”。Baars曾将意识比喻为舞台，被聚光灯（工作记忆）照亮的演员（意识内容）进行表演，而观众（无意识处理器）则在黑暗中观看。

在CTM模型中，这个舞台被具体化为容量极小的短时存储器，它持续承载着机器的瞬时意识内容。观众则由海量具备特定功能的处理器构成，它们共同组成长期存储器。这些处理器持续进行预测，并从外部世界获取反馈以优化自身。它们相互竞争，试图将自己处理的“信息块”推上舞台；一旦成功，该信息块的内容会立即通过广播机制传递给所有“观众”。

这种“有意识的觉察”或“注意力”，在CTM中被严格定义为所有长期存储器处理器对广播内容的同步接收。随着系统运行，某些处理器之间会建立直接的“链接”，使得原本必须经由舞台广播的有意识通信，转变为高效、直接的无意识通信。这种链接的强化机制，与神经科学家Dehaene等人提出的“全局神经元工作空间”中的“全局点火”现象高度吻合。

1.3. 复杂性的考量

有限的计算资源从根本上制约着我们对意识现象的解释，也塑造了CTM模型的具体设计。例如，每个处理器在每一时刻竞争进入意识的信息单位被定义为“块”；选择哪个块进入意识，由一个快速的概率竞争算法决定；每个处理器内部都运行着机器学习算法，利用反馈循环来提升自身提交信息的竞争力。

必须明确，CTM并非标准的图灵机。赋予其“意识感”的，并非其通用计算能力，而是其独特的全局工作空间架构、持续的预测与学习循环、丰富的内部多模态语言，以及某些特殊的世界模型处理器。

2. CTM 模型综述

2.1 CTM的基本结构及CTM中意识的定义

假设CTM拥有有限的生命周期，时间以离散节拍度量。它是一个由七个核心部分构成的系统：短时存储器、长期存储器、上行树、下行树、链接、输入映射和输出映射。

2.1.1. STM和LTM处理器

短时存储器容量极小，仅能容纳一个“块”。长期存储器则由海量专用处理器构成，每个处理器都拥有独立的专长和内部记忆。其中一些特殊处理器，如世界模型处理器、内部语音处理器等，对于生成主观的“意识感”至关重要。

2.1.2. 上行树竞争与下行树广播

所有长期存储器处理器通过“上行树”结构竞争，试图将自己持有的信息块送入短时存储器。获胜的块会立即通过“下行树”结构广播给所有处理器。这种自下而上的竞争与自上而下的广播循环，与全局神经元工作空间假说描述的神经机制高度相似。

2.1.3. 块、有意识内容与意识流

信息以“块”为单位进行封装和传递。赢得竞争、成功入驻短时存储器的块，即成为CTM当前的有意识内容。当所有长期存储器处理器都接收到这个广播内容时，CTM便实现了对该内容的“有意识觉察”。意识流，就是由这一连串按时间顺序从短时存储器广播出去的块所构成的序列。

2.1.4. 链接与无意识沟通

处理器间的沟通最初都需要经过短时存储器。但如果两个处理器发现彼此的信息交流频繁且有效，它们之间就会形成直接的“链接”。此后，信息便可通过链接进行直接、高效的无意识传递，无需再参与意识舞台的竞争。链接的建立、强化与维持，与“全局点火”后形成的稳定神经通路概念相关。

2.1.5. 输入和输出映射

环境信息通过传感器传递给特定的输入处理器，并被转换为内部的“块”格式。反之，处理器的指令通过输出映射传递给执行器，从而对环境施加操作和影响。

2.1.6. 对连接的总结

在CTM中，信息主要通过五种路径传输：从环境到处理器、从处理器到短时存储器、从短时存储器到处理器、在处理器之间直接传递、以及从处理器到环境。

2.2. 脑语、要点与块

CTM使用一种名为“脑语”的丰富内部语言进行处理器间通信。脑语能够高效编码图像、声音、触觉乃至非符号化的抽象思想。信息在传输时被封装为“块”，每个块包含地址、时间戳、用脑语表达的“要点”、权重、强度和情绪标签等要素。块的大小必然受到计算复杂性理论的严格限制。

2.3. 概率性质的上行树竞争

上行树竞争是决定哪个处理器的块能进入短时存储器的核心机制。这是一个概率过程，每个块在沿树上行的过程中，其强度和情绪标签会不断整合来自树节点更全局的上下文信息。

2.4. 有意识感知的计算复杂性和时间延迟

更新竞争树中节点的信息需要计算开销，这些计算必须在极短的时间窗口内完成，这为单个块的信息容量以及每个节点能执行的计算复杂度设定了理论上限。

2.5. 记忆与高层存储

每个处理器都会在内部按时间顺序存储一系列信息元组，构成其私有“历史”。这种高层存储是CTM产生自我感知和自传体记忆的基础，也被用于构建梦境。通常，只有那些代表重大或意外事件的“显著”块会被筛选出来长期保留。

2.6. 预测动力学：预测、反馈与学习

CTM的核心运行机制是一个持续的预测循环：处理器不断做出关于世界和自身状态的预测，随后从广播、链接或环境中获得反馈，并据此学习以修正预测错误、减少意外。处理器使用一种名为“睡眠专家算法”的在线学习规则来动态调整自己提交信息的“积极性”参数。

2.7. CTM与GWT模型的比较

下图直观对比了CTM与Baars的GWT模型。CTM在GWT基础上做了关键简化与扩展：例如，舞台上始终只允许一个“演员”（一个块）出现；中央执行器的功能被分散到各个处理器；输入输出直接与特定处理器交互；竞争机制被明确定义为概率算法；并且，CTM特别强调了预测动力学、内部语言和计算复杂性约束等核心特性。

此外，CTM模型可以无缝整合外部技术工具（如笔记本、搜索引擎）作为其特殊的长期存储器处理器，这符合“扩展心智”的哲学理论。模型的控制权并非来自某个中央调度器，而是源于处理器间动态、竞争性的微观交互过程，这与哲学家丹尼特关于意识是“多重草稿”和“竞争性传播”的描述不谋而合。

3. 意识的感觉

CTM根据其架构定义是有意识的，但这并未解释主观的“意识感”如何产生。研究者认为，这种感觉主要源于其富有表现力的“脑语”，再结合其独特的架构、特定的特殊处理器以及持续的预测学习循环。

首先，多模态的脑语让CTM能够精细地感知和表征世界，包括梦境中的虚拟体验。其次，竞争与广播的架构，配合世界模型、内部语音、内部视觉等特殊处理器，共同构建了内在的“心灵之眼”和“自我模型”。最后，预测、反馈与学习的持续循环，让CTM不断检验和更新对世界的理解，正反馈带来掌控感和预期验证，负反馈（意外）则提示未知和探索需求。

那么，CTM如何获得关于“自我”的意识？关键在于世界模型处理器。它会将模型中那些能持续、可靠导致特定环境反馈的组成部分标记为“自我”。当CTM反身思考自身意识时，世界模型处理器就会将模型中的“CTM”实体标记为“有意识的”，并将这一判断广播。正是这种自我指涉的表征，构成了CTM认为自己拥有意识的基础。

4. 高层次的解释

基于CTM模型，我们可以对一系列与意识相关的现象给出统一的高层次计算解释。

4.1. 盲视

患者主诉看不见，却能完成视觉指引的动作。在CTM框架下，这可能是视觉处理器与意识舞台（短时存储器）之间的通路（上行树）受损。视觉信息无法进入意识被全局广播，但依然可以通过处理器间的直接“链接”，无意识地传递给负责运动控制的处理器，从而指导行为。

4.2. 无意盲视

当注意力高度集中于某项任务时，会完全忽略视野中意外的刺激（如“看不见的大猩猩”实验）。在CTM中，执行计数任务的处理器会给“白衬衫传球”信息分配极高的竞争强度，而给“黑色大猩猩”信息分配极低的强度，导致后者在概率竞争中几乎不可能胜出，从而无法进入意识。

4.3. 变化盲视

人们难以察觉场景中的显著变化。CTM的解释是，如果变化前后的场景能用同一个高度概括的“要点”来描述（例如“会议室里有演讲者和听众”），并且变化过程被中间掩蔽物巧妙中断，那么视觉处理器就不会产生“场景已变”的新信号，CTM也就无法“觉察”到变化。

4.4. 错觉

我们感觉感知到了完整的视觉场景，其实只处理了其中一小部分信息。这种“整体幻觉”源于脑语“要点”的高度暗示性和简洁性。一个精炼的要点就能激活一个复杂的场景表征，让我们的大脑自动“填充”细节，这被一些哲学家称为意识的“幻觉主义”或“填充”理论。

4.5. 梦的创造

CTM内置一个“睡眠处理器”，当它根据内部状态判定需要睡眠时，会通过提高自身信息块的竞争强度来“占据”意识舞台，并抑制大多数外部输入和输出，使CTM进入无梦的慢波睡眠。当睡眠需求降低，其他处理器（如“造梦处理器”）的块便有机会进入意识，形成梦境体验。

梦境之所以感觉真实，是因为造梦处理器调用了与清醒时相同的内部语言和处理器（如内部视觉、语音处理器），编造出的体验在表征层面与现实无异。梦境甚至可以成为一个安全的“模拟环境”，用于测试各种行为可能性的后果。

4.6. 自由意志

自由意志的古老悖论在于：哲学与科学理论似乎否定它，但我们的直接经验却强烈支持它。CTM提供了一个基于计算资源的视角：自由意志，是在有限的时间、算力、信息等资源约束下，一个系统计算不同行动路径的潜在后果并做出选择的能力。

当CTM面临决策时（如下棋走子），相关的问题会在意识中浮现，引发内部处理器的广泛模拟、讨论与竞争。最终，一个建议会胜出并进入意识。CTM能意识到自己进行了思考和高层决策，但对大部分无意识的、通过链接并行进行的计算过程并不知晓。正是这种对决策过程的部分知晓与部分无知，结合“决策源自我内部”这一事实，共同催生了自由意志的主观感觉。

关键在于，这种解释并不依赖于真正的物理随机性。即使在一个完全确定性的CTM（使用伪随机数生成器）中，这种自由意志的感觉依然会产生。这意味着，即使底层物理世界是决定论的，拥有像CTM这样复杂架构和有限知识的系统，依然可能从第一人称视角体验到“自由”的选择感。