LLM中层模拟人脑进化：大模型智能涌现新发现

2026-06-19阅读 0热度 0

生物智能与人工智能的演化路径截然不同，但这是否意味着两者在计算原理上注定分道扬镳？

最近，来自帝国理工学院和华&为诺亚方舟实验室的研究人员发现，大型语言模型（LLM）在学习过程中，竟然会自发演化出一种名为“协同核心”的结构——从信息处理模式上看，这与生物大脑的组织方式有着惊人的相似性。

论文标题：A Brain-like Synergistic Core in LLMs Drives Beha viour and Learning
论文地址：https://arxiv.org/abs/2601.06851

研究团队运用了一套名为“部分信息分解”的分析框架，对Gemma、Llama、Qwen和DeepSeek等主流模型进行了深度剖析。结果很明确：这些模型的中层表现得格外“聪明”，协同处理能力极强，而底层和顶层则更多是在做冗余处理——换句话说，模型的“大脑”深处藏着一个类似核心的区域，用来整合复杂信息，而外围则负责感知和执行。

协同与冗余：LLM的内部架构

简单来说，这项研究的实验设计，是想搞清楚模型内部的各个模块之间到底是怎么配合的。为此，研究者挑了几款代表性模型，包括Gemma 3、Llama 3、Qwen 3 8B和DeepSeek V2 Lite Chat，进行交叉对比。

实验方法上，研究者向这些模型抛出了一系列认知任务，包括语法纠错、逻辑推理、常识问答等，共6个类别。对于每个提示词，模型会生成100个Token的回答，实验设备则同步记录下每一层中所有注意力头或专家模块的激活值。具体操作是：计算这些输出向量的L2范数，作为该单元在特定时刻的激活强度。

接着，研究者采用了一种叫“整合信息分解”的分析工具，将这些注意力头两两之间的交互，拆解成“持续性协同”和“持续性冗余”等不同的原子项。通过对所有注意力头对的协同值和冗余值进行排序并求差，就得到了一个关键指标——协同-冗余秩。这个指标可以很清晰地告诉我们：某个组件在处理信息时，是在独立干活，还是在和别的单元深度配合。

实验结果揭示了非常有趣的规律。在不同架构的模型中，协同分布呈现出高度一致的“倒U型”曲线：

所谓“冗余外周”，指的是模型早期层（靠近输入）和末期层（靠近输出）协同秩很低，信息处理以冗余模式为主。早期层主要负责解词元化和局部特征提取，好比在拆解原始词汇；而末期层则对应着Token预测和输出格式化，相当于把最终答案整理好。中间层则构成了一个“协同核心”——这里协调性极高，是模型进行高级语义集成和抽象推理的地方。拿Gemma 3 4B的热图来说，中间层的注意力头之间会形成密集而强烈的协同交互，这是模型真正“想问题”的区域。

更令人意外的是，这种“协同核心”并非某个架构的独门绝技。即便在DeepSeek V2 Lite这种采用“专家模块”而非传统注意力头的模型中，研究者也观察到了完全相同的分布特征。跨架构的一致性说明，协同处理很可能是一种实现高级智能的“计算刚需”，而不是工程上的巧合。

这个模式与人脑生理结构形成了精确的映射：大脑的感官和运动区域冗余很高，而负责复杂认知功能的联合皮层则处于高协同的“全局工作空间”中心。

智能的涌现：学习驱动而非架构使然

一个关键问题浮现出来：这种结构到底是Transformer架构自带的，还是通过后天学习习得的？

研究者拿Pythia 1B模型做了训练过程分析，结果发现：在随机初始化的网络中，那种“倒U型”的协同分布根本不存在。随着训练步数增加，这种组织架构才逐渐稳定地形成。

也就是说，协同核心不是天赋，而是大模型真正“学有所成”的标志。

从拓扑性质来看，协同核心的特点是“全局效率”极高，适合信息快速整合；而冗余外周则表现出更强的“模块化”，适合专门化处理。这种特性再次与人类大脑的网络架构形成了精确的平行关系。

协同核心的功能验证

为了确认协同核心是不是真的在驱动模型行为，研究团队做了两类干预实验：消融实验和微调实验。

先说消融实验。当研究者消掉那些高协同性的节点时，模型的表现出现了灾难性的下降，甚至行为都开始“跑偏”，影响远超随机消融或消融冗余节点。这等于直接证明：协同核心就是模型智能的“心脏”。

另一类实验是微调。在强化学习微调（RL FT）场景下，如果只针对协同核心进行训练，性能提升明显优于针对冗余核心或随机子集的训练。有意思的是，在监督微调（SFT）中，这种差异并不显著。研究者认为，这恰恰反映了两种学习方式的本质差别：RL更擅长推动通用化能力，而SFT则更侧重于记忆。

结语

这项研究为大模型的可解释性打开了一条新路径。它告诉我们，可以从“自上而下”的信息论视角来理解模型，而不必总是“自下而上”地去找那些特定的电路。

对AI领域来说，识别出协同核心，将有助于设计更高效的压缩算法，或者通过更有针对性的参数更新来加速训练。而对于神经科学，这提供了一种计算上的验证，表明协同回路在强化学习和知识迁移中可能扮演着至关重要的角色。

大模型毕竟构建在硅基芯片和反向传播算法之上，但在追求智能的道路上，它们似乎不约而同地走向了和生物大脑相似的组织模式。这种智能演化的趋同性，或许正是解开通用智能之谜的关键线索。

LLM中层模拟人脑进化：大模型智能涌现新发现

协同与冗余：LLM的内部架构

智能的涌现：学习驱动而非架构使然

协同核心的功能验证

结语

相关阅读

最新教程

最新资讯