LLM中层模拟人脑进化:大模型智能涌现新发现

2026-06-19阅读 0热度 0
ai

生物智能与人工智能的演化路径截然不同,但这是否意味着两者在计算原理上注定分道扬镳?

最近,来自帝国理工学院和华&为诺亚方舟实验室的研究人员发现,大型语言模型(LLM)在学习过程中,竟然会自发演化出一种名为“协同核心”的结构——从信息处理模式上看,这与生物大脑的组织方式有着惊人的相似性。

论文标题:A Brain-like Synergistic Core in LLMs Drives Beha viour and Learning
论文地址:https://arxiv.org/abs/2601.06851

研究团队运用了一套名为“部分信息分解”的分析框架,对Gemma、Llama、Qwen和DeepSeek等主流模型进行了深度剖析。结果很明确:这些模型的中层表现得格外“聪明”,协同处理能力极强,而底层和顶层则更多是在做冗余处理——换句话说,模型的“大脑”深处藏着一个类似核心的区域,用来整合复杂信息,而外围则负责感知和执行。

协同与冗余:LLM的内部架构

简单来说,这项研究的实验设计,是想搞清楚模型内部的各个模块之间到底是怎么配合的。为此,研究者挑了几款代表性模型,包括Gemma 3、Llama 3、Qwen 3 8B和DeepSeek V2 Lite Chat,进行交叉对比。

实验方法上,研究者向这些模型抛出了一系列认知任务,包括语法纠错、逻辑推理、常识问答等,共6个类别。对于每个提示词,模型会生成100个Token的回答,实验设备则同步记录下每一层中所有注意力头或专家模块的激活值。具体操作是:计算这些输出向量的L2范数,作为该单元在特定时刻的激活强度。

接着,研究者采用了一种叫“整合信息分解”的分析工具,将这些注意力头两两之间的交互,拆解成“持续性协同”和“持续性冗余”等不同的原子项。通过对所有注意力头对的协同值和冗余值进行排序并求差,就得到了一个关键指标——协同-冗余秩。这个指标可以很清晰地告诉我们:某个组件在处理信息时,是在独立干活,还是在和别的单元深度配合。

实验结果揭示了非常有趣的规律。在不同架构的模型中,协同分布呈现出高度一致的“倒U型”曲线:

所谓“冗余外周”,指的是模型早期层(靠近输入)和末期层(靠近输出)协同秩很低,信息处理以冗余模式为主。早期层主要负责解词元化和局部特征提取,好比在拆解原始词汇;而末期层则对应着Token预测和输出格式化,相当于把最终答案整理好。中间层则构成了一个“协同核心”——这里协调性极高,是模型进行高级语义集成和抽象推理的地方。拿Gemma 3 4B的热图来说,中间层的注意力头之间会形成密集而强烈的协同交互,这是模型真正“想问题”的区域。

更令人意外的是,这种“协同核心”并非某个架构的独门绝技。即便在DeepSeek V2 Lite这种采用“专家模块”而非传统注意力头的模型中,研究者也观察到了完全相同的分布特征。跨架构的一致性说明,协同处理很可能是一种实现高级智能的“计算刚需”,而不是工程上的巧合。

这个模式与人脑生理结构形成了精确的映射:大脑的感官和运动区域冗余很高,而负责复杂认知功能的联合皮层则处于高协同的“全局工作空间”中心。

智能的涌现:学习驱动而非架构使然

一个关键问题浮现出来:这种结构到底是Transformer架构自带的,还是通过后天学习习得的?

研究者拿Pythia 1B模型做了训练过程分析,结果发现:在随机初始化的网络中,那种“倒U型”的协同分布根本不存在。随着训练步数增加,这种组织架构才逐渐稳定地形成。

也就是说,协同核心不是天赋,而是大模型真正“学有所成”的标志。

从拓扑性质来看,协同核心的特点是“全局效率”极高,适合信息快速整合;而冗余外周则表现出更强的“模块化”,适合专门化处理。这种特性再次与人类大脑的网络架构形成了精确的平行关系。

协同核心的功能验证

为了确认协同核心是不是真的在驱动模型行为,研究团队做了两类干预实验:消融实验和微调实验。

先说消融实验。当研究者消掉那些高协同性的节点时,模型的表现出现了灾难性的下降,甚至行为都开始“跑偏”,影响远超随机消融或消融冗余节点。这等于直接证明:协同核心就是模型智能的“心脏”。

另一类实验是微调。在强化学习微调(RL FT)场景下,如果只针对协同核心进行训练,性能提升明显优于针对冗余核心或随机子集的训练。有意思的是,在监督微调(SFT)中,这种差异并不显著。研究者认为,这恰恰反映了两种学习方式的本质差别:RL更擅长推动通用化能力,而SFT则更侧重于记忆。

结语

这项研究为大模型的可解释性打开了一条新路径。它告诉我们,可以从“自上而下”的信息论视角来理解模型,而不必总是“自下而上”地去找那些特定的电路。

对AI领域来说,识别出协同核心,将有助于设计更高效的压缩算法,或者通过更有针对性的参数更新来加速训练。而对于神经科学,这提供了一种计算上的验证,表明协同回路在强化学习和知识迁移中可能扮演着至关重要的角色。

大模型毕竟构建在硅基芯片和反向传播算法之上,但在追求智能的道路上,它们似乎不约而同地走向了和生物大脑相似的组织模式。这种智能演化的趋同性,或许正是解开通用智能之谜的关键线索。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策