卡内基梅隆大学AI推理新突破:神经网络稳定点解题法解析
卡内基梅隆大学团队的这项研究以预印本形式于2026年5月20日发表在arXiv平台(编号arXiv:2605.21488v1),属于机器学习方向。
从数独题切入:神经网络如何通过稳定点解题
试过在脑海中解数独吗?起初一片空白,但随着填入几个数字,推导几步后,整个棋盘突然“咔哒”一声锁定,所有位置各就各位。这种“咔哒”感,正是这项研究的核心。
卡内基梅隆大学的研究者发现,训练神经网络求解数独或迷宫等复杂逻辑谜题时,网络内部实际上在寻找一种类似“咔哒”感的东西——稳定的平衡状态,即“吸引子”。他们提出的方法名为平衡推理器(Equilibrium Reasoner,简称EqR),核心在于:真正的泛化推理能力来自模型学会在内部建立动态系统,让正确答案成为系统自然流向的“低谷”。
近年来,AI领域持续探索一个关键方向:测试时增加计算资源能否提升模型输出质量?从下棋AI到逐步推理的大语言模型,研究者发现“多想一会儿”确实有效。但问题在于,并非所有模型都能从中受益,有时多想反而更差。背后的原因是什么?让模型“越想越好”需要怎样的内在机制?这正是卡内基梅隆团队要回答的问题。
推理即“滚球找低谷”:动态系统视角
用一个物理比喻理解这套框架:想象起伏不平的山地,高峰低谷密布。将一颗球放在某处,它会顺着地形滚动,无论起点在哪,只要落在低谷附近,最终都会滚进那个低谷并停稳——这些低谷就是“吸引子”。
研究团队将神经网络的推理过程视为完全类似的动态系统。网络内部有一个“潜在状态”(即网络正在思考的中间结果),每次经过网络处理,状态就向某个方向移动一步。若网络训练得当,正确答案对应的状态会成为地形上的“低谷”——不论起点如何,随着步骤更新,状态都会向正确答案滚动。
正式来说,这套框架的核心是一个迭代更新规则:新潜在状态等于将当前潜在状态与输入数据一起喂给同一网络模块后得到的输出。每次更新相当于球在地形上滚动一步。研究者称此为“权重共享的迭代动态系统”。
与传统的“深层前馈网络”(即多层级联、每层只使用一次的结构)相比,迭代方式的根本区别在于:同一模块反复处理,逐步精炼状态,而非一次性做完。实验数据直接展示了差距——在极难数独基准(Sudoku-Extreme)上,64层传统前馈网络准确率仅2.6%,而采用迭代的平衡推理器在扩展推理计算后可达99%以上。这就像用计算器反复验算与心算一次的区别:前者能不断修正错误,后者只能依赖第一印象。
四种地形决定“多想一会儿”是否有效
研究团队不满足于证明迭代的优势,还进一步分析了“地形”可能呈现的四种典型形态,每种形态直接决定了增加推理计算能否带来收益。
第一种:地形上完全没有对应正确答案的低谷。无论球滚到哪里,都落入错误低谷。此时多想多久都是错,额外计算无济于事,甚至越算越偏。这对应模型根本未掌握解题本质规律,所有“推理”都在错误地形上盲目游走。
第二种:地形上既有正确答案的低谷,也有错误答案的低谷,且两者都相当稳定。球可能滚入正确或错误低谷,取决于起点。此时“从更多不同起点出发、多滚几次”(广度扩展)很有帮助,因为多试几次总有一次能落入正确低谷。
第三种:正确答案的低谷只有一个且极窄,像一条细缝。球容易滑过而掉不进去。广度扩展(多试几次)可提高命中率,深度扩展(每次多滚几步)能帮助恰好靠近的轨迹真正落入低谷,但总体收益受限于低谷宽度。
第四种:最理想的地形——正确答案的低谷又宽又深,对应正确解的区域几乎占据大部分地形,错误低谷要么不存在要么很浅。此时无论从哪里出发,球都容易滚入正确低谷,且深度扩展能让球更精确地落到谷底。这种地形下,“多想一会儿”的收益最稳定、最可预期。
研究团队通过实验,将512个随机起点的轨迹可视化(高维状态空间压缩至二维),在真实数独任务数据中确实发现了这四种形态。这意味着对于同一模型,不同数独题对应不同地形状态:有些题是第四种(轻松找到答案),有些是第二种(容易跑偏),甚至有些是第一种(根本没救)。
残差:衡量是否到达低谷的精确标尺
在这一框架中,研究者需要一个具体数值来衡量球是否接近低谷。他们使用的指标是“固定点残差”——简单说,将当前状态再次输入网络,看输出与输入的差距。如果处理前后几乎一致,说明状态稳定,球已到低谷;差距很大,则球还在滚动。
残差值越低,收敛效果越好。研究团队发现一个关键规律:经良好训练的模型上,残差值的下降与答案准确率的提升几乎同步——图1直观展示了这一点:纵轴为准确率,横轴为残差值,随迭代次数(颜色编码)增加,两者同步向优演进。这说明残差可作为可靠信号,无需知道正确答案,仅凭残差就能判断模型是否朝正确答案收敛。
这一特性极具实用价值。实际部署中,我们不可能总知道正确答案(否则何需AI?)。但可实时观察残差,了解模型是否“想清楚了”。后文将看到,研究者用此信号选择最佳推理结果,效果出色。
两种扩展策略:深挖与广撒网
确立理论框架后,研究团队提出两种扩展推理计算的具体策略,类似挖矿:往一个矿洞挖得更深,或同时开挖多个矿洞。
深度扩展(Depth Scaling):对同一推理轨迹增加迭代次数,即让球在地形上滚动更多步。训练时模型最多迭代16步,但测试时可扩展到64步、256步乃至1024步——相当于将模型等效展开至4万多层。实验表明,即使训练时从未见过超过16步的迭代,测试时扩展到1024步依然有效,因为地形的稳定结构赋予了迭代泛化能力。
广度扩展(Breadth Scaling):从多个不同随机起点同时出发,独立进行多条推理轨迹,然后选出最佳结果。好比同时让多个球从不同位置出发,只要有一个落入正确低谷即成功。研究者将这个数量标记为B,可从1增加到128甚至更多。
两种策略的配合存在有趣的规律:广度扩展的效果依赖于深度扩展达到足够程度。具体而言,当每条轨迹的迭代步数太少(如仅2步)时,增加轨迹数量几乎没有帮助;但当每条轨迹至少有4步以上时,增加轨迹数量开始显现明显收益。形象理解:如果每个球只滚两步就停,根本没时间接近任何低谷,多放几个球也无意义。但若每个球能滚足够多步,总有一个会命中正确低谷。
在最终实验中,结合深度扩展(64步)和广度扩展(128条轨迹),平衡推理器在极难数独上达到99.8%的精确准确率,在迷宫任务上达到93.0%,大幅领先此前所有迭代推理模型,包括HRM(数独55%)、TRM(数独84.8%)和URM(数独77.6%)。
如何训练出优质地形:两个关键技巧
知道好地形的模样后,下一个问题自然是:怎样训练模型才能产生这样的地形?研究团队提出两个简单但有效的训练技巧,无需任何外部验证器或任务专用先验知识,属于完全通用的方法。
第一个技巧:随机状态初始化(RI)。传统迭代推理模型在训练时,每次推理轨迹从同一个固定初始状态出发。这好比训练一个球手,每次练习都从同一个起点扔球,他只学会从那一个位置发力,换个起点就手足无措。随机初始化则每次训练从随机采样的起点出发,迫使模型学会从各种不同起点找到正确低谷,从而使正确低谷的吸引域更加宽广。
从理论上看,该技巧做了两件事:其一,扩大了训练时探索的状态空间范围,降低了训练仅聚焦局部区域、导致正确低谷区域过于狭窄的风险;其二,同一道题在不同起点下都必须给出一致正确答案,模型被迫让不同轨迹的最终结果保持一致——这种“路径独立性”恰恰是宽广稳定低谷的表现。实验中,仅加入随机初始化一项,迷宫任务准确率就从44.9%跃升至68.6%,提升幅度相当可观。
第二个技巧:噪声注入(NI)。在每次迭代更新时,向状态中添加少量随机高斯噪声,相当于让球在滚动过程中时不时轻轻抖动。这个“抖动”的作用是防止球过早被浅薄的错误低谷捕获,给球跳出局部陷阱的机会,同时也让正确低谷的边界变得更平滑易进入。研究团队发现,适度的阻尼系数(λ=0.05)配合小量路径噪声(β=0.01)的组合效果最佳。测试阶段还可适当加大噪声强度来增强探索性,类似温度控制。
结合两个技巧后,迷宫任务准确率进一步提升至82.2%,且模型的路径独立性(不同随机起点得到一致答案的能力)大幅增强。在数独任务上,对128个随机起点的残差最小轨迹进行选择的方法(Top-1收敛选择),在加入这两个技巧后变得比多数投票更准确——这在添加技巧之前无法实现,因为此前残差与正确性之间缺乏足够可靠的对应关系。
从普通网络到迭代推理器的完整修炼路径
研究团队不仅提出了最终方法,还系统研究了每一步改动分别贡献了多少。这个完整路径可从“只会死记硬背的学生”成长为“真正会推理的解题高手”来理解。
出发点是一个标准42层前馈神经网络,在极难数独上准确率仅2.6%。该模型的问题不是“想错了”,而是“根本没在想”——它只是用巨大记忆力对照训练集里见过的题型,未见过则直接失败,准确率暴露了其本质是在记忆而非推理。
第一步改造:权重共享(Weight Tying)。将42层独立网络替换为2层参数共享网络重复迭代21次,参数量从约1.06亿降至约503万,准确率却从2.6%跃升至32.6%。这一步的意义在于:重复使用同一模块创造了真正的迭代动力学,让网络有机会通过反复更新逼近稳定解,而非一次性完成所有工作。
第二步:加入分段在线训练(Segmented Online Training, SOT)并将迭代深度扩展至16倍。单纯拉长轨迹而不设计好的训练策略,效果有限。研究团队系统比较了三种训练方式:仅在最后一步监督(终端损失)、在轨迹多个位置监督但只更新一次参数(轨迹监督)、以及在轨迹每个片段结束时立即更新参数并带着更新后的参数继续下一片段(分段在线训练)。实验表明,第三种方式远优于前两种,在相同迭代深度下将准确率从47.1%提升至74.7%。原因在于分段在线训练让网络参数在轨迹演化过程中不断调整,后续片段始终在最新版本参数下运行,避免了“用旧地图走新路”的问题。
第三步:加入层次化迭代(Hierarchical Iterations)。该设计在状态空间中引入高层潜在状态和低层潜在状态,两者以不同频率更新,形成快慢两个节奏的嵌套循环。它带来了一定提升(从74.7%到75.4%),但效果与具体训练配置高度相关,在某些条件下层次化反而不如单状态效果好,研究团队未将其作为普适的必要组件。
第四步:加入自适应计算时间(Adaptive Computation Time, ACT)机制,让模型学会“这道题想清楚了就可以停,不必凑够最大步数”。该机制给模型增加了一个“卤门”(Halting Head),预测当前状态是否已收敛。训练时,已解决的样本提前退出,未解决的样本继续迭代,从而将更多训练计算分配给更难的题目。加入此机制后,准确率从75.4%提升至84.8%。
有一个反直觉的发现值得单独说明:如果将“是否已解决”的正确答案直接作为停止信号(即“先知停止”),模型准确率反而从75.4%崩溃至13.6%。原因是使用真实正确答案作为停止信号,会让模型在训练时过拟合——它学会了尽快满足停止条件,而不是学会真正解题。相比之下,训练一个预测停止信号的学习头,即使在训练时不实际用于提前退出,也能通过这个辅助任务有效抑制过拟合。
推理效率大幅提升:自适应计算的威力
到目前为止,扩展计算的逻辑是“任何题目都用固定计算预算”。但研究团队进一步探索了更聪明的方案:根据每道题的难度动态分配计算量,简单的题快速解决,难的题重点关照。
在推理阶段,研究团队使用固定大小的推理队列:已停止迭代的样本立即被新样本替换,保持硬件高利用率,同时保证每个样本都按自己需要的步数进行推理。
实验结果展示了自适应计算的显著效率优势。以迭代深度D=1024为例,不使用自适应停止时,每道题平均需要1024次迭代,准确率为96.1%;加入自适应停止后,平均仅需58.7次迭代,准确率为95.3%,效率提升约17.4倍,准确率仅损失不到1个百分点。在更直观的对比实验中,以达到92.99%准确率为目标,基准模型平均需要240.9次迭代,而平衡推理器只需64次(提效3.76倍),再加入自适应计算后进一步降至21.2次(提效11.34倍)。这意味着同等精度下,使用平衡推理器加自适应计算仅需基准模型十分之一左右的计算量。
迷宫任务的关键教训:数据定义决定地形能否形成
研究团队在迷宫任务上遭遇了一段曲折,这段经历揭示了一个更深层的道理:要让正确的吸引子地形形成,不仅需要好的模型设计,更需要正确定义“什么是正确答案”。
原始迷宫数据集(Maze-1k)中,大多数迷宫从起点到终点有多条等长最短路径,但训练数据里每个迷宫只标注了其中一条。这好比教学生“从A到B最短路径是左拐右拐再直走”,但实际上也可以走另一条等长路线,而你却将走另一条路记为错误。学生被迫接受一个任意、自相矛盾的标准,当然学不出一致规律,更无法形成稳定推理模式。
在这种“伪一对一”的错误数据定义下,迭代模型无法建立稳定吸引子地形,测试时增加迭代次数非但不能提高准确率,反而可能使准确率下降或停滞。研究者将此理解为:多个正确答案在地形上对应多个竞争低谷,但训练损失只承认其中一个,导致其他正确低谷成为“惩罚区域”,整片地形扭曲成无法稳定收敛的混乱状态。
为解决这个问题,研究团队专门构建了一个新版迷宫数据集Maze-Unique。该数据集中每个迷宫都保证最短路径唯一——通过生成完美迷宫(整个网格是一棵树,任意两点之间只有一条简单路径)并筛选具有特定长度范围的起终点对来实现。在这个干净定义的数据集上,迭代模型的吸引子地形得以正常形成,增加计算量可稳定提升准确率,随机初始化和噪声注入等技巧也开始显现预期效果。
这个教训对整个AI推理领域具有参考价值:如果训练数据本身的标注与任务的真实结构不匹配(例如在一对多任务中强行使用一对一监督),任何模型改进都难以从根本上解决问题。
平衡推理器如何比肩乃至超越同类最强模型
最终的完整系统——结合权重共享迭代、分段在线训练、层次化状态、自适应计算时间、随机初始化和噪声注入——被研究团队称为平衡推理器(EqR)。在Sudoku-Extreme和Maze-Unique两个任务上,其表现在各个对比维度均优于此前发表的同类模型。
在数独任务上,此前最好结果来自TRM(准确率84.8%),HRM为55%,URM为77.6%,传统前馈网络最高仅2.6%。平衡推理器在基础配置下(16步,单轨迹)达到86.4%,扩展至64步达到93%,结合128条轨迹达到99.8%。在迷宫任务上,TRM基准准确率44.9%,URM为51.4%,平衡推理器基础配置下达到82.2%,扩展后达到93%。
更值得注意的是,平衡推理器仅使用约503万参数的极小模型(相比之下HRM约2700万参数,URM约1367万参数),却在所有指标上大幅领先。这说明效果提升主要来自训练策略和推理策略的改进,而非简单堆砌模型规模。
研究团队还验证了这套方法的泛化性。在Mini-ARC(涉及抽象规则归纳的视觉推理任务)上,平衡推理器同样优于HRM(44.85%对比55.28%)和TRM(48.35%对比55.28%)。将MLP-Mixer骨架替换为自注意力Transformer骨架后,所有技巧依然有效,说明这套框架不依赖特定网络结构。在跨五个随机种子的稳定性测试中,平衡推理器准确率为86.18%±0.44%,而基准模型为84.33%±0.59%,表明它不仅均值更高,稳定性也更强。
总的来说,这项研究为“为什么有些AI越想越好,有些AI越想越差”给出了清晰的解释框架,并将此框架转化为可操作的训练方法和评估手段。核心洞见是:推理不是在内存中查表,而是在某种内部地形上寻找稳定低谷。正确答案必须对应够宽够深的低谷,而不能只是某个随机标注出来的位置。训练的目的是将地形雕刻成这个样子,测试时增加计算量的目的是让球滚进那个低谷。
对于AI领域之外的普通人,这项研究意味着未来的AI助手在遇到复杂问题时,可能会给出更可靠的信号:它真的“想清楚了”还是只是随便给了个答案。而且这种“想清楚了”的状态是可检测的——无需你自己验证答案,AI自身就能通过内部一致性信号告诉你它有多少把握。
这也引出了一个有意思的思考:我们通常说人类做题时“心里没底”或“越来越有把握”,这与AI内部残差值的收敛在结构上是否存在某种深刻类似?当然,卡内基梅隆大学的研究者们目前只在数独和迷宫这类结构化任务上验证了这套框架,真实世界中语言推理、创意生成等更模糊的任务能否用同样方式理解,仍是一个开放问题。
Q&A
Q1:平衡推理器(EqR)如何让模型“越算越准”?
平衡推理器的核心是让神经网络内部形成一种动态系统,正确答案对应系统的“稳定低谷”(吸引子)。每次迭代更新就像让球在地形上滚动一步,滚得越多越趋近低谷,也就越接近正确答案。当模型内部状态不再明显变化(残差降低)时,说明到达低谷,推理完成。这与传统神经网络一次性得出答案的方式有本质区别。
Q2:数独任务上传统深层神经网络准确率仅2.6%,为何换成迭代方式能到99%?
传统前馈网络依赖记忆训练数据中的模式,遇到未见过排列即失效,本质上是“背题”。迭代方式允许模型在内部反复修正和推理,从不完整答案逐步修正到完整答案,类似人类解数独时“填了验证、不对再改”的过程。加上训练技巧使正确答案区域成为宽广稳定的吸引域,越多迭代就越能稳稳落入正确答案,因此扩展计算有效。
Q3:为何Maze-1k数据集导致迭代模型失效,而Maze-Unique不会?
Maze-1k中很多迷宫有多条等长最短路径,但训练数据只标注了一条,导致模型被教导“其他等效答案都是错的”。这破坏了内部地形结构——多个正确答案本应各自为低谷,却被损失函数惩罚,使地形混乱、无法形成稳定吸引子。Maze-Unique保证每道题只有唯一最短路径,监督信号与任务结构对齐,模型才能学出一致、可稳定收敛的内部地形。
