斯坦福AI研究揭秘：大模型为何连数手指都出错？深度解析与权威榜单

2026-05-17阅读 0热度 0

斯坦福大学

斯坦福大学电气工程系在2026年5月于arXiv（编号arXiv:2605.02028）发布的一项预印本研究，揭示了一个基础却关键的问题。研究团队设计了一项看似简单的“数数”测试，结果暴露了当前大型语言模型在执行确定性规则时存在根本性缺陷。

一个值得深思的现象是：能够生成复杂代码、解决数学证明、分析长篇文献的AI助手，却可能在“数清一串字母”这样的基础任务上彻底失败。这种失败并非误差累积，而是在某个临界点后突然崩溃，输出“500”或“1000”这类整数，如同一个孩子数完手指后开始随意报数。这直接指向了AI能力本质的核心疑问。

斯坦福的研究者指出，AI在各种标准化测试中表现卓越，但这种“卓越”究竟源于对逻辑规则的真实理解，还是对数据模式的统计模仿？为了探究真相，他们设计了一个剥离所有语义干扰的极简测试：让AI统计一串重复字母的数量。任务不涉及任何外部知识，仅需机械执行“加一”操作。测试结果发人深省：所有参与测试的一百多个模型版本，均在某个特定长度上突然失效，而这个“崩溃点”远低于模型官方宣称的文本处理上限。

为什么数数能揭露AI的真面目

要评估这项研究的价值，需要先审视常规AI评测的局限性。

主流评测方法通常基于知识问答、代码生成或科学推理。这些测试固然重要，但存在一个根本性问题：正确回答可能源于训练数据中的模式匹配，而非对底层规则的掌握。这好比判断学生是否掌握物理定律，不能仅凭其能否复述例题答案。

研究者将此类测试归类为“知识依赖型评测”。其核心缺陷在于，当模型在海量相关语料上训练后，它完全可以“表演”出理解的样子，使得真实能力难以辨别。

与此相对，他们提出了“纯机械测试”的概念。这类测试规则极其简单（如计数），输入是人工合成的无意义序列，输出要求精确数字。关键在于，测试用例可以无限生成，彻底杜绝了模型依靠记忆答案过关的可能性。数数，正是这类测试的理想原型。

数数的规则唯一且明确：“每遇到一个元素，计数加一”。输入是“a, a, a, a, ...”这样的无意义重复。模型需要做的，仅仅是从头到尾执行这条规则并输出结果。如果它能稳定做到，说明它确实在执行规则；如果不能，那么它在其他复杂任务中表现出的“规则遵循能力”，其可靠性就值得重新评估。

测试设计：一把步步升高的“梯子”

研究者将这套测试命名为“稳定计数能力”评估。其设计如同逐级升高的阶梯：模型若能稳定数清某一长度区间的序列，就挑战更长的序列，直至其无法稳定给出正确答案。

具体流程是，测试从约32个字母的序列开始。在此长度档位，研究者会随机生成16个长度在基准值上下20%范围内波动的序列让模型计数。如果模型在16次尝试中，每次答案误差都在5%以内，则视为在该长度“稳定通过”，随后序列长度翻倍，继续测试。若模型在某个长度失败，则在其最后通过与最早失败的长度间进行二分搜索，精确找出其“数数极限”，即“计数容量”。

这个设计的精妙之处在于，由于每次测试的序列长度随机波动，模型无法通过猜测“大概范围”来蒙混过关。即便崩溃后它习惯性输出“500”，也会因为正确答案可能是83或117而频繁出错，无法在任何档位稳定通过。

为了全面评估，研究团队测试了超过126个不同的模型版本，涵盖OpenAI的GPT系列、Anthropic的Claude系列、Google的Gemini系列以及多个主流开源模型。整个测试的API成本仅约200美元，堪称一次高性价比的“能力压力测试”。

所有AI都有数数上限，且出乎意料地低

测试结果迫使我们重新校准对AI能力的认知。

所有被测试的模型，无一例外地存在明确的“崩溃点”，超过此点，精确计数便无法维持。更关键的是，这个崩溃点远低于模型官方宣传的“上下文窗口”大小——即它们声称能一次性处理的最大文本量。

例如，某些模型的上下文窗口宣称可达数十万甚至百万字符，但其计数容量可能仅有几百，甚至不足一百。这表明，AI能够“读取”长文本中的每一个字符，与它能够“可靠地”对字符执行精确的计数操作，是两种截然不同的能力。处理长文本与在长文本中精确执行规则，存在本质区别。

不同模型的表现差异显著。总体趋势是，更新的模型通常能数到更大的数字，但即便是最前沿的顶级模型，也都在远低于其宣传上下文长度的地方宣告失败。这就像一个自称能背诵整部小说的人，却无法数清某一页上有多少个单词。

崩溃模式：非渐进偏离，而是突然坠崖

AI在崩溃时的行为模式更具揭示性。

如果AI使用的是某种近似估算策略，那么随着序列变长，其误差应呈现渐进式增大。然而事实恰恰相反：在崩溃点之前，AI的表现近乎完美；一旦超越临界长度，其输出便如坠崖般跳转到完全错误的数字。

研究者观察到，当AI失去计数能力后，并非进行随机猜测，而是倾向于输出一些“规整”的数字，如500、1000、2000。这些数字在自然语言中常被用来指代“大量事物”。也就是说，当AI无法遵循规则时，它会退回到基于语言统计的“常识性大数字猜测”模式。

将所有模型的数据叠加分析后，这种“崩溃前完美、崩溃后乱猜”的模式具有普遍性。而且，崩溃后的错误答案在分布图上呈现出明显的水平条纹——大量答案聚集在500、1000等整数附近——这种分布不像随机误差，更像是AI在内部调用一个“常见大数字”的列表。

在所有测试中，有约5%的尝试（9797次中有501次）甚至未能输出有效数字，而是返回了空白、重复输入、代码格式或莫名其妙的“推理过程”。这表明，一旦计数状态崩溃，连“输出一个数字”这类最基本的指令遵循能力也会受到连带影响。

符号与格式：微调即变的表现

研究者还进行了一项关键变体测试：改变序列中的字符或分隔符号。

原始测试使用小写字母“a”加逗号分隔。当尝试将字母更换为其他字母、数字、希腊字母、中文字符，或将逗号换为空格、竖线、分号时，许多模型的计数容量发生了显著且不规则的变化，这种变化与输入token数量（模型处理文本的基本单位）的变化并不完全对应。

这一发现意味着什么？它表明AI的计数能力并非建立在抽象、通用的“计数规则”表征之上，而是与具体的符号、输入格式高度耦合。不同的字符和标点会激活不同的内部处理路径，每条路径各有其独立的容量上限。好比一个人数苹果能数到100，数橘子却只能到50——若真正理解“计数”这一抽象操作，对象更换不应影响能力；但若只是依赖对特定模式的记忆，对象一变能力就会瓦解。

资源共享：数数与复杂任务争夺同种有限资源

为了验证计数所使用的内部资源是否与其他认知任务共享，研究者设计了一组“双任务干扰实验”。

实验方法是让AI同时执行两项任务：一边数序列中某个字母的数量，一边回答一道来自真实基准测试的题目（涉及推理、编程、数学或知识问答）。随后，比较这种“双任务”模式下的计数误差与单独计数时的误差。

结果非常清晰：当AI需要同时处理推理或编程任务时，其计数准确度显著下降，误差远高于单独计数。相比之下，如果只是让AI阅读一段同等长度的无意义随机代码，对计数的干扰则小得多。更有趣的是，若让AI同时数两个不同字母的数量（一个更复杂的计数任务），其对计数准确度的干扰反而小于复杂推理任务。

这说明，干扰主要源于任务对认知资源的消耗程度，而非仅仅是任务长度。推理和编程这类需要大量内部状态来维护中间结果和逻辑关系的任务，与数数竞争同一种有限的“工作记忆”资源，从而导致计数表现下降。

窥探内部：AI“大脑”中发生了什么

以上均是从外部行为推断。研究者还进一步“解剖”了一个开源模型，直接探查其内部运作机制。

他们选用的是权重公开的Gemma 3 27B-it模型。该模型行为与其他模型一致：数到27个字母前完全正确，之后突然崩溃，开始重复输出60、100等整数。

研究者首先进行了“残差流投影”分析。简言之，就是在AI处理数数任务时，于每一层神经网络输出处捕捉其激活状态，试图从中解码出当前的计数进度。结果发现，在模型成功计数阶段，确实存在一个线性方向，沿此方向投影出的数值随序列长度增加而线性增长，精确追踪着计数进度。这种线性结构在多个不同网络层（第16、31、40、53层）均能观察到。

然而，当序列长度超过计数容量时，这种清晰的线性结构突然消失，秩序被混乱取代。这意味着模型内部确实构建了一种用于追踪计数的状态表征，但这种表征的容量是有限的，一旦耗尽，模型便失去了输出正确答案的依据。

研究者还进行了“强制解码”实验：给定正确答案的格式，仅让模型判断“最可能的下一个token是什么”，观察即便给予提示，模型是否仍认为正确答案合理。结果发现，在成功计数范围内，模型坚信正确答案是最优选择；但一旦超过计数容量，即便给予格式提示，模型也不再认为正确答案概率最高，其内部评估更倾向于那些规整的猜测数字。这说明失败并非输出层的偶然错误，而是深层认知状态的真实崩溃。

此外，通过使用“稀疏自编码器”工具分析哪些神经元特征与计数最相关，研究者并未找到单一的“计数神经元”。与计数相关的特征是由多个非线性变化的特征共同组成的联合体。这表明AI的计数能力由众多神经元协同实现，是一种分布式、复杂的涌现状态，而非像传统计算机那样由一个简单的计数器变量完成。

“激活补丁”实验：验证因果关系

仅观察相关性还不够。研究者进行了一系列“神经外科手术式”的实验，直接修改AI内部激活状态，以验证这些状态与输出之间是否存在真正的因果关系。

实验逻辑如下：从一个正在数不同数量字母的“捐献者”模型中，提取某一层的神经激活状态，然后将其移植到另一个正在数不同数量字母的“接受者”模型中，观察接受者的输出是否会相应改变。这好比将一个人数到15时的大脑状态，移植到另一个数到10的人脑中，看他最终会报出15还是10。

研究者尝试了两种移植方式：一是仅替换最后一个处理单元的状态（相当于在即将说出答案时换上别人的“最终记忆”）；二是替换整个序列处理过程中的所有状态（相当于从头到尾采用别人的“处理方式”）。

结果发现，两种方式均能在一定程度上改变模型输出，但效果在不同网络层差异显著。仅替换最后状态的方式，只在非常靠后的网络层（第51层，共62层）才有效果。替换整个序列的方式，在中间层（第31层）就能产生强烈影响，且效果远强于仅替换最后状态。

这两个发现共同描绘出AI内部计数的“信息流”：模型先在中间层的处理过程中，逐字母地建立起追踪序列进度的状态轨迹；然后在靠近输出的晚期层，将此轨迹信息汇聚到最后一个处理位置，并从中解码出最终数字答案。一旦中间层的轨迹无法建立（因超过容量），晚期层便无可用信息，自然无法给出正确答案。

这一机制在另一个完全不同架构的模型（Qwen 3.5 35B，一种混合专家模型）上也得到了类似验证，表明这并非某个特定模型的独特缺陷，而是当前一代Transformer架构AI的普遍特征。

与传统测试的对比：揭示系统性盲点

确认计数容量能揭示AI内部状态的真实情况后，研究者将其与三个主流AI评测基准进行了相关性分析：专注知识问答的GPQA Diamond测试、专注代码能力的SWE-bench测试，以及专注抽象推理的ARC-AGI-2测试。

在知识和代码测试方面，AI在这些传统测试上的得分与计数容量之间的相关性相当弱。简言之，一个在知识问答上表现优异的AI，未必有更高的计数容量；反之亦然。这说明传统测试与机械执行能力衡量的是AI不同维度的能力，各有盲点。

与ARC-AGI-2的对比则更为耐人寻味。ARC-AGI-2是一个旨在减少知识依赖、强调抽象推理的测试，被认为更接近“测试真正智能”。然而研究者发现，在ARC-AGI-2公开发布之前训练的模型，在该测试上普遍得分很低，但它们的计数容量却各不相同，分布分散，两者无明显关联。而在ARC-AGI-2发布之后训练的新模型，得分普遍大幅提升，且得分与计数容量之间呈现出很强的线性相关。

这一现象揭示了一个潜在问题：新模型在ARC-AGI-2上得分更高，未必是因为其抽象推理能力真正提升，更可能是因为它们在训练时接触到了该测试的任务格式，从而“学会”了如何应对这类题目。一旦掌握了任务格式，它们在ARC-AGI-2上的表现就变成了其计数容量的函数——也就是说，至此，限制其表现的瓶颈才是真正的机械执行能力，而非“是否理解题目意图”。这与ARC-AGI-3明确声明要防止测试数据泄露的初衷不谋而合。

不止于数数：更复杂的规则追踪同样受限

或许有人会质疑：AI可能只是不擅长数重复字母这种单调任务，换成稍有结构的任务会否好转？

研究者也对此进行了拓展测试，设计了一个“层级规则追踪”任务：给AI看一系列结构化记录，每条记录包含一个关键词和一条嵌套路径（路径中用交替括号嵌套不同层次信息），以及一堆无关干扰词。AI需要判断每条记录中，关键词是否与路径最深层的词匹配，然后统计所有匹配的数量。

此任务比单纯数字母复杂得多，需要维护更丰富的内部状态（需追踪嵌套层级），但本质仍是“执行简单规则，维护计数状态”。结果，即便是表现最好的模型，也仅在416个正确匹配内保持稳定，超过此数同样突然崩溃。这表明，计数容量的限制并非只针对“数重复字母”这类单调任务，而是反映了AI在维护任何精确内部状态方面的普遍局限。

对现实AI应用的启示

归根结底，这项研究揭示的问题对日常AI应用有何实际影响？

当前，AI被广泛用于代码审查、长文档分析、多步骤任务规划、持续性对话等场景，这些任务都需要AI在较长时间内追踪约束条件、记住中间结果、保持逻辑一致性。而研究结果告诉我们，这种状态追踪能力在局部范围内可靠，但在超越某个边界后会突然、且悄无声息地失效。更危险的是，失效后AI通常不会声明“我无法处理”，而是继续输出看似合理、却已脱离规则执行的内容。

正因如此，研究者认为，单纯扩大模型规模、增加训练数据、允许更多推理步骤，并不能从根本上解决此问题。要真正提升AI的程序可靠性与状态维护能力，可能需要在架构层面进行革新，例如引入外部记忆（让AI能将中间结果存储于可读写的独立存储中）、引入循环结构（使AI能够真正“迭代”处理而非仅单次前向处理）、或引入可验证的执行轨迹（允许外部检查AI是否严格按规则执行）。这些方向已有研究者探索，但尚未成为主流AI系统的标准配置。

这项研究最重要的贡献，在于提供了一个简洁而强大的诊断工具：通过极简的测试，直接测量AI在执行规则方面的真实边界，而非通过复杂任务的表现间接推测。计数容量就像一个体温计，直接测量的是AI“体内”具体的生理指标，而非通过面色判断健康。一个AI在考试中得高分，不代表其“体温”正常；而体温计测出的数字，则是实实在在、难以作假的。

这对所有依赖AI处理长时间、多步骤任务的人员是一个重要提醒：AI在短期、离散任务中表现出色，但在需要长时间维护精确内部状态的任务中，存在一个看不见的能力断崖。了解这个断崖的位置，远比盲目相信AI能“记住并处理好一切”更为安全和务实。

Q&A

Q1：大语言模型的“计数容量”是什么意思？
A：计数容量是指一个AI模型能够稳定、准确地数出序列中元素数量的最大值。当序列长度超过此值时，模型不会逐渐变差，而是突然崩溃，开始随机报出500、1000这类整数。研究发现，所有测试模型都有此上限，且远低于其官方宣传的文字处理量。

Q2：加强推理功能（思维链）能帮助AI数更多数字吗？
A：不能。研究对比了普通模型与推理增强版模型的计数表现，发现推理版本消耗了数倍甚至数十倍的计算资源，但计数容量几乎没有提升，有时甚至更差。这是因为计数失败的根本原因是内部状态耗尽，额外的计算无法补充此状态。

Q3：为什么传统AI测试发现不了这个数数失败的问题？
A：传统测试依赖知识问答、代码编写等复杂任务，这些任务的正确答案可通过记忆、模式匹配或语言直觉获得，不一定需要精确执行规则。研究发现，模型在知识测试上的高分与计数容量几乎无关，说明传统测试对程序性执行可靠性存在系统性盲点。