AI注意力控制局限：经典心理测试深度测评

2026-06-12阅读 0热度 0

人工智能系统能写文章、回答问题、解决复杂难题。但最新研究揭示了一个让人意外的短板：在干扰信息出现时，它们很难像人类那样保持对任务本身的专注。换句话说，AI可能不太擅长“抗干扰”。

Suketu Patel带领的研究团队，把几款主流AI模型放进了一个经典的心理学实验——斯特鲁普任务（Stroop Task）。结果很有意思：AI处理信息的方式，和我们管理注意力的机制，差异比想象中大得多。

什么是斯特鲁普任务

斯特鲁普任务算得上是心理学界的老牌经典了。几十年来，它一直被用来研究注意力、专注度和自我控制能力。

具体玩法是这样的：屏幕上显示“红”“蓝”“绿”这些颜色词，但每个词都用彩色墨水印刷。有时候词义和墨水颜色一致——比如“红”字真的用红色墨水写；有时候则故意制造冲突——比如“红”字偏偏用蓝色墨水来呈现。

参与者的任务是：说出墨水的颜色，而不是读出那个词。

听起来挺简单，对吧？但对大多数人来说，这其实是个不小的挑战。因为阅读文字已经是一种近乎自动化的习惯了。大脑必须费力地抑制住读词的冲动，转而集中精力去识别墨水颜色。心理学家通常用这个任务来衡量所谓的“执行控制能力”——也就是帮助人们调节注意力、抵抗干扰、锁定目标的那套心理过程。

测试AI的注意力

研究团队的想法很直接：现代大语言模型在面对这种挑战时，会不会表现出和人类类似的反应？

大语言模型是ChatGPT、Claude、Gemini这类AI工具背后的核心技术。它们经过海量文本训练，通过学习语言规律来生成那些常常让人惊叹的、近乎人类的回应。

实验先从最简单的场景入手。给AI一个只包含五个颜色词的短列表——词义和颜色冲突的情况是有的，但数量很少。结果，所有模型都表现得不错，基本能正确回答。

但随着列表长度增加，情况开始急转直下。

GPT-4o在5个词时准确率高达91%，增加到10个词时直接滑到57%，而当列表扩展到40个词时，准确率只剩15%。

Claude 3.5 Sonnet在20个词以内还能稳住阵脚，可一到40个词，同样出现断崖式下滑，准确率跌至24%。

这种规律并非个别现象。研究人员在GPT-5、Claude Opus 4.1和Gemini 2.5身上，也观察到了类似的性能崩溃。

当AI开始“分心”

实验难度还在升级。当匹配与不匹配的颜色词混合出现在同一个长列表中时，模型的成绩进一步恶化。在某些极端情况下，面对不匹配的词项，准确率几乎归零。

研究人员指出，AI模型越来越难以持续遵循那个“识别墨水颜色”的指令，而是倾向于直接读出词语本身。换句话说，这些系统似乎无法稳定地抑制自己在训练中被强化最多的那种反应——读词。

这一点非常耐人寻味，因为人类同样面临类似的冲突。和AI一样，我们更容易“读字”而不是“认色”。但有趣的是，大多数人即便面对大量冲突词语，依然能保持相当高的准确率和稳定的表现。这种“抗干扰”能力，恰恰是人类注意力系统的一大强项。

人类注意力与机器注意力的本质差异

这项研究真正揭示的，是现代AI系统与人类大脑在底层机制上的一个关键区别。

尽管现在的AI在语言生成和逻辑推理上已经让人刮目相看，但其处理“注意力”的底层方式，和生物大脑完全是两码事。人类通常能在过滤干扰信息的同时，持续专注于特定目标。而研究结果明确显示：任务难度一旦提升，现有AI模型在认知控制能力上就明显掉队了。

研究人员认为，实验中那种性能崩溃的现象，指向了当前大语言模型的根本局限。AI在某些场景下能模仿人类行为，但维持注意力的方式，和人类的运作机制存在本质差异。这就像是一场“看起来像，但内核完全不同”的模仿秀。

这项研究的提醒来得恰逢其时：即便是最先进的AI系统，当面对需要抵抗干扰、持续专注于长序列信息的任务时，依然存在不可忽视的弱点。换句话说，在“抗干扰”这件事上，我们可能比机器想象中要强大得多。

Q&A

Q1：斯特鲁普任务到底是什么？为什么用它来折腾AI？

A：简单说，这是一个经典心理学测试，要求参与者说出颜色词的墨水颜色，而不是词本身。它常被用来衡量注意力和自我控制能力。研究人员选中它，正是因为这项任务能有效揭示系统在面对干扰信息时的认知控制能力——正好可以用来比较AI和人类在注意力机制上的本质差异。

Q2：AI在测试中的具体表现有多“拉胯”？

A：短列表（5个词）时，GPT-4o准确率有91%，表现不错。但列表一加长，成绩就跟着崩：10个词时掉到57%，40个词时只剩15%。Claude 3.5 Sonnet在20个词内还能稳住，可一到40个词同样跌到24%。GPT-5、Claude Opus 4.1和Gemini 2.5也都呈现出类似的规律。这不是个别模型的“发挥失常”，而是大语言模型群体的普遍问题。

Q3：AI在斯特鲁普任务中失败，说明大语言模型存在什么根本问题？

A：研究发现，任务复杂度一上去，大语言模型就很难抑制自己被高强度训练出来的默认反应——直接读出词语。这说明，当前AI系统在执行控制（执行功能）和认知注意力维持方面存在根本局限。这和人类大脑能稳定过滤干扰、锁定目标的能力相比，还差着一大截。

AI注意力控制局限：经典心理测试深度测评

什么是斯特鲁普任务

测试AI的注意力

当AI开始“分心”

人类注意力与机器注意力的本质差异

Q&A

相关阅读

最新教程

最新资讯