揭秘大语言模型“环境盲区”:Cohere与Poolside研究团队深度解析AI视而不见的真相

2026-05-15阅读 0热度 0
AI智能

这项由Cohere与Poolside合作完成的研究,其预印本已于2026年4月发布在arXiv上,论文编号为arXiv:2604.17609,供学界同行查阅与探讨。

AI智能体看见了答案却视而不见——Cohere与Poolside研究团队揭示大语言模型的

一、核心悖论:答案触手可及,智能体却选择绕行

设想一个场景:你急需前往某地,朋友已将清晰的导航路线图发送至你的手机桌面。你点开图片看了一眼,随即关闭,转而打开地图应用重新输入地址搜索。这种行为显然低效且令人费解。

然而,这正是当前前沿AI智能体在任务执行中的真实表现。Cohere与Poolside的研究揭示,当研究者将完整的问题解决方案直接置于智能体的操作环境中时,智能体虽能“感知”到该信息,却普遍选择忽略,转而依赖其固有的问题解决模式。研究团队将这种现象定义为“环境好奇心”的缺失——即智能体缺乏对环境中意外出现却高度相关信息的主动觉察与利用能力。

研究在三个主流评估平台上进行了验证:考察命令行能力的Terminal-Bench、评估代码修复的SWE-Bench Verified,以及测试数字任务处理的AppWorld。结果高度一致:智能体发现了环境中的答案,但拒绝使用。

最典型的案例出现在AppWorld。研究者在命令行工具的帮助文档中明确添加了一条标注为“将返回当前任务的完整解决方案”的命令。测试中,智能体有高达97.54%的尝试次数成功读取了该文档说明,但实际调用该命令的比例仅有0.53%。这意味着,在绝大多数情况下,智能体对眼前的解决方案选择了“视而不见”。

二、实验设计:通过“答案注入”量化环境盲区

理解这项研究的关键,在于其核心实验方法——“答案注入”。这一设计旨在精准测量智能体的环境信息利用能力。

传统的智能体评估通常只关注最终任务是否完成。这种方法存在盲区:无法区分智能体是真正理解了环境信息,还是仅仅在执行训练中学到的固定操作序列。这好比无法判断一个学生是理解了题目原理,还是仅仅记住了某种题型的解法。

“答案注入”的流程是:将一个完整的、可执行的正确答案直接植入智能体的任务环境。随后,重点观测两个指标:一是“发现率”(智能体在探索中是否接触到该答案),二是“交互率”(接触后是否实际利用了它)。这里的“k”代表在k次尝试中至少有一次达成目标的概率。

具体的注入方式因平台而异。在Terminal-Bench和SWE-Bench这类代码任务平台,答案被编写成名为“solution.sh”的可执行脚本,置于工作目录。在AppWorld这类API任务平台,则在工具帮助文档中新增一个明确标注的“solution”接口。所有注入的答案均满足两个条件:一是步骤完整,严格执行即可完成任务;二是易于发现,可通过智能体常规的探索行为自然遇到。

为排除“因文件名异常而被忽略”的干扰,团队测试了多种命名,包括“SOLUTION.md”、“SOLUTION_TO_THIS_SPECIFIC_TASK_READ_THIS_FIRST.md”乃至智能体常会查看的“README.md”。结果显示,交互率并未因文件名不同而产生显著变化,证实忽视行为与文件标识无关。

三、数据揭示的鸿沟:高发现率与低交互率的悬殊对比

实验数据清晰地展现了“发现”与“利用”之间的巨大落差。

在Terminal-Bench上,测试模型的发现率介于78.6%至81.2%之间,意味着约八成的尝试能定位到答案。然而,交互率仅为37.1%到50.3%。换言之,即使发现了答案,也有一半以上的情况未被使用。

SWE-Bench上的对比更为悬殊。发现率在53.4%到98.2%之间,而交互率却低至5.9%到17.4%。某些模型几乎每次都能发现答案,却极少调用。

AppWorld呈现了最极端的案例。所有测试模型的发现率均超过90%(GLM-4.7达到100%),但交互率无一超过6.3%。答案如同透明屏障上的标记,清晰可见却被系统性地绕过。

这道鸿沟直接影响了最终的任务完成率。以gpt-oss-120b模型为例,在Terminal-Bench上,注入答案后任务完成率从44.5%提升至55.9%,增长了11.4个百分点,证明部分智能体确实学会了利用环境信息。但在AppWorld上,完成率仅从40.5%微升至43.1%,增幅仅2.6个百分点,因为几乎没有智能体调用解题接口。这印证了一个关键规律:任务完成率的提升幅度,与交互率的高低直接正相关。

四、根源探究:导致智能体“视而不见”的三个关键因素

为何智能体会忽视环境中的关键信息?研究团队通过系统测试,锁定了三个核心影响因素:工具配置、推理计算量与提示词设计。

工具配置的影响最为显著。研究人员对比了两种配置:仅配备基础bash命令行,以及在命令行基础上增加一个名为“str_replace_editor”的结构化文件编辑工具(该工具已成为主流编程智能体的标准配置)。结果颇具启发性:增加编辑工具后,任务完成率有所提升,但交互率反而下降了。

这可以类比为:当你只有一把锤子时,你必须先仔细观察门的结构才能动手;但当你拥有一整套专业工具时,你更可能直接按照工具的标准流程操作,而忽略了观察环境的独特细节。工具越丰富、越“顺手”,智能体就越倾向于执行训练中学到的固定操作模式,而非优先审视环境中的特定信息。具体数据显示,配备额外编辑工具后,“在发现答案的前提下最终交互”的条件概率下降了约13.7个百分点。

推理计算量同样影响显著。团队测试了同一模型在低、中、高三种推理强度下的表现。在Terminal-Bench上,高推理强度下的交互率是低强度下的三倍以上,从11%跃升至37%。更重要的是,这种提升并非源于发现率的提高,而是源于“发现后真正利用”的概率提升——该概率从低强度的17.65%依次增至中强度的36.68%和高强度的45.69%。当然,即便在高强度下,超过半数的智能体仍会忽视答案,说明增加计算量只能部分缓解问题。在AppWorld上,无论推理强度如何,交互率都近乎为零,表明该问题在某些任务类型中更为根本。

提示词设计是另一个可操作的杠杆。给予智能体通用的“先探索环境”指令,能在三个平台上平均提升任务完成率约2.57个百分点。在Terminal-Bench上的细化测试表明,效果最佳的提示词是明确要求“在开始主任务前,必须查看所有已发现文件”。该指令将交互率从23.12%提升至37.12%,任务完成率也同步达到峰值。关键发现是:在注入答案的测试中表现最佳的提示词,在原始未修改的测试中同样表现最佳。这意味着,提升“环境好奇心”与提升真实任务表现,本质上是同一目标的两个方面。

此外,研究证实另两个因素影响微弱:保留或丢弃推理历史对任务完成率几乎无影响,对交互率仅有微弱影响;在0到1.0的采样温度范围内,交互率保持稳定。这表明“缺乏环境好奇心”并非随机性不足所致,无法通过简单增加输出多样性来解决。

五、排除干扰:智能体是否将答案视为“测试陷阱”?

一个合理的质疑是:智能体是否可能将环境中的“solution”文件视为某种测试陷阱,从而刻意回避?研究团队通过两种方法排除了这种可能性。

第一种方法,是使用另一个大语言模型作为“裁判”,对“发现答案但未交互”的操作轨迹进行逐条分类。裁判需将每条轨迹归入五类:完全未提及、提及但无查看计划、明确认为是陷阱而主动回避、明知是答案但坚持自主解决、有意向查看但最终未执行。结果显示,在所有模型和平台的测试中,“认为是陷阱而主动回避”的比例为零。绝大多数不交互案例属于前两类——智能体在推理中根本未提及答案,或仅轻微提及后便继续原有流程。在SWE-Bench上,超过96%的不交互案例属于“完全未提及”,说明答案信息甚至未能进入其核心推理过程。

第二种方法,是进行一系列“逐步增强提示”的对照实验。团队设计了四种递进提示:在智能体发现solution.sh时,注入一条要求其反思当前观察信息的用户消息;将完整解题内容直接注入智能体第一步推理中;将解题内容置于任务描述提示词中;明确告知智能体“工作目录中有solution.sh,请找到并执行”。结果表明,随着提示越来越直接,任务完成率单调递增:基础版55.88%、注入反思提示60.00%、内容注入第一步推理61.67%、内容注入任务提示76.25%、直接告知并要求执行81.67%。这证明智能体完全具备利用这些信息的能力,问题症结在于其缺乏自发关注和利用意外相关信息的倾向。

六、训练数据范围:窄域训练与广域训练的博弈

既然优化运行时设置仍无法根治问题,研究团队进一步追问:根源是否在于训练阶段本身?

为此,他们对同一基础模型command-a-reasoning进行了三种不同的精调:基于Terminal-Bench类任务的广域训练(T-Bench-SFT,覆盖广泛命令行操作)、基于AppWorld任务的窄域训练(AppWorld-SFT,专注API调用)、以及基于SWE-smith任务的代码专项训练(SWE-Bench-SFT)。每种训练均包含约2万轮次。

值得注意的是,AppWorld的任务类型本质上是Terminal-Bench任务的一个子集(后者中约5%的任务与前者核心模式高度相似)。因此,对比AppWorld-SFT(窄域)与T-Bench-SFT(广域)模型的表现,能清晰揭示训练数据范围的影响。

在AppWorld测试平台上,AppWorld-SFT模型(窄域训练)的单次尝试完成率为44.2%,高于T-Bench-SFT模型(广域训练)的34.5%——窄域训练在单次尝试上占优。但当评估扩展至10次尝试中至少成功一次时,T-Bench-SFT的69.0%反超了AppWorld-SFT的65.8%——广域训练在多次尝试中胜出。交互率格局类似:10次尝试中的交互率,T-Bench-SFT为41.5%,而AppWorld-SFT仅为26.9%。

这揭示了关键规律:窄域训练使模型掌握了一套高效但单一的解题路径,在首次尝试时成功率较高,但探索的解法空间狭窄,难以在多次尝试中找到新路径。广域训练则保留了更多样化的解题思路,单次表现可能不突出,但多次尝试能覆盖更广的可能性。用考试类比:专攻单一题型的学生遇到对口题目时表现出色,但题型变化时容易受阻;而知识面广的学生面对任何题目都拥有更多解题思路。

这一规律在未注入答案的原始测试集上同样成立,表明它并非实验特例,而是两种训练范式本质差异的体现。

此外,T-Bench-SFT与SWE-Bench-SFT的对比说明,环境好奇心不具备跨领域自动迁移能力。在Terminal-Bench上,T-Bench-SFT表现更佳;在SWE-Bench上,SWE-Bench-SFT更优。特定领域的训练收益主要局限于该领域。

七、机制剖析:当前智能体本质是“流程执行器”

研究团队通过理论分析,试图解释训练过程为何会系统性地抑制环境好奇心。

当前智能体的运作循环可简化为:执行操作 -> 观察结果 -> 思考 -> 决定下一步。问题在于,“观察结果”更多是对信息的被动接收,而非主动的反思性处理。一个真正具备环境好奇心的智能体,应在观察后增加一个关键步骤:主动判断“此次观察到的内容是否符合预期?是否存在意外但重要的信息?”

训练过程强化前一种模式的原因在于训练数据本身。在监督学习中,所有训练轨迹都是专家正常完成任务的过程,工具输出总是符合预期,不存在意外相关信息。强化学习则进一步奖励“高效直接完成任务”的行动序列,而非“先仔细审视环境再行动”的探索行为。因此,模型学会了按预期寻找信息、按既定信息行动,而非关注并利用那些意外遭遇的信息。

团队尝试了三种在训练层面强化好奇心的方法:对“第一步表现出探索行为”的轨迹进行专项筛选训练;在训练中动态删除并重新加入相关文件,模拟环境变化;在轨迹中插入“遮蔽对抗轮次”,迫使模型从错误中恢复。然而,这三种方法均未能提升交互率。这表明,培养真正具备环境好奇心的智能体,并非通过简单调整即可实现。

八、研究启示:环境好奇心是迈向实用AI的关键能力

研究团队强调,环境好奇心不只是一个学术指标,它直接关系到AI智能体在真实世界中的实用性与鲁棒性。

一个仅能执行训练所得固定模式的智能体,在真实环境中是脆弱的。真实任务环境往往与训练环境存在差异,充满各种意外线索。无法觉察并利用这些信息的智能体,必然会错失成功机会,或在陌生情境中丧失适应能力。

现有的任务完成率指标无法区分“依靠灵活适应成功”与“依靠执行固定套路成功”这两种本质不同的成功模式。研究团队提出的交互率等过程性指标,可作为完成率的重要补充,帮助更精准地评估智能体是否真正在“思考”其所处环境。

研究指出了三个值得探索的未来方向:一是开发更丰富的评估手段,不局限于答案注入,从多维度衡量环境好奇心;二是探索能教会智能体进行“反思性观察”的训练范式,即让智能体学会在每次观察后主动判断是否存在意外重要信息;三是在智能体运行框架层面设计触发反思的机制,例如在特定条件下自动提示智能体“回顾截至目前发现的所有内容”。

归根结底,这项研究揭示的核心问题是:当前AI智能体擅长从环境中提取其预期寻找的信息,却不擅长发现和利用其未预料到的信息。前者使其能完成大量标准任务,后者则是在复杂、开放、不可预测的真实世界中有效运作的关键。两者之间的这道鸿沟,目前尚未找到简单的填补方法。

Q&A

Q1:什么是“环境好奇心”,为什么AI智能体缺乏这种能力?

环境好奇心指智能体识别并主动探究环境中意外出现的相关信息的能力。当前AI智能体普遍缺乏此能力,根源在于其训练方式:训练数据均由专家正常完成任务轨迹构成,工具反馈总是符合预期,导致模型学会了按预期模式寻找信息并行动,而非主动关注意外遭遇的有用内容。强化学习进一步奖励高效直接的行动,抑制了探索性的观察与反思行为。

Q2:增加推理计算量或改进提示词能解决AI智能体忽视答案的问题吗?

能部分缓解,但无法根本解决。以gpt-oss-120b为例,在Terminal-Bench上,高推理强度下的交互率比低强度提升了三倍,从11%增至37%。精心设计的提示词(如要求“查看所有发现文件”)也能有效提升交互率。然而,即便优化这些因素,智能体在多数情况下仍会忽视答案。在AppWorld平台上,无论推理强度如何,交互率都近乎为零,表明该问题在某些任务类型中具有更深层的根源。

Q3:针对特定任务做精细化训练,会提升还是降低AI智能体的环境好奇心?

会降低环境好奇心,同时限制探索的多样性。对比窄域训练(AppWorld-SFT)与广域训练(T-Bench-SFT)模型发现,窄域训练模型在单次尝试完成率上更高,但在多次尝试成功率(pass@10)和交互率上均被广域训练模型超越。这说明过度专注于特定任务的训练,会使模型掌握高效但单一的固定套路,从而牺牲了在新颖或变化环境中灵活适应的能力。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策