AI助手记忆可靠性评测:哈工大与上海AI实验室最新研究
哈尔滨工业大学、上海人工智能实验室、同济大学、厦门大学、复旦大学及上海交通大学联合攻关的这项研究,以预印本形式发表于2026年6月,编号为arXiv:2606.05761。
AI记忆的“照妖镜”:一段揭示真相的故事
想象一下,你有个老朋友,每次聊到同一话题却说法不一——有时说喜欢咖啡厅工作,有时又改口喜欢热闹,最后又说图书馆才是常态。想帮他订个地方,单凭某次对话肯定出错。正确做法是汇总所有信息,区分哪些互补、哪些因时而异、哪些自相矛盾,再决策。这件连小学生都明白的事,最前沿的AI助手做起来却远没那么轻松。研究团队为此设计了一套专门考题,取名SubtleMemory,对市面上十几款主流AI记忆系统进行全面测试。结果令人意外:即便是最优系统,离满分也差将近二十个百分点;面对某些刁钻题目,号称最强的AI表现甚至不足六成。
一、AI助手为何需要“记性”,且必须是“好记性”
把AI助手想象成你雇佣的私人秘书。初期只需记住一两件事,但长期合作后,你的饮食偏好、工作习惯、计划变化、矛盾心理等大量信息堆积。秘书的挑战不再是“记住某件事”,而是“在相互关联的信息中找出正确的那条,并理解其与其他信息的关系”。现实中的AI助手(如OpenClaw)每天积累海量历史对话,其中夹杂互相印证、情境特定、前后冲突的信息碎片。传统研究只问“AI能否记住某事”,这项研究追问:“AI能否厘清这些记忆之间的关联?”这好比会背乘法口诀与真正理解三乘三等于九,是两回事。
二、三种记忆关系:互补、细辨、矛盾
团队将记忆关系分为三类,如同三种不同难度的迷宫。第一种是“互补关系”:例如从朋友多次对话中得知他喜欢非洲文学、偏爱200-300页篇幅、希望作者为女性——单独每条都不足以选书,但合并可精准定位。AI需将分散在不同时间、不同对话的碎片拼接成完整图景。又细分为“多证据型”(需同时用所有线索)和“任一证据型”(任一线索即可指向答案)。第二种是“细微区别关系”:类似侦探故事中两条线索看似相同,实则一条针对研究生阶段,一条针对现在;或一条适用于“在家”,另一条适用于“给孩子设计工作坊”。AI必须识别时间或情境差异,避免混用。分为“时间型”和“情境型”。第三种是“矛盾关系”最为棘手:秘书记录了两条直接冲突的信息,如“用户喜欢北欧犯罪剧”和“用户觉得黑暗犯罪剧太沉重从不看”。两者不可能同时为真,AI不能随意选一条,也不能假装没看见,应诚实承认“记录有冲突,需用户澄清”。
三、SubtleMemory试卷的生成流程
团队设计了一条五步流水线,每步都有质量过滤器。第一步“选种子”:从高质量数据集中挑选两类信息:用户个人信息(如虚构用户的生活习惯、喜好、计划)和世界知识(如城市市花、书籍类型)。前者来自PersonaMem-v2,后者来自FanOutQA、MuSiQue、QACC、HoH、AmbigQA等数据集。第二步“生成变体”:以“Bonita喜欢日式极简室内设计”为例,互补关系生成三条相关描述(浅色木质家具、中性色调、简洁布局);细微区别关系生成不同情境下的描述(自公寓极简、工作室北欧、展台工业);矛盾关系生成对立描述(喜欢极简 vs. 复古繁复)。第三步“嵌入对话”:每条变体被藏入自然多轮对话中,例如用户讨论采购清单时说“那些能活过收拾的东西,都是线条简洁、浅木色、素净色”——暗含偏好。用户不自述,但可推断。为避免单调,定义了十种对话类型(决策支持、规划协调等)及三种交互节奏,随机采样。第四步“设计考题”:每个知识点设计对应考题和参考答案。世界知识直接提问;用户个人信息或填表单(如员工档案含咖啡偏好),或从候选资源中选最佳。两种形式使评判客观可量化。第五步“拼接历史记录”:所有对话拼成完整长期历史,平均236.4段对话,约21.16万词语单位,相关信息散落不同时间,穿插大量无关内容。最终基准含1522道评测题,对应1090组关系控制变体集:互补361组、细微区别352组、矛盾377组。
四、应考系统与阅卷机制
团队评测了三类AI记忆系统:一是独立记忆系统(Mem0、MemOS、EverMemOS、MIRIX、A-Mem、MemoBase),二是自带记忆的完整AI助手(OpenClaw、MetaClaw),三是借助插件扩展记忆的助手(OpenClaw搭配Mem0、MemOS、EverMemOS)。阅卷由Gemini 3.1 Pro Preview Thinking模型担任评委。为验证可靠性,人工标注了225题参考答案,与AI评委结论对比,Cohen's κ值达0.963,表明高度一致。答题模型主要测试GPT-5.4和GPT-OSS-120B,并设计两种提示词:软提示(大致方向)和强提示(明确要求识别目标信息、冲突、忠于证据、不足时说明)。从小规模校准实验(141题)发现,GPT-5.4配合强提示在理想条件(直接喂原始对话,绕过记忆系统)下整体正确率达90.1%,但现实记忆系统会引入损耗。正式评测统一采用GPT-5.4加强提示。
五、测试结果:无一系统达到合格线
正式结果令人警醒——所有系统距离理想状态差距明显。以GPT-5.4为答题模型,最佳独立记忆系统A-Mem整体正确率70.0%;Mem0 69.0%;EverMemOS 68.1%。理想条件上限(直接使用原始对话)为85.4%,最佳系统仍低了超15个百分点。对比A-Mem和MemoBase:70.0% vs. 32.1%,差距接近一半题量。搭载记忆插件的OpenClaw:Mem0+OpenClaw达71.3%(优于单独Mem0的69.0%);EverMemOS+OpenClaw达69.1%(优于单独68.1%);但MemOS+OpenClaw仅56.5%,低于单独MemOS的56.8%,表明上下文管理层有时反而干扰。使用较弱模型GPT-OSS-120B时,加OpenClaw几乎在所有组合中带来负面效果。MetaClaw整体仅20.3%,比瞎猜好不了多少,因其记忆机制侧重提炼技能和经验等程序性知识,不擅长精确事实性记忆,与SubtleMemory考察需求相悖。
六、三类关系难度差异显著
按关系类型拆解成绩,差异更明显。互补关系整体较好,但需分子类:“任一证据型”只需找回任一相关信息,难度低;“多证据型”需整合多条散落信息,难度高。细微区别关系在理想条件下表现最佳,几乎饱和,因其本质是精准匹配而非整合多信息;但在现实记忆系统中,时间型题目明显比情境型难——有趣的是理想条件下相反,说明现有系统对时间信息记录不精确。矛盾关系毫无悬念是三类中最难的。理想条件下GPT-5.4仅答对68.7%,GPT-OSS-120B更只有41.6%。即使用原始对话直接输入,模型仍难以正确识别冲突并拒绝武断回答。各系统矛盾关系得分普遍比互补和细微区别低二三十个百分点,差距超团队预期。揭示的问题:当前大语言模型面对不可调和的矛盾信息时,倾向于“强行解决”——要么偷偷选边,要么发明理由圆过去,而非诚实承认信息不足。
七、记忆损耗三阶段:存储、检索、应用
团队设计三阶段诊断方法,将AI记忆系统工作流程拆解。第一阶段“记忆保存”:将完整历史对话送入系统,然后用“理想检索”(直接取用存储的、来自相关对话的记忆条目)答题,与直接用原始对话对比正确率下降,反映“对话转存储”环节的信息损失。第二阶段“检索能力”:保存环节通过后,让系统自行检索相关记忆答题,与理想检索对比下降,代表检索环节损失。第三阶段即默认条件下的整体表现,叠加两阶段损失。三阶段诊断显示各系统短板不同。A-Mem和OpenClaw在保存环节最佳,保存成功率分别达93.5%和91.5%。两者共同特点是除了结构化记忆条目外,还保留原始对话记录。原始对话包含许多细节,在压缩摘要时易丢失,但SubtleMemory题目往往需要这些细节。MemoBase保存环节仅39.1%,大量信息在入口即丢,但检索环节较强(75.6%),即存进去的尚可找回。OpenClaw保存很好,但矛盾关系题目检索成功率仅34.2%,导致最终矛盾题正确率25.5%,说明冲突信息正确召回是棘手问题。从关系类型看,矛盾关系在保存阶段就易丢失,可能因冲突事实在进入记忆时相互干扰;互补和矛盾关系在检索阶段也比细微区别更难,因其需同时取出多条信息,而细微区别只需最匹配的一条。
八、测试结论的启示
这项研究本质上是用更精密的标尺衡量AI助手的“记忆质量”。此前研究问“AI记得住吗”,此研究问“AI记得清吗”——能否厘清不同时间、情境下信息的关联,能否在需要时召回全部相关信息,能否在信息矛盾时诚实告知而非忽视。测试结果表明,最佳系统仍差近二十个百分点才能达到理想水平,矛盾关系处理在理想条件下也难超七成正确率。对任何开发或使用长期AI助手的人都具参考价值:不要以为助手“记住”你说过的话,就意味着它“理解”了这些关系。尤其是当需求变化、曾说过前后矛盾的话时,助手很可能正一本正经地给出基于错误理解的建议。对研究者而言,该工作指明了清晰改进方向:AI记忆系统需在存储时保留更多细节(尤其是时间和情境),检索时能同时取回多条相关信息,回答时能识别矛盾并保持诚实。任一方向单独突破即可带来实质性提升。有兴趣深入探索者可查阅arXiv:2606.05761完整论文。研究团队项目主页和代码已公开,方便开发者直接使用SubtleMemory测试自己的系统。
问答环节
Q1:SubtleMemory基准测试关注AI记忆能力的哪个维度?
A:SubtleMemory不评估AI能否记住单一事实,而是考察其能否理清多条相关信息之间的关联。具体分三种情形:信息互补、仅特定时间或情境成立、互相矛盾。现有系统在这三类表现均不足,矛盾关系处理尤其困难,最优系统正确率不足七成。
Q2:为何AI记忆系统处理矛盾信息时表现最差?
A:两大主因:其一,现有记忆系统在将对话整理为记忆条目时,冲突信息易被错误合并或丢弃,存储阶段即损失关键细节;其二,大语言模型面对不可调和的矛盾,倾向于强行选边或虚构理由圆过去,而非诚实承认冲突。两因素叠加,导致矛盾关系得分在所有类别中最低。
Q3:A-Mem为何在保存环节表现优异?
A:A-Mem在生成结构化记忆条目外,额外保留原始对话记录。原始对话包含大量细节,这些细节在压缩摘要时易丢失,但SubtleMemory许多题目正需要这些细节。OpenClaw也有类似特点,两者保存成功率均超91%,远高于仅保存结构化摘要的系统。