AI助手记忆可靠性评测：哈工大与上海AI实验室最新研究

2026-06-14阅读 0热度 0

AI助手

哈尔滨工业大学、上海人工智能实验室、同济大学、厦门大学、复旦大学及上海交通大学联合攻关的这项研究，以预印本形式发表于2026年6月，编号为arXiv:2606.05761。

AI记忆的“照妖镜”：一段揭示真相的故事

想象一下，你有个老朋友，每次聊到同一话题却说法不一——有时说喜欢咖啡厅工作，有时又改口喜欢热闹，最后又说图书馆才是常态。想帮他订个地方，单凭某次对话肯定出错。正确做法是汇总所有信息，区分哪些互补、哪些因时而异、哪些自相矛盾，再决策。这件连小学生都明白的事，最前沿的AI助手做起来却远没那么轻松。研究团队为此设计了一套专门考题，取名SubtleMemory，对市面上十几款主流AI记忆系统进行全面测试。结果令人意外：即便是最优系统，离满分也差将近二十个百分点；面对某些刁钻题目，号称最强的AI表现甚至不足六成。

一、AI助手为何需要“记性”，且必须是“好记性”

把AI助手想象成你雇佣的私人秘书。初期只需记住一两件事，但长期合作后，你的饮食偏好、工作习惯、计划变化、矛盾心理等大量信息堆积。秘书的挑战不再是“记住某件事”，而是“在相互关联的信息中找出正确的那条，并理解其与其他信息的关系”。现实中的AI助手（如OpenClaw）每天积累海量历史对话，其中夹杂互相印证、情境特定、前后冲突的信息碎片。传统研究只问“AI能否记住某事”，这项研究追问：“AI能否厘清这些记忆之间的关联？”这好比会背乘法口诀与真正理解三乘三等于九，是两回事。

二、三种记忆关系：互补、细辨、矛盾

团队将记忆关系分为三类，如同三种不同难度的迷宫。第一种是“互补关系”：例如从朋友多次对话中得知他喜欢非洲文学、偏爱200-300页篇幅、希望作者为女性——单独每条都不足以选书，但合并可精准定位。AI需将分散在不同时间、不同对话的碎片拼接成完整图景。又细分为“多证据型”（需同时用所有线索）和“任一证据型”（任一线索即可指向答案）。第二种是“细微区别关系”：类似侦探故事中两条线索看似相同，实则一条针对研究生阶段，一条针对现在；或一条适用于“在家”，另一条适用于“给孩子设计工作坊”。AI必须识别时间或情境差异，避免混用。分为“时间型”和“情境型”。第三种是“矛盾关系”最为棘手：秘书记录了两条直接冲突的信息，如“用户喜欢北欧犯罪剧”和“用户觉得黑暗犯罪剧太沉重从不看”。两者不可能同时为真，AI不能随意选一条，也不能假装没看见，应诚实承认“记录有冲突，需用户澄清”。

三、SubtleMemory试卷的生成流程

团队设计了一条五步流水线，每步都有质量过滤器。第一步“选种子”：从高质量数据集中挑选两类信息：用户个人信息（如虚构用户的生活习惯、喜好、计划）和世界知识（如城市市花、书籍类型）。前者来自PersonaMem-v2，后者来自FanOutQA、MuSiQue、QACC、HoH、AmbigQA等数据集。第二步“生成变体”：以“Bonita喜欢日式极简室内设计”为例，互补关系生成三条相关描述（浅色木质家具、中性色调、简洁布局）；细微区别关系生成不同情境下的描述（自公寓极简、工作室北欧、展台工业）；矛盾关系生成对立描述（喜欢极简 vs. 复古繁复）。第三步“嵌入对话”：每条变体被藏入自然多轮对话中，例如用户讨论采购清单时说“那些能活过收拾的东西，都是线条简洁、浅木色、素净色”——暗含偏好。用户不自述，但可推断。为避免单调，定义了十种对话类型（决策支持、规划协调等）及三种交互节奏，随机采样。第四步“设计考题”：每个知识点设计对应考题和参考答案。世界知识直接提问；用户个人信息或填表单（如员工档案含咖啡偏好），或从候选资源中选最佳。两种形式使评判客观可量化。第五步“拼接历史记录”：所有对话拼成完整长期历史，平均236.4段对话，约21.16万词语单位，相关信息散落不同时间，穿插大量无关内容。最终基准含1522道评测题，对应1090组关系控制变体集：互补361组、细微区别352组、矛盾377组。

四、应考系统与阅卷机制

团队评测了三类AI记忆系统：一是独立记忆系统（Mem0、MemOS、EverMemOS、MIRIX、A-Mem、MemoBase），二是自带记忆的完整AI助手（OpenClaw、MetaClaw），三是借助插件扩展记忆的助手（OpenClaw搭配Mem0、MemOS、EverMemOS）。阅卷由Gemini 3.1 Pro Preview Thinking模型担任评委。为验证可靠性，人工标注了225题参考答案，与AI评委结论对比，Cohen's κ值达0.963，表明高度一致。答题模型主要测试GPT-5.4和GPT-OSS-120B，并设计两种提示词：软提示（大致方向）和强提示（明确要求识别目标信息、冲突、忠于证据、不足时说明）。从小规模校准实验（141题）发现，GPT-5.4配合强提示在理想条件（直接喂原始对话，绕过记忆系统）下整体正确率达90.1%，但现实记忆系统会引入损耗。正式评测统一采用GPT-5.4加强提示。

五、测试结果：无一系统达到合格线

正式结果令人警醒——所有系统距离理想状态差距明显。以GPT-5.4为答题模型，最佳独立记忆系统A-Mem整体正确率70.0%；Mem0 69.0%；EverMemOS 68.1%。理想条件上限（直接使用原始对话）为85.4%，最佳系统仍低了超15个百分点。对比A-Mem和MemoBase：70.0% vs. 32.1%，差距接近一半题量。搭载记忆插件的OpenClaw：Mem0+OpenClaw达71.3%（优于单独Mem0的69.0%）；EverMemOS+OpenClaw达69.1%（优于单独68.1%）；但MemOS+OpenClaw仅56.5%，低于单独MemOS的56.8%，表明上下文管理层有时反而干扰。使用较弱模型GPT-OSS-120B时，加OpenClaw几乎在所有组合中带来负面效果。MetaClaw整体仅20.3%，比瞎猜好不了多少，因其记忆机制侧重提炼技能和经验等程序性知识，不擅长精确事实性记忆，与SubtleMemory考察需求相悖。

六、三类关系难度差异显著

按关系类型拆解成绩，差异更明显。互补关系整体较好，但需分子类：“任一证据型”只需找回任一相关信息，难度低；“多证据型”需整合多条散落信息，难度高。细微区别关系在理想条件下表现最佳，几乎饱和，因其本质是精准匹配而非整合多信息；但在现实记忆系统中，时间型题目明显比情境型难——有趣的是理想条件下相反，说明现有系统对时间信息记录不精确。矛盾关系毫无悬念是三类中最难的。理想条件下GPT-5.4仅答对68.7%，GPT-OSS-120B更只有41.6%。即使用原始对话直接输入，模型仍难以正确识别冲突并拒绝武断回答。各系统矛盾关系得分普遍比互补和细微区别低二三十个百分点，差距超团队预期。揭示的问题：当前大语言模型面对不可调和的矛盾信息时，倾向于“强行解决”——要么偷偷选边，要么发明理由圆过去，而非诚实承认信息不足。

七、记忆损耗三阶段：存储、检索、应用

团队设计三阶段诊断方法，将AI记忆系统工作流程拆解。第一阶段“记忆保存”：将完整历史对话送入系统，然后用“理想检索”（直接取用存储的、来自相关对话的记忆条目）答题，与直接用原始对话对比正确率下降，反映“对话转存储”环节的信息损失。第二阶段“检索能力”：保存环节通过后，让系统自行检索相关记忆答题，与理想检索对比下降，代表检索环节损失。第三阶段即默认条件下的整体表现，叠加两阶段损失。三阶段诊断显示各系统短板不同。A-Mem和OpenClaw在保存环节最佳，保存成功率分别达93.5%和91.5%。两者共同特点是除了结构化记忆条目外，还保留原始对话记录。原始对话包含许多细节，在压缩摘要时易丢失，但SubtleMemory题目往往需要这些细节。MemoBase保存环节仅39.1%，大量信息在入口即丢，但检索环节较强（75.6%），即存进去的尚可找回。OpenClaw保存很好，但矛盾关系题目检索成功率仅34.2%，导致最终矛盾题正确率25.5%，说明冲突信息正确召回是棘手问题。从关系类型看，矛盾关系在保存阶段就易丢失，可能因冲突事实在进入记忆时相互干扰；互补和矛盾关系在检索阶段也比细微区别更难，因其需同时取出多条信息，而细微区别只需最匹配的一条。

八、测试结论的启示

这项研究本质上是用更精密的标尺衡量AI助手的“记忆质量”。此前研究问“AI记得住吗”，此研究问“AI记得清吗”——能否厘清不同时间、情境下信息的关联，能否在需要时召回全部相关信息，能否在信息矛盾时诚实告知而非忽视。测试结果表明，最佳系统仍差近二十个百分点才能达到理想水平，矛盾关系处理在理想条件下也难超七成正确率。对任何开发或使用长期AI助手的人都具参考价值：不要以为助手“记住”你说过的话，就意味着它“理解”了这些关系。尤其是当需求变化、曾说过前后矛盾的话时，助手很可能正一本正经地给出基于错误理解的建议。对研究者而言，该工作指明了清晰改进方向：AI记忆系统需在存储时保留更多细节（尤其是时间和情境），检索时能同时取回多条相关信息，回答时能识别矛盾并保持诚实。任一方向单独突破即可带来实质性提升。有兴趣深入探索者可查阅arXiv:2606.05761完整论文。研究团队项目主页和代码已公开，方便开发者直接使用SubtleMemory测试自己的系统。

问答环节

Q1：SubtleMemory基准测试关注AI记忆能力的哪个维度？
A：SubtleMemory不评估AI能否记住单一事实，而是考察其能否理清多条相关信息之间的关联。具体分三种情形：信息互补、仅特定时间或情境成立、互相矛盾。现有系统在这三类表现均不足，矛盾关系处理尤其困难，最优系统正确率不足七成。

Q2：为何AI记忆系统处理矛盾信息时表现最差？
A：两大主因：其一，现有记忆系统在将对话整理为记忆条目时，冲突信息易被错误合并或丢弃，存储阶段即损失关键细节；其二，大语言模型面对不可调和的矛盾，倾向于强行选边或虚构理由圆过去，而非诚实承认冲突。两因素叠加，导致矛盾关系得分在所有类别中最低。

Q3：A-Mem为何在保存环节表现优异？
A：A-Mem在生成结构化记忆条目外，额外保留原始对话记录。原始对话包含大量细节，这些细节在压缩摘要时易丢失，但SubtleMemory许多题目正需要这些细节。OpenClaw也有类似特点，两者保存成功率均超91%，远高于仅保存结构化摘要的系统。

AI助手记忆可靠性评测：哈工大与上海AI实验室最新研究

相关阅读

最新教程

最新资讯