AI记忆系统评测基准：哈工大等联合发布可靠性榜单

2026-06-13阅读 0热度 0

AI助手

哈尔滨工业大学、上海人工智能实验室、同济大学、厦门大学、复旦大学和上海交通大学等机构联合团队，近日以预印本形式在arXiv平台（编号arXiv:2606.05761）发布了一项新研究。该研究聚焦于AI能否在日常多轮对话中理清信息之间的关联，而非单纯检测其记忆能力——这要求在最真实、最自然的交流场景下完成。

一段暴露AI记忆缺陷的真实场景

我们都有过类似经历：与朋友多次交谈后，发现他对同一话题的态度反复变化——有时说喜欢在安静咖啡馆工作，有时觉得热闹环境更能激发灵感，最后又说最近改去图书馆了。若仅凭单次对话推荐地点，大概率会选错。正确做法是综合所有言论，判断它们是互相补充、因时因地制宜，还是前后矛盾难以调和，再做出决策。

这件人类本能完成的事，对当前顶尖AI助手而言仍极其困难。为探究AI能否做到这一点，研究团队设计了一套名为SubtleMemory的专门测试，并对市面十余款主流AI记忆系统进行全面评估。结果令人警醒：即便表现最好的系统，距满分也差近二十个百分点；在部分极限场景下，号称最强的AI系统正确率甚至不足六成。

一、AI助手为何需要卓越的记忆能力

将AI助手视为一位长期合作的私人助理：初期只需处理少量事项，效率很高。但随着合作深入，助理积累了海量用户信息——饮食偏好、工作习惯、计划变动、内心矛盾等。此时助理面临的挑战不再是“记住某件具体的事”，而是“从庞杂关联信息中精准定位正确条目，并清晰理解其与其他信息的逻辑关系”。

现实中的AI助手（如论文提到的OpenClaw等产品）持续累积用户历史对话，其中包含各类信息片段：有的互相印证指向同一结论；有的表面相似但仅在特定情境下成立；有的直接冲突无法共存。传统记忆研究仅关注“AI能否记住某件事”，而本研究提出了更高难度的问题：“AI能否厘清所记住信息之间的逻辑关系？”

这个区别，就如同会背诵乘法口诀，与真正理解为什么三乘三等于九——完全是两个层级。

二、三类记忆关系：互补、细微区别、矛盾

研究团队将AI需要处理的记忆关系归纳为三大类型，类似三种不同难度的迷宫，AI需在其中找到正确出口。

互补关系

从朋友不同时间的三句话中，我们得知他喜欢非洲文学、偏好200-300页的篇幅、希望书里有女性作者——单条信息无法帮你选书，但组合起来能精准锁定。AI需要将分散在不同时间、不同对话中的碎片信息整合成完整图景。此类又分两种子类型：需同时利用所有线索才能得出结论（“多证据”型）；任意一条信息已足够指向同一答案（“任一证据”型）。

细微区别关系

这类似侦探故事中最棘手的情节：两条线索看似指向同一件事，但仔细分辨，一条是关于“研究生阶段”的情况，另一条是关于“现在”的情况；或者一条适用于“在家”场景，另一条适用于“给孩子设计工作坊”场景。AI必须精准识别时间或情境差异，避免混用信息。此类也分两种子类型：因时间不同导致答案不同（“时间型”），因情境不同导致答案不同（“情境型”）。

矛盾关系

这是三类中最难的。相当于助理记录了两条完全冲突的信息，例如“该用户喜欢Nordic noir犯罪剧”和“该用户觉得黑暗犯罪剧太沉重，从不看”。两者无法同时为真，AI既不能随意选择一条作为答案，也不能无视另一条。正确做法是诚实承认“记录的信息存在冲突，需要用户澄清”。

三、SubtleMemory“考卷”的出题流程

研究团队设计了一条精密五步流水线生成测试数据，每一步都包含专门的质量过滤机制。

流程从“选种子”开始。团队从高质量数据集中选取两类基础信息：一类是用户个人信息，如虚构用户的生活习惯、喜好和计划；另一类是通用知识，如某城市的市花、某本书的类型。前者来自PersonaMem-v2个人化数据集，后者来自FanOutQA、MuSiQue、QACC、HoH、AmbigQA等多个知识问答数据集。

获得种子信息后，团队用AI生成“变体”。以“Bonita喜欢日式极简室内设计”为例：互补关系下生成三条侧重不同细节的描述（如“偏好浅色木质家具”“偏好中性色调”“偏好收纳空间充足的简洁布局”）；细微区别关系下生成分别对应不同情境的描述（如“在自己公寓喜欢极简风”“在工作室喜欢北欧风”“在临时展台喜欢工业风”）；矛盾关系下生成两条针锋相对的描述（如“喜欢极简风”和“不再想要极简风，现在喜欢复古繁复风”）。

每条变体信息并不直接以条目形式呈现，而是被自然嵌入多轮对话。例如用户与助手讨论整理公寓采购清单时提及“那些能活过每次收拾整理的东西，都是线条简洁、浅木色、素净色的”——这句话隐含了她对家居风格的偏好。用户并未直说“我喜欢极简风”，但对话中自然流露。这种设计模拟真实助手使用场景：用户不会主动背诵偏好，而是在日常交谈中透露。

为避免对话单调，团队定义了十种对话类型（决策支持、规划协调、故障排查、学习解释、资源选择、流程建立、信息整理、个人反思、产出内容、审阅本地化），每种配三种交互节奏模板。每段对话随机采样，确保考卷场景丰富多样。

生成对话后，团队为每个知识点设计考题和参考答案。考题分两类：针对世界知识的直接提问（如“谁在9-1-1里演Buck这个角色？”）；针对用户个人信息的，要么填写表单（如员工档案中咖啡偏好栏），要么从候选资源中选出最合适的（如从一堆书中选出两本最符合用户品味的）。这两种形式使评判更客观、可量化。

最后，所有对话拼接成完整长期历史记录。每份记录平均包含236.4段对话，约21.16万个词语单位，相关信息片段自然散落在不同时间点，中间穿插大量无关内容。整个基准最终包含1522道评测题，对应1090组经过关系控制的信息变体集，其中互补关系361组、细微区别关系352组、矛盾关系377组。

四、答卷者与阅卷者

研究团队评测了三种形态的AI记忆系统。第一种是“独立记忆系统”（专门存储和检索信息的模块），测试了六款：Mem0、MemOS、EverMemOS、MIRIX、A-Mem、MemoBase。第二种是“自带记忆的完整AI助手”，测试了OpenClaw和MetaClaw。第三种是“借助插件扩展记忆能力的AI助手”，测试了OpenClaw分别搭载Mem0、MemOS、EverMemOS三种外部记忆插件的表现。

阅卷由Gemini 3.1 Pro Preview Thinking模型担任“评委”。为验证可靠性，团队预先人工标注了225道题的参考答案，并与AI评委结论对比。结果显示两者一致性达到Cohen's κ值0.963——非常高的分数，说明AI评委的判断几乎与人工相当。

答题模型方面，团队主要测试了GPT-5.4和GPT-OSS-120B。针对提示词设计了两个版本：“软提示”（仅给出大方向指引）和“强提示”（明确要求精准识别目标信息、识别冲突、忠于证据、证据不足时说明）。在包含141道题的小规模校准实验中，GPT-5.4配合强提示达到90.1%整体正确率——但这是在直接将原始对话喂给模型、完全绕过记忆系统的“理想条件”下取得的，现实系统会带来额外损耗。基于此，正式评测统一采用GPT-5.4加强提示组合。

五、测试结果：尚无系统真正达标

正式测试结果令人印象深刻——不是因为某个系统出色，而是所有系统离理想状态都相去甚远。

使用GPT-5.4作为答题模型时，最佳独立记忆系统是A-Mem，整体正确率70.0%；其次是Mem0（69.0%）；再是EverMemOS（68.1%）。理想条件下“上限”（直接将相关原始对话喂给模型，不经记忆系统）为85.4%。这意味着最佳记忆系统仍比理想状态低超15个百分点。

对比A-Mem与MemoBase，差距更为触目惊心：A-Mem整体正确率70.0%，而MemoBase仅32.1%——几乎一半题目答错。

搭载记忆插件的OpenClaw表现如何？Mem0+OpenClaw达71.3%，略优于Mem0单独（69.0%）；EverMemOS+OpenClaw达69.1%，也略优于EverMemOS单独（68.1%）。但MemOS+OpenClaw仅56.5%，反而低于MemOS单独（56.8%）——说明AI助手上下文管理层并非总是助力，有时会干扰。尤其当使用稍弱的GPT-OSS-120B模型时，添加OpenClaw层几乎在所有组合中都带来负面效果。

MetaClaw表现令人惊讶，整体仅20.3%，比随机猜测好不了多少。原因是MetaClaw的记忆机制侧重提炼“技能”和“经验”这类程序性知识，不擅长保存需要精确细节的事实性记忆，与SubtleMemory考察需求恰好相反。

六、三类关系难度差异明显

将整体成绩按三种关系类型拆解，差异更为鲜明。

互补关系题目整体相对容易，但需分子类型。“任一证据”型只需找到任意一条相关信息，难度较低；“多证据”型需从多段对话中整合多条信息，难度明显更高。

细微区别关系题目在理想条件下表现最佳，几乎接近饱和。因为这类题目虽需从相似信息中选出正确一条，但本质上只需精准匹配，无需同时处理多条信息的复杂关系。然而在现实记忆系统下，时间型题目明显比情境型更难——有趣的是理想条件下表现正好相反，说明现有系统处理时间信息存在额外弱点，即AI助手对“何时说的什么”记录不够精确。

矛盾关系题目是三类中最难的，毫无悬念。即使在完全理想条件下，GPT-5.4也仅答对68.7%，GPT-OSS-120B更低至41.6%。这意味着即便将所有相关对话直接摆在模型面前，它仍很难正确识别冲突、拒绝给出武断答案。各系统在矛盾关系上的表现普遍比互补和细微区别低二三十个百分点，差距超出团队预期。这揭示当前大型语言模型面对无法调和的矛盾信息时，容易“强行解决”——要么偷选一边，要么发明理由圆过去，而不是诚实承认“信息不足”。

七、记忆损耗的三个环节：存储、检索、使用

为精准定位问题所在，团队设计了三阶段诊断方法，将AI记忆系统工作流程拆解为三个环节分别考察。

第一环节“记忆保存”：将全部历史对话完整送入记忆系统，然后采用“理想检索”方式——直接提取系统存储的、来自相关对话的记忆条目——来答题，比较与直接使用原始对话的正确率下降值。下降部分代表在“对话转存记忆”过程中损失的信息。

第二环节“检索能力”：保存环节过关后，由系统自主检索相关记忆来答题，比较与理想检索的正确率下降值。该下降代表检索环节损失。

第三环节即默认条件下的整体表现，叠加两个环节的损失得出最终成绩。

从诊断结果看，各系统短板不同。A-Mem和OpenClaw在保存环节最佳，保存成功率分别达93.5%和91.5%。两者共同特点是：除整理结构化记忆条目外，还保留了原始对话记录。原始对话包含大量细节，这些细节在压缩摘要时容易丢失，而SubtleMemory题目往往需要这些细节。MemoBase保存环节仅39.1%，大量信息在初始步骤就丢失，但其检索环节相对较强（75.6%）——即虽然存进去的少，但只要存了基本能找到。OpenClaw保存良好，但检索时矛盾关系题目的检索成功率仅34.2%，导致最终矛盾关系正确率仅25.5%，说明正确召回冲突信息是棘手问题。

从关系类型看，矛盾关系信息在保存阶段就特别容易丢失，很可能因为冲突事实进入记忆系统时会相互干扰，被错误合并或丢弃；互补和矛盾关系题目在检索阶段也比细微区别关系更难，因为它们往往需要同时取出多条相关信息，而细微区别只需取出最匹配的一条。

八、测试结论的实际意义

从根本上说，这项研究用更精密的尺子衡量AI助手的“记忆质量”。此前研究问“AI记得住吗”，本研究问“AI记得清吗”——是否清晰记得不同时间、不同情境下说过的信息之间的关系，能否在需要时完整召回相关信息，能否在信息矛盾时诚实告知而非假装问题不存在。

测试结果表明，最佳系统距理想水平仍差近二十个百分点，而矛盾关系的处理即便在理想条件下也未能超过七成正确率。这对任何正在开发或使用长期AI助手的人都有重要参考价值：不要以为助手“记住”了你说过的话，就表示它真正“理解”了这些信息的关系。尤其当你的需求发生过变化、曾说过前后矛盾的话时，助手很可能基于错误理解给出看似合理的建议。

对于研究者而言，这项工作指明了清晰的改进方向：AI记忆系统需在信息存储时保留更多细节（尤其是时间和情境信息），在检索时能同时取回多条相关信息，在回答时能识别矛盾并保持诚实。任一方向的突破都能带来实质性提升。

有兴趣深入探索的读者，可通过arXiv:2606.05761查阅完整论文。研究团队的项目主页和代码也已公开，方便开发者在自有记忆系统上运行SubtleMemory测试。

Q&A

Q1：SubtleMemory评测基准关注AI记忆能力的哪个方面？

A：SubtleMemory并非测试AI能否记住某件事，而是测试其能否理清所记住的多条信息之间的关系。具体分三种情况：信息是互补的、仅在特定时间或情境下成立，还是互相矛盾。现有系统在三类场景下表现均有明显不足，矛盾关系处理尤其困难，即使最佳系统正确率也不到七成。

Q2：为什么AI记忆系统处理矛盾信息时表现特别差？

A：核心原因有二。其一，现有记忆系统在将对话整理成记忆条目时，冲突信息容易被错误合并或丢弃，存储阶段已损失关键细节。其二，大型语言模型本身面对不可调和的矛盾时，倾向于强行选择一方或编造理由，而非诚实承认冲突。两者叠加导致矛盾关系题目在所有类别中得分垫底。

Q3：A-Mem为何在保存环节表现特别突出？

A：A-Mem除整理结构化记忆条目外，还额外保留原始对话记录。原始对话包含大量细节，这些细节在压缩摘要时容易丢失，而SubtleMemory许多题目恰好需要这些细节才能答对。OpenClaw也有类似特点，两者保存成功率均超91%，远高于仅保存结构化摘要的系统。