AI长记忆双榜SOTA:微软ACL2026权威评测报告
大语言模型在实际业务中加速落地,一个关键短板逐渐暴露——AI缺少真正意义上的长期记忆机制。目前普遍采用的RAG(检索增强生成)方案以语义相似度匹配历史数据,但“语义相似”未必等于“事实相关”,经常出现检索不全、相关性误判、缺乏逻辑推理等硬伤。
针对这些问题,微软研究团队推出全新AI记忆框架Mnemis,融合认识论与认知科学理论,让AI不止能“快速检索”,更能“精准推理”,在两个权威长期记忆测评基准上均达到SOTA。该成果已被ACL2026主会接收。
△图 1:Mnemis框架总览——层级图索引+双路径检索
RAG的“近视”短板
举个例子:用户问“Dave在2023年去过哪些城市?”,正确答案是旧金山和底特律。传统RAG将查询转为向量,在历史对话里找语义最接近的片段。结果它只翻出波士顿和旧金山,完全漏掉了底特律——因为“attended a conference in Detroit”藏在一段长消息里,与“去过哪些城市”的语义相似度不够。同时,RAG也无法判断波士顿是居住地而非旅行目的地。
这暴露出传统RAG的三个根本缺陷:
- 孤立评分——每条记忆独立与查询对比,忽视记忆间的关系;
- 语义偏差——向量相似度偏爱字面匹配,对间接相关的内容天然不敏感;
- 缺乏推理——系统不掌握对话历史中存在的话题层级与关联。
打个比方,RAG像按书名关键词搜书,而资深图书馆员会先查分类目录,从结构上系统定位所有相关书籍。
Mnemis核心设计:构建式索引+双系统检索
Mnemis取名自希腊神话的记忆女神,设计分为索引与检索两大阶段。
在索引阶段,传统RAG将对话拆分、向量化、存入数据库,不建任何结构——对应认识论中的保存主义,记忆只是知识的“搬运工”。而建构主义认为记忆是主动加工过程,人类在“记住”时已在组织与抽象。
Mnemis就是建构主义的计算落地:它把碎片化对话组织成自适应层级图,而非扁平向量库。
具体地,第一层是Base Graph(知识图谱),从对话中抽取实体与关系,进行消歧、去重、聚合,消除碎片。
第二层是Hierarchical Graph(层级图),在知识图谱基础上将具体实体归纳为高层语义概念,建立跨主题的高阶连接。例如,旧金山、底特律等实体会归入“Geographical Locations”概念,再进一步归入“Geography”类目。每个用户的层级图完全由自身数据自适应生成。
层级图构建遵循三大原则:最小概念抽象(MCA)确保每层类别承载真实语义;多对多映射(M2M)允许一个实体属于多个类别,任何角度检索都不会遗漏;压缩效率约束(CEC)确保层级逐层压缩,维持紧凑性。三者协同,从结构上保证信息无损且全局可达。
在检索阶段,Mnemis受诺贝尔经济学奖得主Daniel Kahneman的双系统理论启发,融合两条互补检索路径。System-1(快思考)将查询向量化,在Base Graph中快速匹配语义最接近的实体,适合直接简单的问题。System-2(慢思考)借助LLM的推理能力,在层级图上自顶向下逐层遍历、智能筛选。当LLM确信某个类别下的全部内容都相关时,触发Shortcut机制直接获取所有后代节点,兼顾准确性与效率。
最终,System-1确保语义直接匹配的记忆不遗漏,System-2确保结构相关但语义距离较远的记忆被覆盖,两者互补融合。
△图 2:Mnemis的双路径检索范式
效果验证:双基准SOTA
Mnemis在两个主流长期记忆基准上完成全面评估。在LoCoMo基准上准确率93.9%,在LongMemEval-S基准上准确率91.6%,均显著超越现有RAG及Graph-RAG方法。值得注意的是,以上结果仅使用GPT-4.1-mini作为底座模型,证明框架设计本身的效力。
△图3:LoCoMo基准实验结果
△图 4:LongMemEval-S基准实验结果
案例分析
回到开头的案例。面对“Dave在2023年去过哪些城市”这一查询,System-1通过语义匹配找到波士顿和旧金山,但遗漏了底特律。System-2从层级图顶部出发,依次定位到Geography→Geographical Locations,触发Shortcut直接获取所有城市实体,成功检索到底特律。两条路径融合后,模型进一步推理判断波士顿为居住城市而非旅行目的地,最终给出完整正确答案。
△图5:案例分析——System-1与System-2的互补
另一个典型案例是“Sam遇到了什么健康问题促使他改变生活方式”。System-1被“health issue”等关键词吸引,检索到胃炎这一急性事件;而System-2通过层级结构定位到Physical Well-Being→Health→Health Factors,聚合多条记忆后发现,真正驱动Sam长期改变生活方式的核心因素是体重问题而非单次胃炎事件。这体现了System-2在抽象归因和长期动机分析上的独特价值。
思考与展望
Mnemis揭示了一个关键洞见:记忆系统的质量,很大程度上取决于“存储时做了什么”,而非仅仅是“检索时怎么找”。
传统RAG把所有智能都押在检索阶段,索引阶段几乎是无加工的块级向量化。Mnemis的设计理念是在索引阶段进行深度语义构建,使检索阶段能同时利用快速匹配与结构遍历——这恰好对应人类记忆的两个核心特征:存储时的建构性与提取时的双模式。团队认为,真正的AI记忆应当是有组织的、可推理的、双模式的、并能持续进化的。Mnemis是朝着这个方向迈出的重要一步。
论文链接:https://arxiv.org/abs/2602.15313
GitHub:https://github.com/microsoft/Mnemis




