AI长记忆双榜SOTA：微软ACL2026权威评测报告

2026-05-28阅读 0热度 0

SOTA

大语言模型在实际业务中加速落地，一个关键短板逐渐暴露——AI缺少真正意义上的长期记忆机制。目前普遍采用的RAG（检索增强生成）方案以语义相似度匹配历史数据，但“语义相似”未必等于“事实相关”，经常出现检索不全、相关性误判、缺乏逻辑推理等硬伤。

针对这些问题，微软研究团队推出全新AI记忆框架Mnemis，融合认识论与认知科学理论，让AI不止能“快速检索”，更能“精准推理”，在两个权威长期记忆测评基准上均达到SOTA。该成果已被ACL2026主会接收。

△图 1：Mnemis框架总览——层级图索引+双路径检索

RAG的“近视”短板

举个例子：用户问“Dave在2023年去过哪些城市？”，正确答案是旧金山和底特律。传统RAG将查询转为向量，在历史对话里找语义最接近的片段。结果它只翻出波士顿和旧金山，完全漏掉了底特律——因为“attended a conference in Detroit”藏在一段长消息里，与“去过哪些城市”的语义相似度不够。同时，RAG也无法判断波士顿是居住地而非旅行目的地。

这暴露出传统RAG的三个根本缺陷：

孤立评分——每条记忆独立与查询对比，忽视记忆间的关系；
语义偏差——向量相似度偏爱字面匹配，对间接相关的内容天然不敏感；
缺乏推理——系统不掌握对话历史中存在的话题层级与关联。

打个比方，RAG像按书名关键词搜书，而资深图书馆员会先查分类目录，从结构上系统定位所有相关书籍。

Mnemis核心设计：构建式索引+双系统检索

Mnemis取名自希腊神话的记忆女神，设计分为索引与检索两大阶段。

在索引阶段，传统RAG将对话拆分、向量化、存入数据库，不建任何结构——对应认识论中的保存主义，记忆只是知识的“搬运工”。而建构主义认为记忆是主动加工过程，人类在“记住”时已在组织与抽象。

Mnemis就是建构主义的计算落地：它把碎片化对话组织成自适应层级图，而非扁平向量库。

具体地，第一层是Base Graph（知识图谱），从对话中抽取实体与关系，进行消歧、去重、聚合，消除碎片。

第二层是Hierarchical Graph（层级图），在知识图谱基础上将具体实体归纳为高层语义概念，建立跨主题的高阶连接。例如，旧金山、底特律等实体会归入“Geographical Locations”概念，再进一步归入“Geography”类目。每个用户的层级图完全由自身数据自适应生成。

层级图构建遵循三大原则：最小概念抽象（MCA）确保每层类别承载真实语义；多对多映射（M2M）允许一个实体属于多个类别，任何角度检索都不会遗漏；压缩效率约束（CEC）确保层级逐层压缩，维持紧凑性。三者协同，从结构上保证信息无损且全局可达。

在检索阶段，Mnemis受诺贝尔经济学奖得主Daniel Kahneman的双系统理论启发，融合两条互补检索路径。System-1（快思考）将查询向量化，在Base Graph中快速匹配语义最接近的实体，适合直接简单的问题。System-2（慢思考）借助LLM的推理能力，在层级图上自顶向下逐层遍历、智能筛选。当LLM确信某个类别下的全部内容都相关时，触发Shortcut机制直接获取所有后代节点，兼顾准确性与效率。

最终，System-1确保语义直接匹配的记忆不遗漏，System-2确保结构相关但语义距离较远的记忆被覆盖，两者互补融合。

△图 2：Mnemis的双路径检索范式

效果验证：双基准SOTA

Mnemis在两个主流长期记忆基准上完成全面评估。在LoCoMo基准上准确率93.9%，在LongMemEval-S基准上准确率91.6%，均显著超越现有RAG及Graph-RAG方法。值得注意的是，以上结果仅使用GPT-4.1-mini作为底座模型，证明框架设计本身的效力。

△图3：LoCoMo基准实验结果

△图 4：LongMemEval-S基准实验结果

案例分析

回到开头的案例。面对“Dave在2023年去过哪些城市”这一查询，System-1通过语义匹配找到波士顿和旧金山，但遗漏了底特律。System-2从层级图顶部出发，依次定位到Geography→Geographical Locations，触发Shortcut直接获取所有城市实体，成功检索到底特律。两条路径融合后，模型进一步推理判断波士顿为居住城市而非旅行目的地，最终给出完整正确答案。

△图5：案例分析——System-1与System-2的互补

另一个典型案例是“Sam遇到了什么健康问题促使他改变生活方式”。System-1被“health issue”等关键词吸引，检索到胃炎这一急性事件；而System-2通过层级结构定位到Physical Well-Being→Health→Health Factors，聚合多条记忆后发现，真正驱动Sam长期改变生活方式的核心因素是体重问题而非单次胃炎事件。这体现了System-2在抽象归因和长期动机分析上的独特价值。

思考与展望

Mnemis揭示了一个关键洞见：记忆系统的质量，很大程度上取决于“存储时做了什么”，而非仅仅是“检索时怎么找”。

传统RAG把所有智能都押在检索阶段，索引阶段几乎是无加工的块级向量化。Mnemis的设计理念是在索引阶段进行深度语义构建，使检索阶段能同时利用快速匹配与结构遍历——这恰好对应人类记忆的两个核心特征：存储时的建构性与提取时的双模式。团队认为，真正的AI记忆应当是有组织的、可推理的、双模式的、并能持续进化的。Mnemis是朝着这个方向迈出的重要一步。

论文链接：https://arxiv.org/abs/2602.15313

GitHub：https://github.com/microsoft/Mnemis

AI长记忆双榜SOTA：微软ACL2026权威评测报告

RAG的“近视”短板

Mnemis核心设计：构建式索引+双系统检索

效果验证：双基准SOTA

案例分析

思考与展望

相关阅读

最新教程

最新资讯