微软ACL2026新作:AI长记忆双榜SOTA评测
大语言模型的实际应用正在快速落地,但一个关键缺陷愈发突出:AI无法维持真正的长期记忆。目前主流的检索增强生成(RAG)方案确实能快速抓取历史信息,但其依赖的语义相似度检索存在致命漏洞:“语义相似”与“实际相关”经常脱钩。结果导致检索遗漏、无法识别信息之间的深层关联,更不用说进行逻辑推理了。
为破解这一难题,微软研究团队推出了AI记忆框架Mnemis。该框架借鉴认识论与认知科学,赋予AI超越“快速检索”的能力,实现“审慎推理”。在两个权威长期记忆基准测试上,Mnemis均达到当前最优(SOTA)水平,相关成果已被ACL 2026主会议接收。
△ Mnemis框架总体设计
RAG的“近视”短板
假设用户提问:“Da ve在2023年去过哪些城市?”正确答案是旧金山和底特律。传统RAG会将问题向量化,在历史对话中匹配语义最相似的片段。结果可能只找到“波士顿”和“旧金山”,完全遗漏“底特律”——因为“在底特律参加了一场会议”这条信息埋藏在一段长消息里,与“去过哪些城市”的字面语义相似度不足。更棘手的是,RAG也无法区分“波士顿”是Da ve的居住城市,而非旅行目的地。
这个案例暴露了传统RAG的三项根本缺陷:
孤立评分:每条记忆独立与查询比对,忽视记忆片段间的内在联系。
语义偏见:向量相似度偏重字面匹配,对间接相关但逻辑关键的信息天然“失明”。
无法推理:系统不理解对话历史包含哪些话题,以及话题之间的关联。
打个比方,RAG好比仅依据书名关键词在图书馆找书;而一位资深图书管理员会先查分类目录,从整个知识体系出发,系统定位所有相关书籍。
Mnemis核心设计:建构式索引+双系统检索
Mnemis之名源于希腊记忆女神,其架构清晰分为索引和检索两个阶段。
在索引阶段,传统RAG将对话切块、向量化后直接入库,不做任何结构建——对应认识论中的保存主义,记忆仅是信息的“搬运工”。而建构主义认为,记忆是主动加工过程,人类在“记住”的同时即在组织和抽象信息。
Mnemis正是建构主义的计算实现:它将碎片化对话组织成自适应的层级图,而非扁平的向量库。
具体构建两层结构:
第一层基础图谱(Base Graph),从对话中提取实体和关系,进行消歧、去重和聚合,消除信息碎片。
第二层层级图(Hierarchical Graph),在基础图谱之上,将具体实体归纳为更高层语义概念,并建立跨主题的高阶连接。例如,“旧金山”“底特律”归入“地理位置”概念,“地理位置”可能再归属于更高层“地理”类目。关键点是,每个用户的层级图均根据其自身数据自适应生成。
构建层级图遵循三大核心原则:最小概念抽象(MCA)确保每一层类别承载真实语义;多对多映射(M2M)允许一个实体隶属多个类别,防止从任何角度检索时遗漏;压缩效率约束(CEC)保证层级逐层压缩,整体紧凑。三者协同,从结构上保证信息无损和全局可达。
进入检索阶段,Mnemis受诺贝尔经济学奖得主丹尼尔·卡尼曼的“双系统理论”启发,融合两条互补检索路径。
系统一(快思考)将查询向量化,在基础图谱中快速匹配语义最相似的实体,适合回答直接、简单的问题。
系统二(慢思考)利用大语言模型(LLM)的推理能力,在层级图上自顶向下逐层遍历并智能筛选。当LLM确信某个类别下所有内容都相关时,可触发“捷径(Shortcut)”机制,直接获取该类别下全部后代节点,兼顾准确性与效率。
最终,系统一确保语义直接匹配的记忆不被遗漏,系统二确保结构相关但语义距离较远的记忆也被覆盖,二者融合互补,形成更全面的记忆检索。
△ 双系统检索流程示意
效果验证:双基准SOTA
研究团队在两个主流长期记忆基准上全面评估Mnemis。在LoCoMo基准上,准确率达93.9%;在LongMemEval-S基准上,准确率达91.6%。两项结果均显著优于现有RAG及Graph-RAG等方法。
值得注意的是,以上优异结果仅使用GPT-4.1-mini作为底层模型,充分证明Mnemis框架设计本身的有效性,而非单纯依赖大模型的能力。
△ LoCoMo基准性能对比
△ LongMemEval-S基准性能对比
案例分析
回到开头案例。面对“Da ve在2023年去过哪些城市”的查询,系统一通过语义匹配找到“波士顿”和“旧金山”,但遗漏“底特律”。系统二从层级图顶部出发,依次定位到“地理”→“地理位置”类别,触发“捷径”机制直接获取该类别下所有城市实体,成功检索到“底特律”。两条路径结果融合后,模型还能进一步推理,判断“波士顿”是居住城市而非旅行目的地,最终给出完整且正确的答案。
△ 案例一检索过程解析
另一个典型案例:“Sam遇到了什么健康问题促使他改变生活方式?”系统一被“健康问题”等关键词吸引,检索到“胃炎”这一急性事件。而系统二通过层级结构,定位到“身体健康”→“健康”→“健康因素”路径,聚合多条记忆后发现,真正驱动Sam长期改变生活方式的核心因素其实是“体重问题”,而非单次胃炎事件。这体现了系统二在抽象归因与长期动机分析上的独特价值。
思考与展望
Mnemis揭示了一个关键洞察:记忆系统的质量,很大程度上取决于“存储时做了什么”,而非仅仅“检索时怎么找”。
传统RAG几乎将所有智能押注在检索阶段,索引阶段仅简单分块和向量化,近乎无加工。Mnemis的设计理念则相反:在索引阶段进行深度语义建构,使检索阶段能同时利用快速匹配和结构遍历两种模式——这恰好对应人类记忆的两个关键特征:存储时的建构性,和提取时的双模式。
可以说,真正有价值的AI记忆,应当是有组织的、可推理的、双模式的,并且能持续进化。Mnemis正是朝着这个方向迈出的关键一步。




