微软ACL2026新作：AI长记忆双榜SOTA评测

2026-05-28阅读 0热度 0

SOTA

大语言模型的实际应用正在快速落地，但一个关键缺陷愈发突出：AI无法维持真正的长期记忆。目前主流的检索增强生成（RAG）方案确实能快速抓取历史信息，但其依赖的语义相似度检索存在致命漏洞：“语义相似”与“实际相关”经常脱钩。结果导致检索遗漏、无法识别信息之间的深层关联，更不用说进行逻辑推理了。

为破解这一难题，微软研究团队推出了AI记忆框架Mnemis。该框架借鉴认识论与认知科学，赋予AI超越“快速检索”的能力，实现“审慎推理”。在两个权威长期记忆基准测试上，Mnemis均达到当前最优（SOTA）水平，相关成果已被ACL 2026主会议接收。

△ Mnemis框架总体设计

RAG的“近视”短板

假设用户提问：“Da ve在2023年去过哪些城市？”正确答案是旧金山和底特律。传统RAG会将问题向量化，在历史对话中匹配语义最相似的片段。结果可能只找到“波士顿”和“旧金山”，完全遗漏“底特律”——因为“在底特律参加了一场会议”这条信息埋藏在一段长消息里，与“去过哪些城市”的字面语义相似度不足。更棘手的是，RAG也无法区分“波士顿”是Da ve的居住城市，而非旅行目的地。

这个案例暴露了传统RAG的三项根本缺陷：

孤立评分：每条记忆独立与查询比对，忽视记忆片段间的内在联系。

语义偏见：向量相似度偏重字面匹配，对间接相关但逻辑关键的信息天然“失明”。

无法推理：系统不理解对话历史包含哪些话题，以及话题之间的关联。

打个比方，RAG好比仅依据书名关键词在图书馆找书；而一位资深图书管理员会先查分类目录，从整个知识体系出发，系统定位所有相关书籍。

Mnemis核心设计：建构式索引+双系统检索

Mnemis之名源于希腊记忆女神，其架构清晰分为索引和检索两个阶段。

在索引阶段，传统RAG将对话切块、向量化后直接入库，不做任何结构建——对应认识论中的保存主义，记忆仅是信息的“搬运工”。而建构主义认为，记忆是主动加工过程，人类在“记住”的同时即在组织和抽象信息。

Mnemis正是建构主义的计算实现：它将碎片化对话组织成自适应的层级图，而非扁平的向量库。

具体构建两层结构：

第一层基础图谱（Base Graph），从对话中提取实体和关系，进行消歧、去重和聚合，消除信息碎片。

第二层层级图（Hierarchical Graph），在基础图谱之上，将具体实体归纳为更高层语义概念，并建立跨主题的高阶连接。例如，“旧金山”“底特律”归入“地理位置”概念，“地理位置”可能再归属于更高层“地理”类目。关键点是，每个用户的层级图均根据其自身数据自适应生成。

构建层级图遵循三大核心原则：最小概念抽象（MCA）确保每一层类别承载真实语义；多对多映射（M2M）允许一个实体隶属多个类别，防止从任何角度检索时遗漏；压缩效率约束（CEC）保证层级逐层压缩，整体紧凑。三者协同，从结构上保证信息无损和全局可达。

进入检索阶段，Mnemis受诺贝尔经济学奖得主丹尼尔·卡尼曼的“双系统理论”启发，融合两条互补检索路径。

系统一（快思考）将查询向量化，在基础图谱中快速匹配语义最相似的实体，适合回答直接、简单的问题。

系统二（慢思考）利用大语言模型（LLM）的推理能力，在层级图上自顶向下逐层遍历并智能筛选。当LLM确信某个类别下所有内容都相关时，可触发“捷径（Shortcut）”机制，直接获取该类别下全部后代节点，兼顾准确性与效率。

最终，系统一确保语义直接匹配的记忆不被遗漏，系统二确保结构相关但语义距离较远的记忆也被覆盖，二者融合互补，形成更全面的记忆检索。

△ 双系统检索流程示意

效果验证：双基准SOTA

研究团队在两个主流长期记忆基准上全面评估Mnemis。在LoCoMo基准上，准确率达93.9%；在LongMemEval-S基准上，准确率达91.6%。两项结果均显著优于现有RAG及Graph-RAG等方法。

值得注意的是，以上优异结果仅使用GPT-4.1-mini作为底层模型，充分证明Mnemis框架设计本身的有效性，而非单纯依赖大模型的能力。

△ LoCoMo基准性能对比

△ LongMemEval-S基准性能对比

案例分析

回到开头案例。面对“Da ve在2023年去过哪些城市”的查询，系统一通过语义匹配找到“波士顿”和“旧金山”，但遗漏“底特律”。系统二从层级图顶部出发，依次定位到“地理”→“地理位置”类别，触发“捷径”机制直接获取该类别下所有城市实体，成功检索到“底特律”。两条路径结果融合后，模型还能进一步推理，判断“波士顿”是居住城市而非旅行目的地，最终给出完整且正确的答案。

△ 案例一检索过程解析

另一个典型案例：“Sam遇到了什么健康问题促使他改变生活方式？”系统一被“健康问题”等关键词吸引，检索到“胃炎”这一急性事件。而系统二通过层级结构，定位到“身体健康”→“健康”→“健康因素”路径，聚合多条记忆后发现，真正驱动Sam长期改变生活方式的核心因素其实是“体重问题”，而非单次胃炎事件。这体现了系统二在抽象归因与长期动机分析上的独特价值。

思考与展望

Mnemis揭示了一个关键洞察：记忆系统的质量，很大程度上取决于“存储时做了什么”，而非仅仅“检索时怎么找”。

传统RAG几乎将所有智能押注在检索阶段，索引阶段仅简单分块和向量化，近乎无加工。Mnemis的设计理念则相反：在索引阶段进行深度语义建构，使检索阶段能同时利用快速匹配和结构遍历两种模式——这恰好对应人类记忆的两个关键特征：存储时的建构性，和提取时的双模式。

可以说，真正有价值的AI记忆，应当是有组织的、可推理的、双模式的，并且能持续进化。Mnemis正是朝着这个方向迈出的关键一步。

微软ACL2026新作：AI长记忆双榜SOTA评测

RAG的“近视”短板

Mnemis核心设计：建构式索引+双系统检索

效果验证：双基准SOTA

案例分析

思考与展望

相关阅读

最新教程

最新资讯