韩阳大学团队AI助手研究:如何让智能体真正记住并适应你的习惯
这项由韩国汉阳大学自然语言处理实验室主导的研究,其预印本已于2026年4月发布于arXiv平台,论文编号为arXiv:2604.17886v1。读者可通过此编号获取并查阅论文全文。
你是否厌倦了每次使用订餐应用都要重复选择“价格便宜”?或者向语音助手发出“订机票”指令后,它仍会追问舱位选择——尽管你过去一百次都选了经济舱。这些日常挫败感指向一个核心缺陷:当前的AI助手拥有记忆,却缺乏真正的“用户认知”。
汉阳大学团队正是从这一痛点出发,致力于解决一个长期存在的挑战:当用户提出模糊或不完整的请求时,AI能否基于对用户历史行为的深度解读,自动补全那些未被言明的关键细节?
这远比听起来复杂。用户偏好往往并非通过直接声明表达,而是隐含在一系列具体选择之中。连续三次选择廉价韩餐、预订免费公园门票、租赁紧凑型轿车——将这些离散行为串联分析,一个“注重性价比”的用户画像便清晰浮现。然而,用户从未在对话中明确说出“我偏好低价”。研究团队将这种隐藏的行为模式定义为“潜在偏好”,而教会AI识别并运用此类偏好,正是本论文的核心突破。
为实现这一目标,团队完成了两项关键工作:首先是构建了一个专门的评估基准MPT(多会话个性化工具调用基准);其次是提出了一种名为PREFINE的创新方法,旨在从历史对话中提炼用户的潜在偏好,并将其应用于未来的决策中。实验数据表明,PREFINE不仅显著提升了任务准确率,更将记忆开销压缩至完整历史记录的1.24%,实现了计算资源的高效利用。
一、为什么“记住你选过什么”还不够
在深入探讨前,必须明确一个根本区别:记录用户行为与理解行为动机,是截然不同的两件事。
我们可以用刑侦工作来类比。普通文员只负责记录每个案件的现场细节,而资深侦探则擅长在不同案件间寻找关联,最终推断出嫌疑人的作案动机。AI助手在处理用户偏好时面临同样的困境:仅仅记录“本次选择了经济舱”是文员的工作;而从多次出行记录中推断出“该用户具有成本节约倾向”,才是侦探级的能力。
研究发现,现有的AI记忆方案大多扮演着“文员”角色。例如常见的RAG(检索增强生成)方法,会存储原始对话片段并在需要时检索;Mem0和LangMem等系统则将对话压缩成简短的事实摘要。这些方法在处理简单、重复的请求时可能有效,但一旦面临需要跨场景推理的复杂情境,其局限性便暴露无遗。
举例说明,如果用户仅有餐厅预订和出行安排的历史记录,当首次请求预订酒店时,过去的具体行为无法直接指示应选择何种星级。然而,若AI真正理解了用户“具有节俭的消费观”,它自然会倾向于推荐经济型酒店。这种从具体行为中抽象出通用规律,并将规律应用于全新场景的能力,正是研究所定义的“潜在偏好建模”。
二、给“偏好”画一张地图:MPT数据集是怎么建成的
要系统评估AI对用户偏好的理解能力,首先需要一套严谨的“考题”。研究团队构建的MPT数据集,就如同为侦探能力设计的一套标准化测试,专门用于衡量AI在复杂情境下推断用户隐性需求的能力。
MPT基于现有的SGD(模式引导对话)数据集构建。SGD包含了超过两万个涵盖20个生活服务领域的对话。研究团队从中筛选出合适的对话,将来自同一虚拟用户的多个独立会话重新组合成“多会话历史”,以此模拟真实用户与AI助手在不同时间、针对不同需求进行的完整交互轨迹。
接下来是关键步骤:偏好标注。由于SGD本身未包含偏好标签,团队需要手动将各种API参数(即AI调用服务时填写的具体选项,如价格档次、出行人数)归类到更高层次的偏好类别中。他们设计了两大核心偏好组:预算偏好与出行规模偏好。预算偏好进一步细分为“低消费”和“高消费”,前者涵盖“价格档次=便宜”、“是否免费入场=是”等参数,后者则对应“价格档次=高档”、“车型=大型”等。出行规模偏好则区分了“独行”与“多人同行”。
此标注体系的精妙之处在于,其分类依据是行为背后的逻辑动机,而非具体的字段名称。这意味着,无论涉及哪项服务、使用哪个参数,只要该选择反映了“用户希望节省开支”,就会被归入同一偏好类别。这种设计赋予了分类体系强大的跨服务通用性。
为确保分类符合人类直觉,团队邀请了19位志愿者进行标注验证。结果显示,预算类别的一致率达到89.7%,出行规模类别高达97.4%。这证实了团队设计的偏好分类方式与普通用户的认知高度吻合。
在构建测试题目时,团队还特意设计了两种难度模式:一种是“情境引导型”,对话中已提供部分明确信息,仅缺失某个关键参数;另一种是“无情境型”,连明确信息也缺失,AI必须完全依赖用户历史行为来猜测偏好。后者无疑是考题中的难点——用户未提供任何直接线索,AI仅能依靠“侦探档案”进行独立判断。
最终,MPT包含265个多会话对话,涵盖2020个独立会话和近四万轮对话。数据集设计了三种题型:332道“偏好回忆”题(用户在同一领域重复相同选择)、293道“偏好归纳”题(需要跨领域汇总线索进行推理),以及472道“偏好迁移”题(目标领域无任何先例,必须从其他领域迁移规律)。
三、三种考题,考验三种不同的侦探能力
研究团队将用户偏好的推断挑战划分为三个层次,每个层次对应着侦探工作中的一种典型能力。
第一层是“偏好回忆”。以机票预订为例,假设用户历史记录中有三次都选择了经济舱。当用户再次发出“帮我订一张机票”的指令时,AI只需检索同类历史档案,找到一致规律即可。这考验的是基础的“记忆”能力,而非深层“推断”。
第二层是“偏好归纳”。假设用户从未在乘机记录中明确选择舱位,但在餐厅选择了便宜韩餐,在景点选择了免费公园,在租车时选择了紧凑型车。此时,AI需要解答一道综合题:这些来自不同领域的节俭行为,能否共同支撑起“此人倾向于低消费”的结论,并据此推断其会选择经济舱?这要求侦探具备跨案件归纳的能力,从看似无关的线索中识别出共同行为模式。
第三层是“偏好迁移”。难度再次升级:用户不仅在目标领域(如机票)没有明确选择,甚至连可供横向类比的其他领域选择也极少。AI必须从极为有限的、跨域的行为证据出发,推断出一个能够应用到全新场景的通用偏好。这如同侦探面对一个全新类型的案件,必须调用所有办案经验进行判断,而没有任何直接相似的先例可供参考。
研究发现,现有的AI记忆方法在第一类考题上表现尚可,但在第二、第三类考题上成绩出现显著下滑。以最基础的“全历史提示”方法为例,在无情境题目中,其偏好回忆的F1分数为53.19%,偏好归纳为43%,到了偏好迁移,则骤降至16.26%。这种断崖式下跌揭示了一个关键问题:将全部历史记录呈现给AI,并不等同于AI能够真正理解用户。
四、PREFINE:像培养一个真正了解你的助手
正是为了攻克上述难题,研究团队设计了PREFINE方法。如果将普通的记忆系统比作一个将所有案卷堆放在桌上的档案管理员,那么PREFINE就更像一位经验丰富的侦探,他会持续总结、修正自己对行为规律的判断,并将最终结论凝练成可随时调用的“用户行为画像”。
PREFINE的工作机制可以理解为一个动态循环:每当一轮新的对话结束,AI(即“侦探”)会审视此次对话,尝试提出一个新的假设来解释用户行为;接着对这个假设进行自我审查,评估其是否合理;若未通过,则修改假设并再次审查。这个“生成假设→验证假设→精炼假设”的过程,在论文中被称为“生成-验证-精炼”循环。
具体而言,PREFINE的“生成假设”模块负责从当前对话内容、调用的服务接口以及已积累的偏好记忆出发,生成一个对用户偏好的新描述。这个描述不是具体的选项记录,而是一种抽象的行为规律,例如“用户倾向于在各类服务中选择经济实惠的选项”。
“验证假设”模块则扮演质疑者的角色,依据四条核心标准来判断假设的可靠性:证据是否充分(由多次一致行为支撑)、抽象程度是否合适(不能是具体选择的同义重复)、是否具有可操作性(能指导未来的具体选择)、是否在时间上保持一致(能反映用户最新的行为变化)。
如果验证通过,该假设便作为用户当前的“偏好画像”存入记忆。如果未通过,“精炼假设”模块会根据反馈意见调整描述,并重新验证,此过程最多循环三次。论文中的一个实例详细展示了这一过程:在分析第一次对话(用户选择了评分为6的电影)后,AI最初提出“用户偏好评分中等的电影”,但被验证模块否决,认为描述过于具体且依据不足;修改为“用户偏好容易获取的电影内容”后再次被否,认为对未来决策指导意义不足;第三次修改为“用户对电影兴趣有限”,这才通过验证。随着更多会话的加入,偏好描述逐渐演化为“用户在各类服务中倾向于经济实惠和简单的选择”,最终凝练为一句话的行为画像存入记忆。
PREFINE还有一个关键设计:其记忆内容是抽象的、与具体服务接口无关的语言描述,而非特定服务字段的具体值。这意味着,即使未来AI调用的服务接口更换了字段名称,甚至进入了从未涉足的服务领域,先前积累的偏好记忆依然有效。在接入新接口时,AI会将抽象的偏好描述重新映射到新接口的具体字段上。团队专门在七个全新服务领域(如露营地预订、城市旅游等)上验证了这一特性,这些领域的字段名称与训练时完全不同。结果显示,使用GPT-5作为推理模型时,PREFINE的性能提升显著,证明了其记忆内容具备真正的跨域迁移能力。
五、数字背后的故事:实验结果说明了什么
研究团队使用MPT数据集对多种方法进行了系统性对比评估。参与对比的推理模型涵盖了从轻量级到旗舰级的不同档次,基准方法则包括直接提供全部历史记录的“全历史提示”方式,以及RAG、Mem0、LangMem三种主流记忆增强方法。
在情境引导型题目上,PREFINE在偏好精确匹配率方面,平均比全历史提示方式高出约13个百分点。在更具挑战的无情境型题目上,PREFINE在偏好推断F1分数方面平均提升约3.4个百分点,在偏好归纳类别上的提升更是达到9个百分点。
RAG方法在偏好回忆类题目上表现尚可,但在偏好归纳和迁移任务上明显落后。LangMem在回忆类题目上甚至取得了64.4%的分数,但同样无法将优势延续到更复杂的题目上。这印证了团队的核心判断:现有方法擅长表面记录,而非深层推理。
内存效率的对比数据同样具有说服力。全历史提示方法平均每个用户需消耗1883.57个token存储记忆;而PREFINE仅需23.28个,相当于前者的1.24%。更值得注意的是,随着会话数量的增加,全历史提示所需的token量持续线性增长,而PREFINE的记忆大小几乎保持稳定。这是因为PREFINE存储的是精炼后的行为规律,新的会话只会用于更新和完善这条规律,而不会叠加新的原始内容。
研究还发现,PREFINE改善了AI对参数数量的预测校准。API调用不仅要填对参数值,还要准确判断需要填写多少个参数。使用全历史提示方法时,AI预测的参数数量与真实所需数量之间存在较大偏差;使用PREFINE后,这一偏差显著降低。换言之,PREFINE让AI在决定“该填什么”的同时,也更准确地知道“该填多少”。
实验也客观指出,PREFINE并非对所有模型都表现出均匀的性能增益。对于某些本就倾向于低估参数数量的模型,PREFINE进一步收紧行动范围的效果,反而导致了轻微的召回率下降。研究团队认为,这并非根本性缺陷,而是一种可预期的权衡:更精准的范围限定有时会以牺牲部分召回率为代价,来换取更高的精确率。
六、PREFINE和它的竞争对手到底有何不同
要深入理解PREFINE的有效性,可以将其与其他记忆方法进行更细致的比较,如同审视不同流派的侦探工作方式。
RAG的工作方式是将所有历史对话原文存档,需要时根据当前问题检索最相关的片段。这就像一个档案馆员工,每次接待客户都去翻阅原始卷宗。其问题在于,原始文件充满细节噪音,且相关性判断依赖于文字表面的相似性,不涉及对行为规律的理解。
Mem0则将历史对话压缩成简短的事实陈述(如“用户订了经济舱”),存储这些摘要事实,检索时找出最匹配的几条。问题在于,这些仍然是具体行为的记录,而非行为背后的驱动规律。
LangMem更进一步,它会利用AI将历史信息整理成结构化的知识(包括语义类、情节类和程序类)。它比Mem0更接近“理解”,但其存储形式仍以“已知事实”为主,缺乏动态验证和跨域抽象的机制。
PREFINE的独特之处在于,它存储的不是“用户做了什么”,而是“用户为什么这么做的抽象规律”;不是一堆事实记录的堆砌,而是一条经过多轮验证、反复修正的行为假设。这条假设足够抽象以跨越服务领域,足够精练以一句话表达,又足够可操作以指导具体参数填写。研究团队将这种记忆形式总结为“可修订的偏好假设”,强调了其动态性和可操作性,这是其他方法所不具备的核心特征。
归根结底,这项研究揭示了一个关于AI个性化的根本性问题:真正了解一个人,不在于记住他做过什么,而在于理解他行为背后的逻辑。
当前的AI助手在记忆容量上已无短板,RAG、Mem0、LangMem都能存储海量信息。但实验结果清晰地表明,存储越多并不等同于理解越深。一个将用户所有历史记录都塞进来的AI,在面对新的、跨域的偏好推断任务时,其表现甚至不如一个将历史行为提炼成一句精准结论的AI。
PREFINE的思路指出了一个值得关注的发展方向:与其让AI机械地背诵你的选择清单,不如让它学会识别你行为背后的逻辑模式。这种逻辑一旦被准确提炼,不仅适用于你曾使用过的服务,也适用于你将来第一次接触的任何新服务。这意味着,一个真正“懂你”的AI助手,在你首次预订豪华露营时,就能根据你一贯的节俭习惯,自动推荐标准帐篷而非豪华木屋,而无需你再次解释。
当然,这项研究仍存在许多待探索的领域。目前MPT的偏好类别还相对有限,现实中用户的偏好要复杂得多,且会随时间动态演变。此外,真实用户的历史记录往往更加杂乱,充满噪音和矛盾选择。研究团队也指出,未来的工作需要扩展到更丰富的偏好分类体系、能够随时间演化的偏好建模机制,以及应对更长、更嘈杂的交互历史的能力。
对于普通用户而言,这项研究带来的启示是:未来的AI助手可能会越来越少地追问“你想要什么”,而是越来越多地基于对你这个人的深度理解,主动提供恰如其分的建议。然而,这也引出了一个值得深思的议题:当AI不再仅仅是一个工具,而是一个真正记住你行为规律的“数字同伴”时,我们该如何界定与看待这种新型关系?
有兴趣深入了解的读者可通过arXiv编号2604.17886查阅完整论文。同时,MPT数据集和PREFINE代码均已开源。
Q&A
Q1:MPT基准数据集中的“偏好归纳”和“偏好迁移”有什么区别?
A:偏好归纳要求AI从用户在多个不同领域的行为中找出共同的规律。例如,用户在餐厅、景点和租车时都选择了便宜选项,AI需要归纳出“用户偏好低消费”这一抽象规律,并用它来预测用户在新情境下的选择。偏好迁移的难度更高,目标领域没有任何直接的历史证据,AI必须将从其他领域总结出的规律,直接应用到一个全新的服务上,相当于在零先例情况下进行推断。
Q2:PREFINE的“生成-验证-精炼”循环具体是怎么运作的?
A:每当一轮新的对话结束,PREFINE会先生成一个对用户偏好的抽象描述,然后用四条标准进行验证:证据是否充分、抽象程度是否合适、是否能指导未来选择、是否与最新行为一致。验证通过则存入记忆;若不通过,则根据反馈意见修改描述,并重新验证,此过程最多循环三次。最终存储的是一句精炼的行为规律描述,而非具体的选项记录。
Q3:PREFINE的记忆内容为什么能在服务接口更换后依然有效?
A:因为PREFINE存储的是抽象的行为规律描述(如“用户倾向于在各类服务中选择经济实惠的选项”),而不是某个特定服务字段的具体值。在使用新的服务接口时,AI会把这条抽象描述重新映射到新接口的具体字段上。实验中使用了七个全新服务领域进行验证,这些领域的字段名称与训练时完全不同,结果依然保持了明显的性能优势。
