压缩为单点 新加坡国立大学实现AI问答效率提升10倍
在手机里存了几百张照片,想找其中一张时,系统必须逐一加载所有缩略图才能定位目标。如今的AI助手回答问题时,面临同样的困境——只不过它搜索的不是照片,而是庞大的文字或图片资料。更棘手的是,AI不仅要定位相关资料,还得完整“读取”整段文字或整张图片,才能输出答案。这一过程既耗时间又占算力,在手机、智能手表等计算资源有限的设备上几乎无法落地。
新加坡国立大学研究团队提出了一套极具创造力的方案,命名为“潜在记忆”(Latent Memory)。核心思路是:将每一条知识片段——无论是文本段落还是图像——压缩成一个微型“记忆胶囊”,然后让AI直接在这些胶囊上完成问答,完全无需调取原始文字或图片。这套方法使AI处理多模态知识问答时,计算资源消耗降低了3到10倍,同时准确率稳定在高位,在图像类问答上甚至超过了当前最强的对比方案。
一、AI助手为何要“翻箱倒柜”?
用一个日常场景来类比:假设你担任助理,老板让你回答“安妮·莫顿和特里·理查森谁更年长”。你的桌面上散落着几百份文件和几十张照片,答案就藏在其中。你不可能通读所有材料,所以先快速扫描标签,挑出最相关的两三份,再仔细阅读,最终给出答案。
当下的AI助手执行的是完全相同的流程。它依赖一套“检索增强生成”(RAG)系统:先从大规模资料库中检索出最相关的几条,继而将这些资料完整送入AI,让AI读完后再作答。这套系统的困境在于,每次输入给AI的原始文字或图片内容量极其庞大。
处理文字时,每条资料可能包含几十乃至上百个词汇,AI需要逐一处理。处理图片时情况更糟——现有视觉AI系统在解析一张普通图片时,会将其拆解成256到576个“视觉符号”,相当于把一张照片转化成一篇几百字的文章。当需要同时参考多张图片来回答问题时,AI必须一次性处理几千个符号,这对设备的算力和内存提出了极高要求。
在边缘设备(如手机、智能手表、物联网终端)上,这种“大进大出”的处理模式完全无法承受。新加坡国立大学团队正是从这个真实痛点出发,探索全新的知识存储与调取方式。
二、把知识压成“一粒种子”:潜在记忆的核心思路
这个团队的核心想法可以用“晶体存档”来比喻。一颗微小水晶看似只是闪光的固体,但科幻故事中它却能存储整个文明的记忆。潜在记忆做的事情与此类似——将一段文字或一张图片,通过一个专门训练的“压缩器”AI,凝结成一个高维数字向量,即一串代表知识精华的数字。研究团队把这个凝结后的产物称为“潜在记忆符号”,每条知识只对应一个这样的符号。
这里需要理解“高维度向量”的概念。普通温度计只有一个维度——高或低。GPS坐标有两个维度——经度和纬度。而潜在记忆符号拥有2048个或4096个维度,每个维度都编码了原始知识的某一侧面。这就像一个超级精密的DNA片段,每个碱基对都承载着关于原始资料的某种信息。
整套系统的工作流程分为三个阶段。第一阶段是“建档”:用一个小型压缩器AI将每条知识(文字或图片)处理一遍,生成对应的潜在记忆符号,然后丢弃原始文字和图片,仅保留这些符号。第二阶段是“检索”:当用户提出问题,将该问题同样压缩成一个向量,然后在所有潜在记忆符号中找出最接近的几个,即“最相关的知识”。第三阶段是“作答”:将找到的潜在记忆符号直接投射到大型AI的输入空间,让大型AI读取这些“知识胶囊”生成答案,全程无需展开任何原始文字或图片。
相比之下,传统做法是将原始文字和图片直接塞入AI,而潜在记忆换成了只塞几个胶囊,每个胶囊代表一整条知识。这正是计算量大幅降低的根本原因。
三、如何让“一粒种子”包含足够多的信息?
一个自然的疑问是:将一整段文字压缩成一个数字符号,信息不会丢失吗?答案是会有损失,但研究团队设计了一套精密的训练方案,使这种损失尽可能小,并且保留下来的信息恰好是对检索和作答最有用的部分。
训练这个压缩器AI的方法,可以类比培训一位专业速记员。这位速记员需要同时满足三个要求:第一,他的速记笔记必须足够完整,事后能基本还原出原文;第二,他在记笔记时必须采用一种特别的方式,让相关主题的笔记在某种意义上“距离更近”,不相关的“距离更远”,方便后续快速查找;第三,他的笔记交给老板(即大型AI)看时,老板凭借笔记能给出与看原文同样准确的答案。
对应到技术上,研究团队设计了三种训练信号。其一是“重建损失”——让压缩器产生的符号通过一个小型解码器,尝试还原出原始文字(或原始图片的特征),通过比较还原质量来优化压缩器,确保知识精华没有大量流失。对图片,团队采用了更聪明的做法:不直接重建像素,而是重建图片的“CLIP特征”(即图片内容的高度概括),再通过扩散模型将该特征变回图片,这样存储成本大幅降低的同时语义信息得以保留。其二是“对比损失”——让问题对应的向量在数字空间中靠近正确答案对应的知识符号,远离不相关的知识符号,就像在一个超高维地图上把相关内容聚集到一起。其三是“蒸馏损失”——让大型AI读取潜在记忆符号时产生的回答,尽量接近它读取原始文字和图片时的回答,保证信息传递的忠实度。这三种损失信号同时优化,合力使压缩器产生出既擅长检索、又擅长还原、还擅长被大型AI理解的知识胶囊。
值得注意的是,在整个训练过程中,大型AI的参数始终保持冻结(不做任何修改),只调整小型压缩器的参数以及几个连接用的映射层。这样做的好处是避免了“灾难性遗忘”——大型AI不会因为适应新格式而忘记原本学到的能力,并且任何已有的大型AI都可以被配合使用,无需重头训练。
四、从文字到图片,一套系统全部搞定
潜在记忆最独特的地方在于,它同时处理文字和图片,并将它们统一到同一个数字空间中。这意味着,当你提出一个涉及图片的问题时,系统可以同时在文字知识和图片知识里搜索,找到最相关的内容,而无需分别维护两套系统。
回到之前的速记员比喻:如果速记员不仅能速记文字资料,还能用同样的符号系统速记照片内容,那么老板在找资料时,不需要区分“查文字档案”还是“查图片档案”,直接在统一系统里搜索即可。
这一特性在实际测试中表现出了明显优势。在涉及真实图片内容的问题上,潜在记忆系统的表现尤其突出。研究团队在WebQA这个知名的多模态问答数据集上进行了测试,该数据集要求系统从混合了文字和图片的知识库中找到答案。在图片类问题上,潜在记忆系统的F1分数(一种衡量答案质量的指标)在检索5条资料时达到了69.4,而当时表现最好的原始图片检索方案(Nemo-Emb)只有53.0,但后者消耗的计算符号数量是前者的二十多倍。
这个差距背后有一个有趣的原因:传统方案在同时输入多张图片时,很容易超出大型AI能处理的上下文长度上限,导致AI“读不完”所有内容,只能产出低质量回答,甚至产出空白或乱码。而潜在记忆系统的每条知识只占一个符号的空间,无论有多少条知识被检索出来,都不会超出限制。
五、数字说话:效率和准确度的真实对比
研究团队在七个纯文字问答数据集和多个多模态问答数据集上进行了系统评估,并与多种主流方案进行了详细对比。以下是对比中体现出来的核心规律。
在纯文字问答场景下,使用一个1亿参数的小型压缩器和一个80亿参数的大型生成器,潜在记忆在检索5条资料的情况下,每次问答平均只需要71个输入符号,而BM25(一种经典检索方法)在同等设置下需要209个,密集检索方法需要208个。也就是说,潜在记忆用不到三分之一的计算量,达到了相当的准确度。
在跨数据集泛化测试中,研究团队只在HotpotQA(一个以多跳推理为主的问答数据集)上训练了压缩器,然后不做任何调整,直接拿去测试2WikiMultihopQA和MuSiQue这两个不同来源的数据集,依然取得了有竞争力的结果。在检索召回率这一指标上,潜在记忆在5条检索时达到了52.2的平均召回率,超过了对比的所有文字检索方法。这说明统一的检索-生成空间确实让检索质量本身也得到了提升,而不只是在节省计算资源。
如果给每条知识分配8个符号而非1个,准确度还会进一步提升,甚至在所有k值设置下都超过了最强的基线方案,同时仍然比原始文字检索方案使用更少的符号。这说明符号数量可以作为一个灵活的“旋钮”,根据实际需求在效率和准确度之间调节。
在存储空间方面,研究团队也做了详细的对比计算。对于文字资料,每条原始文字片段平均只有0.23KB,而一个潜在记忆符号需要4KB,所以在纯文字场景下潜在记忆反而更占空间。但对于图片资料,情况完全反转——WebQA数据集中每张图片平均209KB,而一个LLaVA图片对应的潜在记忆符号只有8KB,节省了约26倍的存储空间。进一步计算表明,对于边长超过约53像素的正方形图片,潜在记忆的存储效率就已经优于原始未压缩图片了,而实际使用中几乎所有有意义的图片都远远大于这个尺寸。
六、拆开来看:每个设计选择的作用
为了验证每个设计选择的必要性,研究团队做了一系列“拆件测试”,也就是逐一去掉某个组件,观察性能变化。
去掉重建损失之后,答案质量和检索召回率都下降了,而且答案质量的下降幅度比检索召回率更大。这说明重建损失不只是帮助保留了信息本身,还间接帮助稳定了整个知识空间的结构,使得检索也更准确。
如果在重建训练中去掉负样本(即不相关的知识条目),检索准确率下降得更明显。这说明负样本扮演了“锚点”的角色——正是因为系统需要区分相关和不相关的知识,它才学会了在数字空间里把不同主题的知识分隔开来,形成有意义的聚类结构。
如果加入对问题本身的重建训练,性能反而下降了。原因在于,问题的向量承担着“导航”的功能——它需要在知识空间里指向正确的方向。如果同时还要求它能重建出原始问题文字,这两个目标会产生冲突,导致导航精度下降。
在蒸馏损失的训练中,如果把少量随机不相关的知识符号混入学生的输入,虽然直觉上这应该帮助模型学会在噪声中工作,但实验发现这样做反而降低了性能,说明干净的训练信号对于这种高度压缩的表示方式更为重要。
研究团队还测试了更大的压缩器:把1B参数的LLaMA换成3B参数的LLaMA,答案质量进一步提升,说明压缩器的能力上限还没有达到,更强的压缩器能产生质量更好的知识胶囊。
七、潜在记忆用于检索还是用于生成,哪个贡献更大?
研究团队还做了一个非常有趣的“拆分实验”:只用潜在记忆的检索部分,但检索完成后,把原始文字或图片展开来给大型AI看,而不是继续用潜在记忆符号。这样就能区分出,潜在记忆的贡献到底主要来自更好的检索,还是来自更高效的生成表示。
在纯文字场景下,这种“只用潜在记忆检索、用原始文字生成”的混合方案,实际上在准确度上超过了完整的潜在记忆方案——毕竟展开原始文字给了AI更多信息,但代价是消耗了更多符号。这说明在文字场景里,完整潜在记忆的价值主要在于效率,而其检索能力确实比传统方法更强。
在图片场景下,结论则有所不同。“只用潜在记忆检索、用原始图片生成”的混合方案,在文字类问题上表现不错,但在图片类问题上反而不如完整潜在记忆方案。这是因为原始图片输入太大,容易撑爆大型AI的上下文窗口,反而导致质量下降。潜在记忆的符号表示在这里起到了双重作用:既压缩了体积,又保留了大型AI能够理解的关键信息。
这一发现说明,潜在记忆在文字和图片场景下的价值来源不尽相同,但在两种场景下都能带来实际收益。
八、目前的局限与未来方向
任何研究都有其边界,这项工作也不例外。研究团队坦诚地指出,当前设计假设每条知识都是相对独立的原子单元(一段文字或一张图片),可以被单独压缩和检索。这对于WebQA类型的问答任务是合理的,因为答案通常只依赖于少数几条独立的事实或图片。
但对于结构更复杂的内容,这个假设就会遇到困难。复杂表格需要理解行列之间的关系和排版布局;长视频需要把握时间顺序上的事件演进;文档页面可能需要同时理解图注、图片和周围文字之间的空间关系。把这些内容强行切割成独立片段后压缩,可能保留了局部语义但丢失了结构性信息。
研究团队计划在未来把潜在记忆扩展到这些更复杂的模态,加入位置、排版、时序等结构维度,让检索和生成能够同时利用局部语义和全局结构。此外,目前这项研究专注于外部知识,还没有涉及“智能体自己产生的记忆”这类场景,这也是未来可以探索的方向。
说到底,这项研究解决的是一个非常具体而实际的问题:让AI的记忆检索系统在资源受限的环境下也能高效运转。通过把每一条知识——无论是文字还是图片——压缩成一个超小型的“知识胶囊”,系统不仅节省了大量计算资源,还意外地提升了在图片问答上的准确度,原因是避免了传统方法中图片太大导致AI“撑不下”的问题。
这对普通人来说意味着什么?可以预期的是,未来的手机助手、智能家居设备、车载AI等资源有限的场景,都有可能受益于这类技术,能够处理更多图文知识、回答更复杂的问题,同时不需要持续联网或依赖强大的云端服务器。当然,这项技术目前还处于研究阶段,距离大规模商业落地仍有一段距离,尤其是在处理视频、表格等复杂结构内容方面还有待突破。
一个值得思考的问题是:当知识被高度压缩成一个数字向量后,AI“理解”知识的方式和人类的理解是否还有相通之处?研究团队可以通过解码这些向量来重建出大概的原始内容,说明这些“胶囊”并不是完全不可解释的黑盒,但其内部结构与人类直觉之间的关系仍然是一个开放的谜题。对这一方向感兴趣的读者,可以通过论文编号arXiv:2606.10572找到完整研究内容,深入了解其中的技术细节。
Q&A
Q1:潜在记忆(Latent Memory)是什么技术?
A:潜在记忆是新加坡国立大学提出的一种知识压缩方案,能把一段文字或一张图片压缩成单个极小的数字向量,让AI直接用这个向量来检索和回答问题,不需要处理原始文字或图片,大幅节省计算资源。
Q2:潜在记忆和传统RAG检索增强生成有什么区别?
A:传统RAG在检索到相关资料后,会把原始文字或图片完整地输入给AI,消耗大量计算符号。潜在记忆则是直接把压缩后的符号输入给AI,每条知识只占一个符号,计算量降低3到10倍,在图片问答上还避免了因内容太多超出AI处理上限的问题。
Q3:潜在记忆压缩后信息会丢失吗?
A:会有一定损失,但研究团队通过三种训练方式(重建、对比、蒸馏)让压缩器尽量保留对检索和作答最关键的信息。用8个符号代替1个符号时,准确度可以进一步提升,甚至超过传统检索方案,说明符号数量可以灵活调节。