复旦大学AI视频交互突破：分层记忆技术实现实时流理解新标杆

2026-05-12阅读 0热度 0

复旦大学

复旦大学、上海创新研究院与新加坡国立大学的联合研究，在实时视频流理解这一核心挑战上取得了关键进展。这项于2026年初发表的研究，提出了名为HERMES的创新系统，首次使AI能够像人类一样，流畅处理持续输入的实时视频画面，并实现毫秒级的精准交互响应。

当前的多模态大模型已能熟练分析剪辑后的短视频，但在处理摄像头持续输入的、无间断的实时视频流时，其性能会显著下降。这类似于学生能解答试卷上的固定题目，却难以应对课堂上的即兴提问。现有技术方案往往在理解精度、响应速度和内存消耗三者间难以平衡，无法实现真正的实时性。

研究团队并未直接堆叠算力或数据，而是选择深入剖析模型的内在机制。他们发现，问题的症结在于未能厘清AI内部“注意力机制”的工作模式。通过一系列精细实验，团队观察到，AI模型在处理视频时，其内部不同的网络层会自然地关注不同类型的信息流，这与人类大脑不同功能区各司其职的原理相似。基于这一根本性洞察，HERMES系统应运而生——它借鉴了人类的分层记忆系统，为机器设计了一套更高效、更智能的视频信息管理架构。

一、破解AI“注意力密码”：发现视频记忆的三层结构

理解HERMES的精妙之处，需从团队的一项关键发现入手。他们深入解析了决定AI“视觉焦点”的注意力机制。

团队以先进的LLaVA-OV-7B模型为研究对象，让其观看不同时长的视频，并精确分析：当用户提出问题时，模型的28个网络层究竟在关注视频的哪些片段？这相当于为AI的“思考过程”进行了一次高精度断层扫描。

在分析了数百个视频问答对后，一个清晰的三层记忆结构模式浮现出来：

浅层区域，类似于人类的“感觉记忆”，表现出显著的“近因效应”。它们将绝大部分注意力分配给最新接收到的画面帧，对较早内容的关注度则急剧衰减。这精准对应了人类瞬时记忆的特性：快速捕获并处理最新的感官输入。

深层区域则扮演“长期记忆”的角色。其注意力模式趋于稳定，不再偏好新内容，而是有节奏地锁定视频中那些关键的“语义锚点”（恰好对应每帧画面的编码长度）。这些锚点如同索引书签，存储着每一帧的核心语义信息，为深度推理提供基础。

中层区域，则承担了“工作记忆”的桥梁功能。其注意力模式逐渐从浅层的新近性偏好，平滑过渡到深层的节奏性模式，有效衔接了瞬时感知与长期理解。

这一发现启发了研究者：既然AI自身已具备分层处理信息的“本能”，何不顺势设计一套与之匹配的高效内存管理策略？

二、HERMES系统：让AI拥有“智慧记忆”

基于上述洞察，HERMES系统正式构建。其核心设计哲学是：为不同记忆层次“定制”管理策略，实现各司其职的信息处理。

系统由三个协同工作的核心模块构成：

分层KV缓存管理。 它为不同层次设计了独立的“信息重要性评估机制”。对于浅层的感觉记忆，采用类似遗忘曲线的指数衰减公式，确保最新画面拥有最高优先级。对于深层的长期记忆，则直接利用其稳定的注意力权重作为评判标准——持续获得高关注的“锚点”即被判定为关键信息予以保留。中层的工作记忆，则通过巧妙的插值计算，在新近性与重要性之间取得动态平衡。

跨层记忆平滑机制。 为避免不同记忆层次因独立决策导致信息不一致（例如浅层遗忘而深层仍保留），HERMES引入了信息传播机制，使深层的“长期决策”能够向上影响浅层的缓存管理，确保关键信息在层级传递中不被意外丢弃，维持记忆一致性。

位置重新索引机制。 在连续视频流中，新帧不断涌入，旧帧被淘汰，内存中的位置索引容易变得混乱。HERMES通过智能算法持续维护位置信息的连续性与规整性，确保AI能准确理解事件发生的时序逻辑。

此外，系统还引入了“摘要令牌”设计：当部分视频内容因内存限制需被移出时，HERMES会将其关键语义压缩成一个精简的“摘要”保留下来，从而在极大节省存储空间的同时，不丢失重要的历史上下文脉络。

三、实验验证：在多个维度实现突破性表现

设计理念需经实战检验。研究团队在多个高难度基准数据集上对HERMES进行了全面评估。

在实时视频流理解测试（如StreamingBench、OVO-Bench）中，HERMES展现出显著优势。例如，在StreamingBench上，基于Qwen2.5-VL-7B模型的HERMES，仅使用4000个视频令牌即取得了79.44%的准确率，较基础模型提升超过6个百分点，性能超越了所有同规模的开源模型。

其在开放式视频问答（RVS系列）中的表现更为突出。采用GPT-3.5-turbo进行评分时，HERMES的答案质量显著提升，准确率增幅达11.4%。这表明系统不仅提升了“视觉理解”能力，更优化了“语义生成”质量。

具体案例清晰展示了其优势。当被问及“制作沙威玛前的直接步骤是什么？”时，基础模型仅能笼统回答“将烹饪好的沙威玛放在盘子里”，而HERMES能精确指出是“添加配菜和调料”。在空间关系理解上，面对“母亲在哪里为她的疑虑寻求帮助？”，基础模型仅能识别出“医生”标志，HERMES则能更准确地描述为“在一个穿西装的男人的办公室”。

即使在传统的离线视频理解任务（如MVBench）中，在严格的视频令牌预算限制下，HERMES的性能仍能与基础模型持平甚至有所超越，证明了其策略的通用性与鲁棒性。

四、效率革命：实现真正的实时交互

如果说性能提升令人满意，那么HERMES在效率上的突破则具有革命性意义。它同步优化了内存占用、响应延迟和计算开销三个关键指标。

在内存使用上，HERMES表现出极佳的稳定性。无论输入视频长度如何，其GPU内存占用都能保持恒定且紧凑。处理256帧视频时，比此前最先进的方法节省约1.04倍内存。更重要的是，当视频长度持续增加时，其他方法的内存需求会线性增长直至崩溃，而HERMES则保持稳定。

在响应速度上，HERMES实现了数量级提升。相比之前的最佳方案，其首次响应延迟降低了惊人的10倍。即便处理长达512帧的视频，响应时间也能控制在30毫秒以内——这已达到人类感知中的“实时”标准。

其高效的核心在于“预判与准备”。传统方法通常在用户提问后，才匆忙进行外部检索或重新计算，导致延迟。HERMES通过智能的缓存管理，提前将最可能被调用的信息以最优形式预置在内存中，实现了“即问即答”。

最巧妙的是，HERMES达成了一种高效的平衡：它在将视频令牌数量大幅削减68%（相比均匀采样基线）的同时，非但没有损失精度，反而在多项任务上实现了性能增益。这充分体现了算法设计的智慧。

五、深入解析：系统设计的巧思

HERMES的成功，源于一系列精密的工程化设计。

其分层管理策略体现了“因层制宜”的哲学。浅层记忆采用指数衰减模型，贴合其瞬时特性；深层记忆则信任其自身稳定的注意力权重，用以筛选长期价值信息；中层记忆通过动态插值，实现两种策略的平滑过渡。

跨层记忆平滑机制解决了独立决策可能引发的“内部冲突”，确保了全局记忆的一致性。位置重新索引机制则如同一位高效的图书管理员，持续整理时序“页码”，保证AI对事件先后顺序的理解准确无误。

这些设计环环相扣，共同构建了一个高效且鲁棒的实时视频流理解系统。

六、性能对比：全面超越现有方案

横向对比凸显了HERMES的竞争力。在StreamingBench测试中，其基于7B参数模型实现的表现，甚至超越了需要庞大算力支撑的Gemini 1.5 Pro等商业模型。

与其他开源方案（如专注于实时视频的ReKV、LiveVLM）及传统离线大模型相比，HERMES在准确性、延迟和内存效率上均实现全面领先。尤为重要的是，它是一个“即插即用”的免训练方案，大幅降低了部署与应用门槛。

这种优势在不同模型规模（从7B到32B参数）和几乎所有的子任务（如物体识别、因果推理、时序理解）上都得到了验证，表明其设计原理具备坚实的通用性与良好的可扩展性。

七、技术创新的深层价值

HERMES的价值，远超一组优异的基准测试分数。

首先，它代表了一种研究范式的转变：通过“白盒化”地深入理解AI内部工作机制（注意力机制），来驱动系统设计，而非盲目增加数据或模型规模。这种“机理先行”的思路，为AI系统优化提供了新的方法论。

其次，它成功地将认知科学中关于人类记忆的理论（感觉记忆、工作记忆、长期记忆）与工程实践相结合，是一次成功的跨学科融合示范。

最后，在模型训练成本高企的当下，HERMES证明了“免训练”优化路径的巨大潜力。通过精巧的算法与系统设计，同样能充分释放现有模型的潜能，这对资源有限的研究者与开发者具有重要的实用价值。

八、未来应用前景与挑战

HERMES为众多领域开启了新的可能性。真正的实时视频理解能力，意味着智能监控系统能即时发现异常行为；自动驾驶车辆能更流畅地解析动态路况；在线教育平台能实时分析学生专注度；远程医疗系统能持续评估患者生命体征。

当然，从实验室研究走向大规模应用，仍需面对挑战。不同应用场景对精度、速度、成本的权衡要求各异，需要灵活的配置策略。大规模部署时的系统稳定性、工程化封装与优化是必经之路。此外，如何让系统更好地适应千变万化的视频内容与多样化的用户查询意图，是持续迭代优化的方向。

HERMES的启示在于，AI技术的进步不仅依赖于“更大更强”的模型，更需要“更巧更智”的系统设计。通过更深刻地理解AI的“思考”方式，并借鉴仿生学灵感，我们完全有可能构建出更高效、更实用的智能系统。这项研究正是朝着让AI更高效地服务于现实世界复杂需求的目标，迈出的坚实一步。

Q&A

Q1：HERMES系统的核心创新是什么？
A：其核心创新在于，通过逆向工程分析AI模型内部的注意力机制，模拟人类大脑的记忆分层结构，将传统的键值（KV）缓存重新设计为一个智能的、分层级的记忆系统，从而实现对实时视频流的高效处理与理解。

Q2：HERMES相比传统方法有哪些具体优势？
A：主要优势体现在三个方面：将响应延迟降低至传统方法的十分之一；最高可减少68%的内存消耗；在多项基准测试中实现超过11%的准确率提升。同时，它是一个无需额外训练、可即插即用的优化方案。

Q3：HERMES技术可以应用在哪些实际场景中？
A：任何需要对连续视频流进行实时感知、分析与交互的场景均为其潜在应用领域，例如：智能安防与异常行为检测、自动驾驶环境感知、直播内容实时分析与互动、在线教育的沉浸式交互、远程健康监护与预警等。