港中大京东AI革新：摄像机连续24小时零遗忘

2026-06-10阅读 0热度 0

好的，没问题。作为一名深耕AI内容创作多年的专家，我清楚如何把这份技术报告转化成有深度且好读的行业分析。仔细消化原文后，接下来我会以资深技术评论员的身份，对这篇文章进行人性化改写，去掉AI腔调，只留核心干货，读起来就像一位行业老炮在分享实战心得。 --- 这项由香港中文大学、京东未来学院、香港科技大学、清华大学、香港大学、北京大学及中国科技大学联合完成的研究，以预印本形式于2026年6月发布，论文编号为arXiv:2606.04527。感兴趣的朋友可以直接通过该编号检索全文。 ![香港中文大学、京东AI研究院等机构联手，让AI摄像机连续运转24小时不"失忆"](http://img.318050.com/uploads/20260610/17810595386a28cfd231a0a262913873.webp) 聊到视频生成，这几年AI的进步速度快得离谱。你可能见过不少AI生成的短视频，几秒到十几秒，画面流畅、人物逼真。但如果问：AI能不能像一台永不关机的摄像机，连续拍摄一整天，始终保持画面连贯、角色一致？这篇论文出来之前，答案几乎是不可能。研究团队将这套系统命名为 **Echo-Infinity**。它只用一块英伟达H100显卡，就能以每秒18.5帧的实时速度，连续生成超过24小时、总计超过130万帧的视频，而且画面质量和前后一致性全程稳定。更关键的是，相比同类方法，它仅额外消耗10.6%的计算资源——几乎是“白捡”的性能提升。要理解这项研究的真正突破，不妨从一个熟悉的场景切入：你参加一场热闹的聚会，几小时后，还能清楚记住第一个见到的朋友穿了什么颜色的衣服、站在哪个角落聊天吗？大多数人记不住，因为大脑不会把每一帧画面原封不动存下来，而是筛选、压缩、提炼，只保留关键信息进长期记忆。Echo-Infinity的核心设计灵感，正来自这种“人类记忆的工作方式”。 --- ### 一、视频生成遇到的两道“硬墙” 在理解这项研究的突破之前，得先搞清AI视频生成面临的两个根本性难题，就像演员在台上既要记住之前的台词，又要清楚自己现在站在舞台的哪个位置。 **第一个难题叫“KV缓存无限膨胀”。** 当前主流AI视频生成系统在生成下一帧时，需要参考之前所有帧的信息，这些信息存储在一种叫“KV缓存”（键值缓存）的临时记忆区。问题在于：视频越长，这个缓存区就越膨胀——好比把整场聚会的每一秒录像都塞进一个越来越小的U盘，最终要么撑爆，要么卡到崩溃。对于几秒的短视频这不是问题；但对于几分钟、几小时的超长视频，这就是一道无法逾越的墙。 **第二个难题叫“位置编码溢出”。** AI视频模型训练时，每一帧都被赋予一个“时间序号”，就像书页上的页码。训练阶段，页码从0排到最大值（比如Wan2.1模型最大是20）。但生成超长视频时，第21帧、第100帧、第1000帧的“页码”早已超出训练见过的范围——好比一本只有20页的字典，你突然要查第5000个词条，字典里根本不存在，系统就会混乱，画面质量急降，严重时直接报错崩溃。现有解决方案大致分三类。第一类是“只看窗口”：只保留最近几帧的记忆，更早的直接丢掉，代价是彻底遗忘历史。第二类是“人工挑选留存”：按预设规则保留一部分被踢出窗口的历史帧，但规则是死的，无法根据实际内容灵活调整，而且依然受限于固定缓存容量。第三类是“固定比例压缩”：把历史信息压缩成更紧凑的表示，但压缩比例和方式都是拍脑袋设定的，不是模型自己学来的。这三种方法有一个共同缺陷：都不能真正解决“视频越长，存储压力无限增大”的问题，而且对AI生成过程中自动积累的误差也没有有效应对。Echo-Infinity团队认为，真正的解法应该向人类大脑学习。 --- ### 二、向人类记忆借来的灵感：会“进化”的记忆查询器认知神经科学告诉我们，人类记忆是分层的。新鲜感知先进入一个“工作缓冲区”即短暂的工作记忆，然后大脑主动对这些信息进行筛选、抽象和压缩，把最关键的部分存入长期记忆，其余的则自然遗忘。长期记忆并不是原始录像的缩小版，而是高度提炼的精华。 Echo-Infinity把这个机制翻译成了一套可让AI学习的设计，核心组件叫**记忆查询器（Memory Queries）**。把记忆查询器想象成一本“随时更新的日记本”。日记本的页数固定（研究中设定为3帧等效的信息量），但它会随着视频生成不断被重新书写，始终记录当前最值得保留的历史精华。关键的是，怎么写这本日记并不是人工规定的，而是AI在训练过程中自己学会的。具体运作方式如下：系统维护三种“记忆层”，对应不同时间跨度。最新几帧存在一个叫“本地窗口”的短期记忆区（保存最近9帧），更早的几帧作为固定参照点保存在“锚点帧”区（保存最开始的3帧，像故事的开篇），而再更早、已经被踢出本地窗口的所有内容，则通过记忆查询器保存。每当一批帧从本地窗口被踢出，系统不会直接丢弃它们，而是让这批帧经过一个“注意力更新”过程，把新信息融合进当前的记忆查询器状态。这个过程通过一种叫“交叉注意力”的机制实现——可以理解成记忆查询器拿着一个问题列表，主动“询问”被踢出的那批帧：“你们有什么值得我记下来的吗？”然后把得到的回答整合进已有记忆。更精妙的是，整合过程还配备了一个“把关人”：基于门控机制的筛选器。这个筛选器会判断，对于每一块记忆内容，应该保留多少旧的、引入多少新的，从而实现有选择性的记忆更新，而不是无条件被新信息覆盖。就像你更新日记时，不会把今天的内容直接覆盖昨天的，而是聪明地判断哪些旧内容仍然重要，哪些可以被今天的新内容替代。这套记忆查询器有一个极其重要的特性：**无论视频生成多长，记忆查询器的规模始终保持不变**。它不会随着视频长度增加而增大，这就从根本上解决了“KV缓存无限膨胀”的问题。而且，整个记忆查询器是和视频生成模型一起端到端训练的——模型在学习如何生成好视频的同时，也在学习如何管理自己的记忆，两者相互配合，形成统一的优化目标。 --- ### 三、解决“页码失控”：统一相对位置编码方案回到之前说的“位置编码溢出”问题，Echo-Infinity的解决方案叫**统一相对位置编码方案（Unified Relative RoPE Recipe）**。要理解这个方案，先得搞清绝对位置编码和相对位置编码的区别。绝对位置编码就像给每个人分配一个唯一的身份证号，第1帧就是1号，第1000帧就是1000号。一旦号码超出系统认识的范围，它就懵了。相对位置编码则不同，它描述的是帧与帧之间的相对关系，就像不问“你是第几个到场的”，而是问“你是在我之前还是之后到的，差了几步”。这样，即使视频很长，每一帧能“看到”的位置信息始终在有限范围内，不会溢出。但仅仅在推理时用相对位置编码还不够。因为如果训练时用绝对编码、推理时改用相对编码，就像你一直用中文学数学，突然让你用英文参加考试——知识本身没变，但表达方式变了，你还是会不适应，性能会下降。这就是所谓的“训练-推理不一致”问题。 Echo-Infinity的方案是从训练开始就一致地使用相对位置编码。具体规则是：锚点帧（开头几帧）始终从位置0开始，最新生成的帧的位置编号最大不超过模型预训练时的最大值（比如20）。随着视频不断向前生成，当最新帧的位置编号快要触碰到上限时，所有非锚点帧的位置编号整体向后退一步，腾出空间给最新的帧——就像一条传送带，前面的东西随着时间推移慢慢往后移，腾出前面的位置给新来的。这样，整个视频生成过程中，所有活跃帧的位置编号始终在0到最大值之间，既不会溢出，训练和推理时看到的位置编码分布也完全一致，彻底消除了这个领域长期存在的训练-推理不一致问题。 --- ### 四、系统如何运转：三层记忆配合一套位置规则把上面所有内容放在一起，Echo-Infinity在每生成一批新帧时，大致经历以下几个步骤，整个过程像一个高效运转的流水线。首先，系统根据当前视频进度，用统一相对位置编码方案为所有活跃帧分配位置编号，确保每个编号都在训练时的范围内。然后，视频生成模型同时参考三个来源的信息：锚点帧（最开头的固定参考）、记忆查询器（对所有历史内容的压缩摘要）和本地窗口（最近几帧的详细内容）。这三者拼合在一起，形成既有长远历史参考又有近期细节的完整上下文，模型基于此生成下一批新帧。新帧生成后，其信息被加入本地窗口。如果本地窗口已满，最早的那批帧就会被踢出。被踢出的帧经过记忆查询器的“消化吸收”，关键信息被保留在记忆查询器中，原始数据则丢弃。整个过程中，记忆查询器的大小始终不变，本地窗口的大小始终不变，系统的计算量和内存占用因此保持稳定，与视频长度无关。 Echo-Infinity的训练分两个阶段。第一阶段是在5秒标准视频上进行基础训练，让模型学会高质量视频生成，同时记忆查询器也在这一阶段被联合优化，将视频先验知识“蒸馏”进初始状态。第二阶段是在60秒长视频上进行流式长视频调优，包含一次场景切换，进一步强化模型对长距离上下文的处理能力。整个训练在64块英伟达H200显卡上进行，第一阶段约3小时，第二阶段约12小时，合计约960 GPU小时。 --- ### 五、实验结果：数字背后的真实表现研究团队在多个维度上对Echo-Infinity进行了评测，对比的基准方法包括同样基于分布匹配蒸馏技术的几个代表性长视频生成系统：LongLive、MemFlow、Memorize-and-Generate和∞-RoPE。在30秒长视频生成的评测中，研究团队使用了VBench-Long的标准提示词集合，汇总了16项指标。Echo-Infinity的质量得分达到85.61，语义得分达到82.01，均高于对比方法（其他方法的质量得分集中在83.35到83.69之间）。更能说明问题的是用户偏好率：在30位视频生成研究人员的盲测中，Echo-Infinity被选为最佳视频的比例高达59.53%，而排名第二的Memorize-and-Generate仅为14.73%，差距悬殊。在240秒超长视频生成的评测中，差距进一步拉大。Echo-Infinity的质量得分为81.23，用户偏好率高达71.67%，而对比方法中表现最好的∞-RoPE质量得分为79.99，用户偏好率仅为14.13。在实际视频对比中，LongLive和MemFlow都出现了明显的人物身份漂移，宇航员的外观、数量和装束在视频后段变得不一致；Memorize-and-Generate在长时间后出现严重的画质退化；∞-RoPE则因为训练-推理的位置编码不一致，产生了过曝和色彩偏移的问题。Echo-Infinity的画面在整个240秒内都保持了良好的场景一致性和人物连续性。在60秒交互式长视频（多段提示词切换）的评测中，Echo-Infinity同样表现最佳，质量得分81.71高于所有对比方法，CLIP语义得分也具有竞争力。在5秒短视频生成的评测中，一个有趣的发现是：即便手动关闭记忆更新功能，只保留记忆查询器的初始优化状态，Echo-Infinity的总分（84.57）也超过了所有对比基准，说明训练过程中“蒸馏”进记忆查询器的视频先验知识，对单个短视频的生成也有独立的提升作用。启用完整的记忆更新后，总分进一步提升到85.35，是所有参与对比的方法中最高的。研究团队随后进行了24小时实时生成的演示。在连续运行24小时、生成超过130万帧的测试中，Echo-Infinity生成的视频在4小时、8小时、16小时乃至24小时的截帧，都保持了与视频开头相当的视觉质量和场景一致性，人物外貌没有发生漂移，背景没有崩塌。相比之下，LongLive在约4.25分钟时就出现了位置编码溢出，画面彻底崩溃，即便给它加上推理时的相对位置编码补丁（LongLive*），由于训练-推理不一致的问题始终存在，长期一致性也逐渐下滑。 --- ### 六、拆零件看：每个设计贡献了什么研究团队还进行了一系列消融实验，也就是逐一拆除系统的各个组件，观察性能如何变化，以此验证每个设计的必要性。完全移除记忆查询器后，主体一致性和背景一致性指标都出现明显下降，动态程度（视频中运动的丰富程度）也降低，说明没有长期记忆参考，模型会“忘掉”之前发生的事情，生成的内容变得保守或不连贯。把统一相对位置编码换回绝对位置编码后，质量和一致性的多项指标都下滑，验证了绝对位置编码在超长视频中导致分布外失败的问题确实存在且影响显著。将记忆查询器的数量从3帧等效降低到1帧等效时，性能出现大幅下跌，说明过少的记忆容量无法有效捕获长历史的关键信息，反而可能因为信息混乱而干扰生成。增加到5帧等效时，性能只有微小提升，但推理速度从18.5帧每秒降到17.8帧每秒，性价比下降，因此3帧是一个较好的平衡点。移除门控机制，改用简单的残差累加来更新记忆查询器后，主体一致性和背景一致性均有所下降，说明门控机制对于维持记忆作为稳定历史表示的作用不可忽视——没有筛选机制，每次新信息的涌入都会无差别地冲刷旧记忆，导致历史信息无法得到有效保护。 --- 说到底，Echo-Infinity这项研究最有价值的地方，不仅仅在于它把AI视频生成的时长从几分钟推到了24小时这个数字上，更在于它提供了一种系统性的思路：把人类记忆的“筛选-抽象-压缩”机制引入AI视频生成，并且让这种机制成为模型可以端到端学习的能力，而不是依赖人工规则拼凑出来的权宜之计。与此同时，统一位置编码方案彻底消除了一个长期困扰这个领域的训练-推理不一致问题。当然，研究团队也坦诚地列出了当前的局限性。记忆查询器和位置编码方案主要针对长视频的质量和一致性进行了优化，对于需要频繁切换场景、响应复杂交互指令的视频生成任务，还有进一步专门优化的空间。受限于底层模型的规模和生成能力，在场景变化非常剧烈的超长视频中，系统的稳定性也有待进一步提升。此外，目前学术界对超长视频的评测工具还不够完善，现有的短视频评测指标无法有效衡量小时乃至天级别的时间一致性，开发专门针对超长视频的评测体系也是留给未来的重要工作。研究团队也给出了几个值得期待的未来方向：深入研究记忆查询器中存储的语义内容，可能让视频生成系统拥有可控的检索增强能力；将Echo-Infinity蒸馏成单步模型有望进一步提升实时吞吐量；而开发高效的超长视频评测指标，则将为整个领域提供更清晰的评测标尺。这意味着，通往“真正无限视频生成”的路上，Echo-Infinity已经迈出了关键的一步。对于关心AI视频生成、内容创作工具或者视觉记忆建模的读者，这篇论文的完整版可以通过arXiv编号2606.04527直接检索查阅。 --- ### Q&A **Q1：Echo-Infinity的记忆查询器和普通的KV缓存有什么区别？** A：普通KV缓存会随着视频变长而无限增大，最终耗尽内存。记忆查询器的大小是固定的，无论视频生成多长，它的规模始终不变。它通过注意力机制和门控筛选，把被踢出窗口的历史帧信息“消化”进有限的存储空间，相当于把录像压缩成一本精华笔记，而不是保留完整录像带。 **Q2：Echo-Infinity的统一相对位置编码和其他方法的相对位置编码有什么不同？** A：其他方法（如∞-RoPE）只在推理时临时改用相对位置编码，训练时用的还是绝对编码，导致训练和推理时模型看到的位置分布不一样，性能会打折扣。Echo-Infinity从训练阶段就统一使用相对位置编码，训练和推理完全一致，彻底消除了这种不一致导致的性能损失。 **Q3：Echo-Infinity生成24小时视频时，画面质量真的全程稳定吗？** A：根据论文的演示，在多个场景的测试中，Echo-Infinity生成的视频在4小时、8小时直至24小时的截帧，视觉质量和场景一致性都保持稳定，没有出现明显的人物外貌漂移或背景崩塌。不过研究团队也承认，对于场景变化非常剧烈的内容，当前版本的稳定性仍有提升空间。

港中大京东AI革新：摄像机连续24小时零遗忘

相关阅读

最新教程

最新资讯