视频AI算力节省90%：特伦托大学“传送门”技术深度解析

2026-05-12阅读 0热度 0

传送门

视频AI领域迎来一项关键突破。特伦托大学、清华大学与电子科技大学的研究团队在arXiv上发表了题为《Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models》的论文。该研究提出的AOT技术，精准针对视频大语言模型的计算瓶颈，通过优化局部与全局上下文，实现了高达90%的计算量削减，同时性能损失控制在极低水平。

当前，视频AI模型处理几分钟的视频，通常需要解析数万个视觉令牌。这种逐帧深度分析的计算范式，在保证细节的同时，也带来了巨大的算力开销和延迟，严重制约了模型的实时部署与应用扩展。

现有的视频令牌压缩方法，如直接剪枝或简单合并，本质上是一种信息丢弃策略。它们在剔除冗余时，极易误伤那些对语义理解至关重要的细微视觉线索，导致模型性能出现不可预测的下降。

一、核心思路：从“丢弃”到“智能聚合”

AOT技术的核心范式转变在于，它不再专注于判断哪些信息该被删除，而是致力于设计一套精密的“信息聚合”系统。其原理类似于构建一个动态的信息枢纽网络：首先在视频中选定少数关键的“锚点”令牌，然后利用最优传输理论，将其他非锚点令牌所承载的信息精华，高效、无损地重新分配到这些锚点上。

这一过程始于双重锚点选择机制。系统并行运作两套筛选逻辑：一套基于全局注意力，锁定帧内最具语义代表性的区域；另一套则在局部网格内，选出细节最丰富的令牌。这种设计确保了模型同时把握宏观场景与微观特征。

随后，最优传输理论扮演了“智能调度中心”的角色。它将海量的非锚点令牌视为待分配的“信息源”，将有限的锚点令牌视为“信息接收站”。算法核心是计算一个最优的传输方案，使得所有信息源的内容都能以最小的“语义损耗成本”被分配到接收站，最终实现信息的高度浓缩与保留。

二、空间压缩：帧内信息的精炼

在单帧图像处理阶段，AOT执行锚点选择与信息融合。锚点的选择由模型自身的注意力权重指导，这模拟了人类视觉的聚焦机制，确保选出的令牌本身就是信息密集的关键区域。

具体操作上，系统会生成一组全局锚点，代表图像的主干语义。同时，在划分的每个局部窗口内，也会选出一个最具代表性的局部锚点，以保留空间细节的多样性。全局与局部锚点共同构成了信息聚合的骨架。

锚点确定后，最优传输算法开始工作。它计算每个非锚点令牌到各个锚点的“语义距离”（通常用特征余弦相似度衡量），并据此决定每个非锚点令牌的信息应如何加权融合到不同的锚点中。这个过程不是简单的丢弃，而是有选择的精华提炼，每个锚点最终都融合了来自其他区域的互补信息，变得更为丰富和全面。整个优化求解通过高效的Sinkhorn迭代完成，计算开销极低。

三、时间压缩：跨帧冗余的消除

视频理解的核心挑战在于时间维度的冗余。AOT采用分段策略来处理时间连续性。它将视频流在时间轴上切分为多个片段，并将每个片段的首帧预设为时间锚点。

算法的自适应性在此凸显。对于片段内与锚点高度相似的后续帧，系统会将其信息大量融合至锚点，实现高效压缩。一旦检测到显著的场景切换或动作变化，系统则判定出现了新的关键信息，从而保留当前帧或启动新的片段。这种动态机制能有效处理静态对话与动态动作交替的视频内容。

该方法尤其擅长压缩长时间静态背景或重复动作带来的冗余。例如，在监控视频或会议录像中，背景信息被持续聚合到少数锚点，而当画面中出现新的活动目标或人物表情变化时，这些关键帧则被突出保留。融合权重根据帧间相似度动态调整，在压缩率与信息保真度之间取得了平衡。

四、性能基准测试结果

研究团队在MVBench、EgoSchema、LongVideoBench和VideoMME等多个主流视频理解基准上进行了严格评估。测试基于LLaVA-OneVision-7B和LLaVA-Video-7B模型展开。

实验数据证实了AOT的高效性。在仅保留10%视觉令牌的极端设定下，AOT平均保持了原始模型97.6%的性能水平，这意味着推理速度可获得近10倍的潜在提升。计算量方面，预填充阶段的FLOPs被降低至原始水平的8.3%。

值得注意的是，在某些测试子集上，搭载AOT的模型性能甚至超过了原始基线。研究者分析，这可能是由于AOT过滤了部分干扰性的冗余噪声，使模型注意力更集中于核心语义线索，起到了“去噪增强”的效果。在处理长视频序列时，AOT也展现出优秀的可扩展性，有效避免了传统方法面临的内存瓶颈问题。

五、实现细节与参数优化

AOT的实现包含几个关键模块。锚点选择阶段，对于采用[CLS]令牌的视觉编码器，利用[CLS]的注意力权重选取全局锚点；对于其他编码器，则启用自注意力机制进行评估。局部锚点则在非重叠的图像窗口内独立选取。

最优传输问题通过Sinkhorn-Knopp算法求解，引入熵正则化以确保解的稳定性和计算效率。通常100次迭代即可收敛，耗时仅占推理过程的很小一部分。熵正则化参数λ经调优后设定为0.1。

时间分段支持均匀采样与基于内容复杂度的自适应聚类两种策略。后者能根据视频动态性调整片段长度，在动作密集处使用更短片段以保留细节，在静态场景中使用更长片段以提升压缩比。

六、与现有方法的对比优势

与现有技术对比，AOT的优势在于其根本性的信息处理哲学。纯空间压缩方法在激进压缩率下会出现“性能悬崖”；纯时间压缩方法则因固定采样策略而缺乏灵活性；混合压缩方法则可能因多次剪枝而累积误差。

AOT的“信息聚合”策略，通过最优传输确保了被压缩令牌的信息价值在锚点中得到回收利用。基准测试显示，在10%令牌保留率下，AOT的性能显著优于其他主流压缩方法，在处理复杂、动态的视频内容时，其优势更为明显。

七、最优传输机制详解

最优传输在AOT中提供了一个理论严谨的分配框架。可以将非锚点令牌视为分布在不同位置的“信息量”，锚点令牌视为具有特定容量的“信息接收器”。最优传输的目标是找到一种分配方案，以最小的总成本（定义为令牌间的特征距离）将信息量运输到接收器。

Sinkhorn算法通过迭代的行列归一化操作，高效求解这一分配矩阵。引入熵正则化项避免了平凡解，并加速了收敛。最终，每个锚点令牌根据接收到的信息权重，更新其特征表示，成为一个融合了上下文信息的增强令牌。

八、消融实验与鲁棒性分析

消融实验验证了各组件的重要性。单独使用全局锚点或局部锚点，性能均低于二者结合，证实了双重策略的必要性。不同压缩率下的性能曲线表明，AOT在25%到10%的保留率区间内，性能下降平滑，展现出良好的可控性与鲁棒性。

在具体配置上，对于不同的基础模型，锚点数量进行了针对性优化。信息融合的强度系数经过网格搜索，确定1.0为最佳平衡点，确保聚合充分而不引入噪声。

九、当前局限与未来方向

AOT技术仍有改进空间。时间锚点目前采用启发式选择，未来可探索基于内容预测的更优方案。时间分段的边界检测精度，尤其在复杂场景转换时，有待进一步提升。

尽管当前AOT作为后处理模块运行，但其整个流程是可微分的。这为未来将其集成至模型端到端训练中，共同优化编码与压缩策略，提供了可能。此外，算法在超长视频上的计算效率仍需优化，以适配实时流处理场景。将其思想迁移至视频生成、3D视觉等其他多模态任务，也是值得探索的前沿方向。

十、应用场景与行业影响

AOT技术为视频AI的实用化落地提供了关键助力。其大幅降低的计算需求，使得在移动设备、边缘计算终端部署高质量的实时视频分析成为可能，将推动智能安防、移动端内容创作等应用发展。

对云计算服务商而言，该技术能显著降低视频处理任务的GPU资源消耗，提升服务吞吐量并降低成本。在线教育、视频会议平台可利用其快速分析海量视频内容，实现自动摘要、知识点提取等功能。

在医疗影像分析等专业领域，AOT能加速内窥镜、超声等动态影像的AI辅助诊断流程，为医生提供更高效的工具。从更广义看，AOT代表的“信息优化再分配”范式，对处理其他高维数据模态也具有启发意义。

这项研究不仅解决了视频大模型的计算效率难题，更展示了一种应对数据过载的优雅方法论。其完整技术细节可参阅论文arXiv:2603.01400v1。

Q&A

Q1：AOT技术是什么？

AOT是一项针对视频大模型的高效化技术，通过锚点选择与最优传输算法，将视频中的冗余信息智能聚合到关键令牌上，而非直接丢弃。该方法能在削减90%计算量的同时，保持97.6%的原始模型性能。

Q2：AOT技术比其他视频压缩方法好在哪里？

传统方法多基于丢弃或简单合并，易损失重要信息。AOT的核心优势在于“信息聚合”，它通过数学优化重新分配信息价值，最大化保留了语义完整性。在相同压缩率下，其精度损失远低于现有方法。

Q3：普通用户什么时候能用上AOT技术？

该技术目前处于学术研究阶段，但其显著的效率提升，正加速其向产业界转化。预计未来1-2年内，集成AOT或类似技术的移动端视频AI应用、云视频分析服务将陆续出现，为用户带来更流畅、低延迟的智能视频体验。