浙江大学团队构建90分钟音视频理解基准：AI长视频评测新标准

2026-05-14阅读 0热度 0

浙江大学

这项由浙江大学、西湖大学与蚂蚁集团等机构联合完成的研究，已于2026年3月正式发布，论文编号为arXiv:2603.19217v1。

人类观看一部电影时，能够毫不费力地追踪角色动态、把握剧情发展，甚至通过配乐与对白捕捉细腻的情感变化。然而，对于人工智能而言，这项看似直观的任务却充满挑战——尤其是在面对长达数十分钟甚至更久的连续视频时。

当前的多模态AI模型（即能同步处理文本、图像与声音的系统）在短视频分析上已展现出卓越性能，但一旦遭遇现实世界中常见的完整内容，例如一场完整的讲座、一集电视剧或一段教学视频，其表现便会显著下滑。这好比一个人只记得电影开场几分钟的画面，却完全无法理清故事的完整脉络。

研究团队揭示了一个核心瓶颈：现有的AI评测体系大多聚焦于10秒到5分钟的短视频片段，这无异于用短跑成绩来衡量马拉松选手的耐力。实际应用场景要求AI理解完整的叙事内容，而非零碎的段落。为此，团队构建了一个全新的评测基准——LVOmniBench，专门用于检验AI在长时间音视频理解上的真实能力。

一、构建史上最全面的长视频理解测试

这个基准堪称AI领域的“视频理解马拉松”。它包含了275个高质量长视频，时长从10分钟延伸至90分钟，平均超过34分钟。内容覆盖生活方式、娱乐、烹饪、纪录片等21个细分类别，确保了数据集的广泛多样性。团队还精心设计了1014道多选题，每道题都必须同时结合画面与声音信息才能正确作答。

测试结果颇具启发性：即便是当前最先进的商业模型Gemini 3 Pro，其准确率也仅停留在65.8%左右；开源模型的表现则更为严峻，多数低于35%，已接近随机猜测的水平。这就像让一位顶尖学霸应试，却只能答对一半多一点的题目——足以证明该基准的挑战性。

构建基准的第一步，是收集足够多样且优质的长视频内容。团队从YouTube平台进行了严格筛选，所有入选视频均遵循创意共享协议，确保整个数据集可被全球研究社区自由使用。整个过程如同沙里淘金：首先根据关键词在21个类别中初选出超过3000个候选视频，再经由人工逐一审核，确保每个视频都具备丰富的音视频动态信息。最终，仅有275个视频入选，平均时长达到2069秒，是现有音视频理解基准平均时长的6倍以上。

这些视频的时长分布也颇具现实意义：大多数集中在20到50分钟之间，恰好对应了在线课程、深度播客、产品评测等实际应用场景的常见长度。

二、设计巧妙的问答系统来测试AI理解能力

拥有了高质量的视频素材后，还需要一套能够真正检验AI深度理解能力的问答系统。团队设计的题目覆盖了四个递进的认知层面：

感知层面，考验AI的“眼睛”和“耳朵”。例如询问视频中特定物体的数量，或背景音乐的类型。这类问题看似基础，但在长达几十分钟的时间跨度中保持稳定的注意力，对AI而言并不简单——就像人类需要记住电影开场出现的某个关键角色。

理解层面，则更进一步，要求AI识别复杂的人物关系、情感变化与事件发展逻辑。例如，通过人物的表情与语调判断其情绪状态，或理解多人互动中的角色关系。

推理层面，挑战AI的“思维能力”。模型需要根据声音线索推断画面中可能发生的内容，或沿着时间线推测事件之间的因果关系，如同侦探整合分散的线索来还原案情全貌。

逻辑推理层面最为复杂，需要进行多步骤的深度推理。例如，先识别出视频中的特定场景，再结合前后文信息回答一个因果性问题。

每道题均为多选题，且必须依赖音视频双模态信息才能解答。团队还为每道题标注了低、中、高三个难度等级。为确保题目的有效性，他们让Gemini模型尝试仅凭单模态（纯画面或纯音频）信息答题，若能答对，则该题目会被重新修改。经过这番严格筛选，最终的1014道题目都真正做到了“非音视频结合不可解”。

三、令人意外的测试结果揭示AI的真实水平

各类AI模型在测试中的表现，既出人意料，又发人深省。即便是顶尖的商业模型，在长视频理解任务上也暴露出了明显的局限性。

Gemini 3 Pro以65.8%的准确率位居榜首，但仍与人类水平存在显著差距。当问题难度升至“高”等级时，其准确率更是下降至45%左右。

开源模型的表现则堪称严峻：大部分模型的准确率徘徊在35%以下。考虑到这是四选一题目，25%即为随机猜测的概率，这意味着许多开源模型的实际理解力可能并不比随机猜测强多少。

进一步的分析显示，AI在不同类型问题上的表现差异显著。在音乐感知与精确计数任务上，几乎所有模型都表现糟糕——这好比让人类在嘈杂的背景音中辨别曲风，或在快速切换的画面中数清物体数量。

另一个关键发现是：AI在处理语音内容时表现尚可，可一旦涉及音乐或环境音，其性能便急剧下滑。这说明现有模型对音频的理解仍高度依赖可转译为文本的语言信息，尚难以有效处理音乐、音效等非语言音频信号。

四、深入剖析AI失败的根本原因

为深入探究AI折戟的原因，研究团队细致分析了153个典型错误案例，如同医生诊断病情般逐一剖析其失败根源。

感知错误占比最高（34%），可细分为视觉与听觉两类。视觉上，AI常在物体计数、空间推理与细节识别上出错，仿佛近视者看不清远处的标牌；听觉上，则对音色、情感语调等细微特征缺乏敏感度，常常忽略对人类而言非常明显的音频线索。

时间定位错误占19.6%，反映了AI在长时序内容中准确定位特定事件的困难。试想被问及一部90分钟电影中某个场景的具体出现时间，人类尚需在脑中快速检索，对AI而言，要同时处理海量的音视频信息并维持时间线的连贯性，无疑是更大的挑战。

跨模态语义鸿沟占19%。AI常常能够分别理解画面内容与声音信息，却难以将二者有机地融合为一个统一的认知。就像一个人能看懂图画、也能听懂音乐，却无法领会音画结合所表达的完整意境。

推理错误占23.5%。即便AI成功感知到了所有必要信息，也常在逻辑推理环节“掉链子”，包括数学计算失误、空间关系误判以及因果逻辑混乱。

五、探索解决方案和未来发展方向

面对这些挑战，研究也指出了一些有价值的改进方向与技术路径。

团队发现，为AI提供音频的文字转录稿后，部分开源模型的表现有显著提升。这好比为理解外语内容的人提供翻译辅助，但同时也暴露出现有模型可能过度依赖文本信息，而未能真正理解原始的、富含情感的音频信号。

音频信息的重要性在另一项对照实验中凸显：当移除音频、仅让AI处理画面时，即便是为长视频优化过的模型，其性能也出现大幅下降。这表明真正的音视频理解需要双模态的深度融合，而非简单的信息拼接。

在技术架构层面，当前处理超长视频序列的方法多集中于视频帧的压缩与关键帧抽取，但对音频流的优化手段相对匮乏。音频信号具有严格的时序连续性，无法像视频那样通过简单抽帧来压缩，这为未来的技术发展指明了一个关键方向：如何在保持音频信息完整性的前提下，有效提升长序列音频的处理效率。

对比实验还显示，即使是最先进的商业模型，利用音频转录文本进行推理的表现，也优于直接处理原始音频。这再次印证，原始音频中的非语言信息（如情感语调、音乐特征、环境音效）对于完整理解视频内容必不可少，但现有模型尚未学会如何有效提取并利用这些信息。

六、这项研究对AI发展的深远意义

这项研究的价值，远不止于揭示当前AI系统的局限。它为整个领域的未来发展提供了重要的方向指引与评估工具。

首先，LVOmniBench填补了长时间音视频理解评估领域的空白。正如只有马拉松才能真实检验长跑者的耐力，这个基准为评估AI在真实、复杂场景下的应用能力，提供了一个更贴近现实的试炼场。

其次，研究结果深刻揭示了跨模态理解的复杂性。真正的智能并非简单叠加视觉与听觉信息，而要像人类一样，将多感官输入融合成一个统一、连贯的认知。这对下一代AI的架构设计提出了新的要求。

此外，研究凸显了时序建模在AI系统中的关键性。在长序列信息流中保持上下文连贯性与事件关联性，是构建具备“记忆”与“理解”能力的真智能的核心挑战之一。

团队的发现也暗示，当前主流的AI训练方法可能需要被重新审视。许多模型在短片段数据上训练有素，却在长序列处理上表现不佳，这说明我们需要开发新的训练策略、损失函数与模型架构，以更好地建模长程依赖关系。

七、普通人也能从中获得的启示

这项高度技术性的研究，对普通用户而言也不乏启发。

当我们与AI助手互动，发现其在处理复杂、多步骤的指令时容易出错，现在或许找到了部分技术根源：这些模型在长时间信息整合与跨模态理解上，仍然存在根本性的限制。

这也解释了为何当前市面上的AI视频分析工具大多局限于短片段处理，难以对完整的电影、讲座或会议录像进行深度剖析。当我们期待AI帮忙总结一场一小时的会议录音，或解析一段完整的教学视频时，有必要了解这些技术天花板的存在。

与此同时，这项研究也让我们更加惊叹于人类认知系统的精妙与强大。我们能毫不费力地看完两小时的电影，理解其中曲折的情节，感受配乐传递的情感——这些对当前AI而言，仍是需要攀登的巨大山巅。

归根结底，这项研究如同为当前的AI系统做了一次全面的“能力体检”，结果显示它们在应对真实世界复杂、冗长的任务时，仍有很长的路要走。AI虽已在某些特定、封闭的任务上超越人类，但在需要持久注意力、深度跨模态理解与复杂因果推理的领域，仍需大幅进化。

这一发现既不意味着过度悲观，也不应引发盲目乐观。它清晰地指明了AI技术未来需要攻克的关键路径，也提醒我们在使用AI工具时，应理性了解其能力边界。随着LVOmniBench基准的发布，相信会有更多研究团队投身于攻克这些挑战，最终推动AI向更智能、更实用的方向迈进。

对这项突破性研究感兴趣的读者，可通过论文编号arXiv:2603.19217v1查阅完整报告，深入了解其技术细节与实验数据。

Q&A

Q1：LVOmniBench测试基准与现有的AI视频理解测试有什么不同？

LVOmniBench专为长时间音视频理解设计，其平均视频长度超过34分钟，是现有主流基准的6倍以上。它不仅要求AI理解画面内容，还必须同步处理并融合音频信息，因此更贴近真实世界的应用场景。而现有测试多聚焦于10秒至5分钟的短片段，难以全面反映AI处理完整、连贯内容的能力。

Q2：为什么连最先进的AI模型在长视频理解上表现都不好？

主要原因可归纳为四类：感知错误（34%），AI在视觉计数和音频细节识别上存在困难；时间定位错误（19.6%），难以在长序列中准确定位特定事件的发生时刻；跨模态理解鸿沟（19%），无法有效融合音视频信息形成统一语义；推理错误（23.5%），在逻辑推理与空间关系判断上出错。这些问题在短视频中不明显，但在长视频的复杂上下文中被显著放大。

Q3：这个研究对普通用户使用AI产品有什么启示？

这项研究解释了为何当前AI助手在处理长视频分析、会议内容总结等复杂、冗长任务时容易出错。用户应了解现有AI技术的能力边界，在使用相关功能时适当调整预期。对于长内容处理，可以尝试将其拆解为较短的片段分步处理，可能获得更好的效果。随着相关技术的持续进步，这些限制预计将逐步得到缓解。