山大新方案突破视频大模型时间理解瓶颈

2026-06-11阅读 0热度 0

人工智能

精准理解视频中的时间信息，看似简单，实则是当前视频大模型的核心瓶颈。人类能凭直觉判断动作先后顺序或视频片段的持续时间，而视频大模型在此类任务上频频“翻车”。近日，山东大学、山东建筑大学、香港城市大学与快手联合发布了一项系统性解决方案——TIME框架，涵盖高质量数据集、针对性微调方法以及专用基准测试，专门用于攻克视频时间推理这一薄弱环节。

问题来源：

主流视频大模型在通用问答任务上已能达到80分水平，但一旦涉及时间相关推理，性能便急剧下滑。根因集中在两点。其一，缺乏高质量、面向时间敏感场景的指令微调数据。现有公开数据集大多面向通用视觉问答，专门设计用于时间推理的样本极为稀缺；部分合成数据集因生成范围有限，难以支撑深度时间理解的训练需求。其二，模型倾向于“走捷径”——不是基于对时间序列的内在理解来作答，而是利用数据中的统计偏差（例如依赖人脸朝向推断答案）。当前的时间基准测试也存在类似缺陷，导致模型真实的时间推理能力被显著高估。

解决方案：

研究团队提出了“数据集—微调方法—基准测试”三位一体的TIME方案，直接切中痛点。

第一，构建了包含34,000条样本的TIME指令微调数据集。该数据集覆盖五个关键时间维度：动态变化、因果推理、时长感知、空间定位以及时序排序。尤其值得一提的是，数据集中内置了去偏设计——专门剔除了那些可能让模型“抄近路”的虚假关联特征。

第二，提出了多任务提示微调框架（MTP）。该框架集成了两类辅助任务：帧索引预测与指定视频问答。这两项任务无需额外的人工标注，即可有效增强模型对时间信息的感知与推理能力，实现自然的监督信号注入。

第三，发布了专用基准测试集TIMEBench。通过多源数据融合与单帧过滤机制，TIMEBench能够更可靠地衡量模型在时间推理任务上的真实表现，避免了因数据捷径导致的虚高分数。

核心成果：

实验数据验证了该方案的有效性。在四个主流视频-大语言模型上应用TIME微调后，模型在绝大多数基准测试中均取得了显著提升。特别是在TIMEBench和MVBench等时间专用基准上，提升幅度非常明显。更关键的是，模型在通用任务上的表现并未下降——TIME方法并非“偏科”，而是真正补上了时间理解这块短板。

山大新方案突破视频大模型时间理解瓶颈

问题来源：

解决方案：

核心成果：

相关阅读

最新教程

最新资讯