大规模多模态数据集GAViD：视频群体情感识别新基准

2026-06-12阅读 0热度 0

多模态数据

群体情感识别是情感计算领域极具潜力的研究方向，专注于从多人互动场景中提取并解读集体情绪状态。听起来抽象，但实际应用非常务实——商业运营效率评估、广告投放效果判断、团队协作绩效分析、社会心理学实证研究、人机交互体验优化、公共空间安全监控……凡涉及群体行为分析的应用场景，都离不开这一技术。

研究背景

在真实无约束环境下实施群体情感识别，当前面临两大核心瓶颈。

第一是数据稀缺。现有大规模标注数据集数量有限，多数仅覆盖视觉模态，缺乏音频与上下文信息。更棘手的是，几乎没有数据集能同时提供效价标签、离散情感标签以及上下文元数据，导致多模态上下文感知建模缺乏训练基础。

第二是模型局限。当前主流方法多聚焦于视觉特征提取，极少利用场景中的上下文信息。但近一年来大语言模型在视频理解任务上的突破表明，上下文信息对情感解析至关重要。群体情感识别在这一维度几乎是空白。

此外，真实场景的视频本身也是干扰源——光照不足、遮挡严重、运动模糊、视角多变，这些因素使得情感捕捉与标注难度倍增。

本研究的目标非常明确：

这项研究有几点鲜明的创新：

构建了大规模多模态群体情感数据集GA ViD——包含5091个自然场景视频片段，同步提供视频、音频，以及由多模态大模型生成并经人工校验的上下文元数据。同时标注了三元效价、五类离散情感、情感强度、交互类型和行为线索。这是首个在三个核心标注维度上同时达到完备的数据集。
提出了上下文感知群体情感识别网络CAGNet——通过跨模态注意力与门控融合机制，统一建模视觉、音频和上下文信息，既能端到端处理视频，也能稳健应对模态缺失场景。
提供了完整的实验基准——在GA ViD数据集上系统对比多种融合策略与现有视频大模型，验证多模态上下文融合的有效性，后续研究者可直接复现与评估。
规范了伦理与开源体系——数据集采用CC BY 4.0协议开源，明确禁止用于监控、画像等非研究用途，配套代码与文档一并公开，保障研究的可复现性。

整个流程经过精细设计：

数据采集：从YouTube筛选知识共享协议授权视频，确保合规，仅保留包含2人及以上群体互动的视频，最终获得321个原始视频。
视频分割：使用FFmpeg将视频切分为平均5秒的片段，每个原始视频最多保留35个片段，初始得到5130个片段。
数据清洗：剔除缺乏清晰群体结构、人脸不可见、分辨率过低、缺少有效时序信息的片段，最终保留5091个高质量片段，统一设置为25fps、720p。
多维度标注：通过Labelbox平台组织108名标注人员完成标注，每个片段由3人标注，多数投票确定最终标签，分歧时引入第4名仲裁者。标注内容涵盖三元效价、五类离散情感、情感强度、交互类型、行为线索，同时校验了VideoGPT生成的上下文元数据。
数据集划分：严格按照原始视频无重叠原则划分——训练集3503个、验证集542个、测试集1046个，确保视频内容不跨集泄露。

CAGNet的结构设计逻辑清晰：

模态专用编码：视觉特征由DINOv2提取，音频特征由Wa v2Vec 2.0提取，文本上下文特征由XLM-RoBERTa提取，所有特征统一映射到768维的公共空间。
跨模态对齐：视觉-音频、视觉-上下文、音频-上下文三对组合分别使用掩码多头交叉注意力块，实现模态间信息互补与特征对齐。
门控融合：采用挤压激励门控机制，对不同模态特征进行动态加权，自适应地聚焦关键模态信息。
分类输出：经过层归一化、GELU激活、Dropout正则化后，使用两层MLP输出三元效价分类概率。
鲁棒性设计：训练时随机丢弃单一模态，测试时用零向量替代缺失模态输入，使模型在模态不完整时仍能正常工作。

实验数据充分说明了成果：

数据集质量：三元效价标注的科恩kappa系数达0.72，离散情感系数0.65，标注一致性高，数据可靠；情感分布以中性、快乐为主，符合真实场景实际情况。
模型性能：CAGNet在三模态（视觉+音频+上下文）输入下，测试集效价分类准确率达63.20%，F1分数0.614；使用训练加验证集联合训练后，性能进一步提升至66.21%准确率、0.647 F1分数。
模态有效性：三模态融合效果明显优于双模态。视觉+音频是最优的双模态组合，上下文信息在模糊场景下尤其重要——它能有效纠正单独依赖视觉或音频时导致的情感预测错误。
对比结果：CAGNet大幅领先简单融合基线与Video-GPT、LLaVA-NeXT等通用视频大模型。这印证了一个关键判断：群体情感识别需要一个专门的多模态上下文融合结构，通用模型在此难以奏效。
离散情感识别：CAGNet在测试集上准确率61.33%，F1分数0.458，优于基线模型，已具备实用价值。
模态缺失鲁棒性：即使随机缺失某一模态，模型性能仅小幅下降，展现了良好的容错能力——这意味着实际部署中即使某个输入通道异常，系统也不会全面瘫痪。

本研究的两项核心产出：一是当前规模最大、标注最完备的多模态上下文感知群体情感视频数据集GA ViD；二是CAGNet模型，在视觉、音频、上下文信息融合上取得了实质性成效。两者结合，填补了领域内数据与模型的双重缺口，为自然场景下的群体情感计算研究奠定了坚实基础。

团队在论文中坦诚列出了后续工作方向：

总体而言，这项研究在群体情感识别这一相对小众但价值极高的方向上，迈出了扎实而关键的一步。