大规模多模态数据集GAViD:视频群体情感识别新基准

2026-06-12阅读 0热度 0
多模态数据

群体情感识别是情感计算领域极具潜力的研究方向,专注于从多人互动场景中提取并解读集体情绪状态。听起来抽象,但实际应用非常务实——商业运营效率评估、广告投放效果判断、团队协作绩效分析、社会心理学实证研究、人机交互体验优化、公共空间安全监控……凡涉及群体行为分析的应用场景,都离不开这一技术。

研究背景

在真实无约束环境下实施群体情感识别,当前面临两大核心瓶颈。

第一是数据稀缺。现有大规模标注数据集数量有限,多数仅覆盖视觉模态,缺乏音频与上下文信息。更棘手的是,几乎没有数据集能同时提供效价标签、离散情感标签以及上下文元数据,导致多模态上下文感知建模缺乏训练基础。

第二是模型局限。当前主流方法多聚焦于视觉特征提取,极少利用场景中的上下文信息。但近一年来大语言模型在视频理解任务上的突破表明,上下文信息对情感解析至关重要。群体情感识别在这一维度几乎是空白。

此外,真实场景的视频本身也是干扰源——光照不足、遮挡严重、运动模糊、视角多变,这些因素使得情感捕捉与标注难度倍增。

研究目的

本研究的目标非常明确:

  • 解决自然场景下群体情感识别缺乏大规模、多模态、带上下文标注数据集的根本性难题,构建一个同时包含视频、音频、上下文信息,并标注效价与离散情感的数据集。
  • 提出一个能高效融合视觉、音频与上下文特征的多模态上下文感知群体情感识别模型,为领域提供可复现的基准方法。
  • 支持复杂社会系统中群体情感动态的量化建模与分析,推动技术从实验室走向真实部署。

本文核心贡献

这项研究有几点鲜明的创新:

  • 构建了大规模多模态群体情感数据集GA ViD——包含5091个自然场景视频片段,同步提供视频、音频,以及由多模态大模型生成并经人工校验的上下文元数据。同时标注了三元效价、五类离散情感、情感强度、交互类型和行为线索。这是首个在三个核心标注维度上同时达到完备的数据集。
  • 提出了上下文感知群体情感识别网络CAGNet——通过跨模态注意力与门控融合机制,统一建模视觉、音频和上下文信息,既能端到端处理视频,也能稳健应对模态缺失场景。
  • 提供了完整的实验基准——在GA ViD数据集上系统对比多种融合策略与现有视频大模型,验证多模态上下文融合的有效性,后续研究者可直接复现与评估。
  • 规范了伦理与开源体系——数据集采用CC BY 4.0协议开源,明确禁止用于监控、画像等非研究用途,配套代码与文档一并公开,保障研究的可复现性。

研究方法

1. GA ViD数据集构建流程

整个流程经过精细设计:

  • 数据采集:从YouTube筛选知识共享协议授权视频,确保合规,仅保留包含2人及以上群体互动的视频,最终获得321个原始视频。
  • 视频分割:使用FFmpeg将视频切分为平均5秒的片段,每个原始视频最多保留35个片段,初始得到5130个片段。
  • 数据清洗:剔除缺乏清晰群体结构、人脸不可见、分辨率过低、缺少有效时序信息的片段,最终保留5091个高质量片段,统一设置为25fps、720p。
  • 多维度标注:通过Labelbox平台组织108名标注人员完成标注,每个片段由3人标注,多数投票确定最终标签,分歧时引入第4名仲裁者。标注内容涵盖三元效价、五类离散情感、情感强度、交互类型、行为线索,同时校验了VideoGPT生成的上下文元数据。
  • 数据集划分:严格按照原始视频无重叠原则划分——训练集3503个、验证集542个、测试集1046个,确保视频内容不跨集泄露。

2. CAGNet模型设计

CAGNet的结构设计逻辑清晰:

  • 模态专用编码:视觉特征由DINOv2提取,音频特征由Wa v2Vec 2.0提取,文本上下文特征由XLM-RoBERTa提取,所有特征统一映射到768维的公共空间。
  • 跨模态对齐:视觉-音频、视觉-上下文、音频-上下文三对组合分别使用掩码多头交叉注意力块,实现模态间信息互补与特征对齐。
  • 门控融合:采用挤压激励门控机制,对不同模态特征进行动态加权,自适应地聚焦关键模态信息。
  • 分类输出:经过层归一化、GELU激活、Dropout正则化后,使用两层MLP输出三元效价分类概率。
  • 鲁棒性设计:训练时随机丢弃单一模态,测试时用零向量替代缺失模态输入,使模型在模态不完整时仍能正常工作。

3. 实验设置

  • 硬件:NVIDIA RTX A5000 GPU
  • 优化器:AdamW,学习率1×10⁻⁴,权重衰减1×10⁻⁴
  • 训练策略:最多50轮,早停策略(耐心值5),批次大小16,Dropout率0.4
  • 评估指标:准确率(Acc.)与F1分数,对比融合基线模型以及Video-GPT、LLaVA-NeXT等视频大模型

研究结果

实验数据充分说明了成果:

  • 数据集质量:三元效价标注的科恩kappa系数达0.72,离散情感系数0.65,标注一致性高,数据可靠;情感分布以中性、快乐为主,符合真实场景实际情况。
  • 模型性能:CAGNet在三模态(视觉+音频+上下文)输入下,测试集效价分类准确率达63.20%,F1分数0.614;使用训练加验证集联合训练后,性能进一步提升至66.21%准确率、0.647 F1分数。
  • 模态有效性:三模态融合效果明显优于双模态。视觉+音频是最优的双模态组合,上下文信息在模糊场景下尤其重要——它能有效纠正单独依赖视觉或音频时导致的情感预测错误。
  • 对比结果:CAGNet大幅领先简单融合基线与Video-GPT、LLaVA-NeXT等通用视频大模型。这印证了一个关键判断:群体情感识别需要一个专门的多模态上下文融合结构,通用模型在此难以奏效。
  • 离散情感识别:CAGNet在测试集上准确率61.33%,F1分数0.458,优于基线模型,已具备实用价值。
  • 模态缺失鲁棒性:即使随机缺失某一模态,模型性能仅小幅下降,展现了良好的容错能力——这意味着实际部署中即使某个输入通道异常,系统也不会全面瘫痪。

总结与展望

本研究的两项核心产出:一是当前规模最大、标注最完备的多模态上下文感知群体情感视频数据集GA ViD;二是CAGNet模型,在视觉、音频、上下文信息融合上取得了实质性成效。两者结合,填补了领域内数据与模型的双重缺口,为自然场景下的群体情感计算研究奠定了坚实基础。

未来展望

团队在论文中坦诚列出了后续工作方向:

  • 扩展GA ViD数据集规模,新增帧级别与个体级别的情感标注,使数据更加细粒度且更易使用。
  • 深入研究更精细的时序动态建模,提升模型对群体情感变化的捕捉能力。
  • 探索域适应方法,推动模型在实时部署场景中落地。
  • 拓展迁移学习,将这套方法应用到其他相关的情感计算任务中。
  • 持续完善数据集与模型,支持更精准的群体与个体情感联合分析。

总体而言,这项研究在群体情感识别这一相对小众但价值极高的方向上,迈出了扎实而关键的一步。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策