重庆理工大学学报(自然科学) ›› 2022, Vol. 36 ›› Issue (1): 120-127.

• 机械·材料 • 上一篇    

基于音视频特征融合的情感识别方法研究

帖 云1,程慧杰1,靳 聪2,李小兵3,齐 林1   

  1. 1.郑州大学 信息工程学院; 2.中国传媒大学 信息与通信工程学院;3.中央音乐学院
  • 发布日期:2022-02-13
  • 作者简介:帖云,男,博士,教授,主要从事模式识别、多模态数据融合研究;靳聪, 女,博士,助理研究员,主要从事媒体智能分析、人工智能音视频制作研究

  • Published:2022-02-13

摘要: 传统的视频情感识别工作主要集中在面部表情、人体的动作行为等,忽略了场景和对象中包含大量的情感线索及不同对象之间的情感关联。因此,提出了一个基于视觉关系推理 和跨模态信息学习的音视频特征融合网络模型用于预测视频情感。模型主要包括三部分:对象 间的情感关系推理、声学特征提取、跨模态交互融合。首先,采用MaskR-CNN模型提取出包 含物体的区域并提取出相应的特征序列,利用图注意力网络对视频帧中的不同区域之间的情感关联进行推理,找到视频帧中的关键区域;然后,利用双向长短时记忆网络提取对数梅尔频谱片段的帧级上下文信息,对视觉信息进行补充;最后,将多头注意力机制应用到跨模态交互融合模 块中去学习不同模态信息之间的隐藏关联,并将利用跨模态注意得到的音视频特征利用门控神 经网络进行融合。所提出的模型在数据集VideoEmotion8和Ekman上具有较好的精确度。

关键词: 情感识别, 情感关系推理, 跨模态交互, 图卷积神经网络, 多头注意力机制

中图分类号: 

  • TP391