重庆理工大学学报(自然科学) ›› 2019, Vol. 33 ›› Issue (9): 125-131.doi: 10.3969/j.issn.1674-8425(z).2019.09.018

• “第三届亚洲人工智能技术大会”会议论文选登 • 上一篇    下一篇

端到端增强特征神经网络的视频表情识别

陈 乐1,童 莹2,陈 瑞2,曹雪虹2   

  1. 1. 南京邮电大学 通信与信息工程学院, 南京 210003;2. 南京工程学院 信息与通信工程学院, 南京 211167
  • 出版日期:2019-11-01 发布日期:2019-11-01
  • 作者简介:陈乐,男,硕士研究生,主要从事图像处理研究,E-mail:1217012406@njupt.edu.cn。
  • 基金资助:
    国家自然科学基金青年项目(61703201);江苏省自然科学基金青年项目(BK20170765)

  • Online:2019-11-01 Published:2019-11-01

摘要: 以卷积神经网络结合循环神经网络搭建端到端的深度学习网络,提出一种增强特征的视频表情识别方法。其中,卷积神经网络采用传统的VGG-16-FACE 模型作为初始模型,完成特征提取;循环神经网络采用具有记忆能力的长期短时记忆模型网络(LSTM)结合连续视频的帧间信息给出最优预测。首先,对VGG-16 和LSTM模型分别进行独立训练。因预测结果很大程度取决于LSTM模型,针对 LSTM 的层数和输出神经元个数进行优化调试后,得到两层LSTM,发现输出维度为 2048 时识别效果最好。考虑到增加负责特征提取的VGG模型对预测结果的影响比重,模型由独立训练2个模型连接为端到端的1个模型。实验中考虑到1层LSTM 输出会造成特征丢失,在端到端模型的基础上加入跳层连接,增强特征输入,最终实验结果表明:在 AFEW 数据集上对视频表情识别的准确率从 32.88% 提升到 37.34%,F1分数从0.2895 提升到0.3399,证实了端到端增强特征混合神经网络的有效性。

关键词: 视频表情识别, 卷积神经网络, 循环神经网络, 深度学习

中图分类号: 

  • TP391.4