重庆理工大学学报(自然科学) ›› 2019, Vol. 33 ›› Issue (9): 125-131.doi: 10.3969/j.issn.1674-8425(z).2019.09.018
• “第三届亚洲人工智能技术大会”会议论文选登 • 上一篇 下一篇
陈 乐1,童 莹2,陈 瑞2,曹雪虹2
摘要: 以卷积神经网络结合循环神经网络搭建端到端的深度学习网络,提出一种增强特征的视频表情识别方法。其中,卷积神经网络采用传统的VGG-16-FACE 模型作为初始模型,完成特征提取;循环神经网络采用具有记忆能力的长期短时记忆模型网络(LSTM)结合连续视频的帧间信息给出最优预测。首先,对VGG-16 和LSTM模型分别进行独立训练。因预测结果很大程度取决于LSTM模型,针对 LSTM 的层数和输出神经元个数进行优化调试后,得到两层LSTM,发现输出维度为 2048 时识别效果最好。考虑到增加负责特征提取的VGG模型对预测结果的影响比重,模型由独立训练2个模型连接为端到端的1个模型。实验中考虑到1层LSTM 输出会造成特征丢失,在端到端模型的基础上加入跳层连接,增强特征输入,最终实验结果表明:在 AFEW 数据集上对视频表情识别的准确率从 32.88% 提升到 37.34%,F1分数从0.2895 提升到0.3399,证实了端到端增强特征混合神经网络的有效性。
中图分类号: