重庆理工大学学报(自然科学) ›› 2023, Vol. 37 ›› Issue (7): 245-255.
陈红阳,黄正洪,何盈盈
摘要: 基于 Word2vec的文本向量化表示方法未充分考虑微博文本的内容特征与传播特 征,导致文本向量化表示欠佳,且采用单个机器学习算法进行情感分类的精度不高。提出一种 融合文本中表情符号,词的语义、词性与情感等内容特征,评论、转发与点赞数等传播特征,共同 构建蕴含丰富语义与情感信息的文本特征向量。根据各基分类器在训练数据集上的性能表现 设置不同权重,并与类概率向量相乘,保留最大、最小与平均加权概率值,同时结合原始文本特 征向量作为元分类器的输入数据以改进原 Stacking算法,进行微博文本情感分类。在微博数据 集上的实验结果表明:本文方法能更好地表示文本向量,以加权方式改进的 Stacking集成学习 分类器优于单个分类器;相较于其他情感分类方法,本文方法的准确率提升 1.75%~4.90%。
中图分类号: