重庆理工大学学报(自然科学) ›› 2022, Vol. 36 ›› Issue (9): 128-136.

• 信息·计算机 • 上一篇    

基于融合特征的长文本分类方法

鲍 闯,乔 杰,李海斌   

  1. 1.南京信息工程大学 电子与信息工程学院,南京 210044; 2.浙江海洋大学 信息工程学院,浙江 舟山 31602
  • 发布日期:2022-10-31
  • 作者简介:鲍闯,男,硕士研究生,主要从事自然语言处理研究,Email:20191218001@nuist.edu.cn;通讯作者 乔杰,男,博 士,讲师,主要从事通信信号处理、自然语言处理、嵌入式系统的研究,Email:qiaojienj@163.com。

  • Published:2022-10-31

摘要: 为解决当前长文本分类算法仅采用全局目标向量作为文本句向量表示,忽略文本 明显的语义特征问题,提出一种基于融合特征的长文本分类模型。该模型采用 BERT训练词向 量表示文本,按照长文本的分层结构进行文本划分,在句向量生成中融合卷积最大池化的特征 向量和 BERT句向量作为局部文本的最终句向量。最后,通过双向长短期记忆网络提取文本的 全局信息,并引入注意力机制关注重点,进行文本分类。提出的分割注意力长文融合模型有效 地关注了文本语义特征,获得了较好的分类性能。该模型在海事海商长文数据集和复旦大学中 文文本分类语料库 2个数据集上进行的文本分类实验表明,该模型相对于基准模型具有更优的 表现。

关键词: 长文本分类;BERT;注意力机制;CNN;BiLSTM

中图分类号: 

  • TP391