重庆理工大学学报(自然科学) ›› 2021, Vol. 35 ›› Issue (5): 135-140.doi: 10.3969/j.issn.1674-8425(z).2021.05.018

• 智能技术 • 上一篇    下一篇

融合卡方统计和 TF-IWF算法的特征提取和短文本分类方法

李昌兵a,段祺俊a,纪聪辉b,张婷婷a   

  1. 重庆邮电大学 a.经济管理学院;b.计算机科学与技术学院,重庆 400065
  • 收稿日期:2020-04-27 出版日期:2021-06-07 发布日期:2021-06-07
  • 作者简介:李昌兵,男,教授,博士,主要从事机器学习及自然语言处理、复杂网络分析及优化研究,Email:56567837@ qq.com;通讯作者 段祺俊,男,硕士研究生,主要从事机器学习及自然语言处理研究,Email:18883991513@ 163.com。
  • 基金资助:
    国家自然科学基金项目(60905066/F030707)

  • Received:2020-04-27 Online:2021-06-07 Published:2021-06-07

摘要: 提出一种融合卡方统计和 TFIWF算法的短文本分类方法,通过卡方统计对训练数 据集提取特征词,由 TFIWF算法赋予特征词权重,使用 SVM分类器进行分类。实验结果表明: 融合卡方统计和 TFIWF方法在文本分类准确率上提升 3.1%,召回率提升 5.2%,F1值提升 37%。该方法扩大了特征词权重值的范围,使文本集的权值方差增大,一定程度上解决了短文 本内容稀疏性的问题,从而提高短文本分类的性能。

关键词: 短文本, TFIWF权重, 特征提取, 情感分类

中图分类号: 

  • TP391