重庆理工大学学报(自然科学) ›› 2019, Vol. 33 ›› Issue (9): 176-181.doi: 10.3969/j.issn.1674-8425(z).2019.09.025

• 信息·计算机 • 上一篇    下一篇

基于文本聚类的网络微博舆情话题识别与追踪技术研究

闫俊伢1,马尚才2   

  1. 1. 山西大学商务学院 信息学院, 太原 030031;2. 山西财经大学 信息管理学院, 太原 030006
  • 出版日期:2019-11-01 发布日期:2019-11-01
  • 作者简介:闫俊伢,女,教授,硕士,主要从事软件工程、算法分析与设计方面研究,E-mail:dyqyjy@126.com;马尚才,男,教授,硕士生导师,主要从事信息管理与信息系统方面研究。
  • 基金资助:
    山西省科技厅重点研发计划项 201603D321112);山西省教育科学“ 十三五”规划 2018 年度课题项目(GH18168);全国供销合作总社职业教育专项课题项目(GX1501)

  • Online:2019-11-01 Published:2019-11-01

摘要: 为解决传统话题识别与跟踪方法在处理微博数据时存在的高维、稀疏等问题,提出了一种网络微博话题主题词抽取模型和改进聚类方法。首先,对微博数据以特征词汇选择的方式进行了改进,优先选择时间片内词频统计较高(包含信息量较大)的词汇作为特征词汇,从而降低向量空间的维数,提升运行效率;其次,采用 LDA 模型来进行微博数据的文本表示;最后,采用基于遗传优化的K-means算法进行聚类分析,提高了聚类结果的准确率和稳定性。网络微博数据实验结果验证了提出方法的有效性,表明其可解决数据处理稀疏?高维的问题。相比其他聚类算法,提出方法在话题识别的多个性能指标上均表现良好,并能准确展示出话题的动态变化。

关键词: 微博舆情, 本文聚类, K-means, 主题词, 主题模型, 聚类算法, 话题识别

中图分类号: 

  • TP393