重庆理工大学学报(自然科学) ›› 2019, Vol. 33 ›› Issue (9): 99-108.doi: 10.3969/j.issn.1674-8425(z).2019.09.015

• “第三届亚洲人工智能技术大会”会议论文选登 • 上一篇    下一篇

基于群体智能的跨语言网络舆情文本聚类模型

韩 楠1a,乔少杰1b,黄 萍1a,彭 京2,周 凯2   

  1. 1. 成都信息工程大学 a. 管理学院; b. 软件工程学院, 成都 610225;2. 四川省公安厅, 成都 610014
  • 出版日期:2019-11-01 发布日期:2019-11-01
  • 作者简介:韩楠,女,博士,副教授,主要从事网络舆情分析研究;通讯作者 乔少杰,男,博士,教授,主要从事数据库、人工智能研究,E-mail:sjqiao@cuit.edu.cn。
  • 基金资助:
    国家自然科学基金资助项目(61802035,61772091,61962006);四川省科技计划项目(2019YFG0106,2018JY0448,2019YFS0067);四川高校科研创新团队建设计划(18TD0027); 成都市软科学研究项目(2017 RK00 00053 ZF);广西自然科学基金项目(2018GXNSFDA138005);成都信息工程大学中青年学术带头人科研基金项目(J201701); 成都信息工程大学科研基金项目(KYTZ201715,KYTZ201750)

  • Online:2019-11-01 Published:2019-11-01

摘要: 跨语言的互联网文本信息在中国多个民族构成中非常普遍,但当前文本聚类模型主要针对单一语言,跨语言文本挖掘的研究较少。群体智能算法具有自组织、启发式、自适应和鲁棒性的特点,提出一种基于群体智能的跨语言网络舆情文本聚类模型 SI*-Cluster( swarm-intel-ligence based text clustering model),应用 3 种优化策略。 梯度下降法弱化智能体拾取文本的能力,避免陷入局部最优解,添加信息素引导智能体移动并有效避免信息素挥发过快的问题,智能体从当前位置选择下一位置考虑信息素感应浓度和方向权重因子。 在中文、英文和藏文文本数据集上进行实验,从聚类准确性上看应用优化策略的SI*-Cluster算法的 F-measure 值达到0.862,相比于 k~means 算法提高 44.1% ;从收敛性上看SI*-Cluster算法在聚类效果明显的前提下迭代 500 次收敛,相比SI*-Cluster算法 900 次收敛,具有更快的收敛速度。模拟展示了SI*-Cluster和SI*-Cluster算法进行文本聚类的迭代过程,证明所提优化策略的有效性。

关键词: 群体智能, 跨语言, 文本聚类, 网络舆情

中图分类号: 

  • TP311