重庆理工大学学报(自然科学) ›› 2019, Vol. 33 ›› Issue (9): 99-108.doi: 10.3969/j.issn.1674-8425(z).2019.09.015
• “第三届亚洲人工智能技术大会”会议论文选登 • 上一篇 下一篇
韩 楠1a,乔少杰1b,黄 萍1a,彭 京2,周 凯2
摘要: 跨语言的互联网文本信息在中国多个民族构成中非常普遍,但当前文本聚类模型主要针对单一语言,跨语言文本挖掘的研究较少。群体智能算法具有自组织、启发式、自适应和鲁棒性的特点,提出一种基于群体智能的跨语言网络舆情文本聚类模型 SI*-Cluster( swarm-intel-ligence based text clustering model),应用 3 种优化策略。 梯度下降法弱化智能体拾取文本的能力,避免陷入局部最优解,添加信息素引导智能体移动并有效避免信息素挥发过快的问题,智能体从当前位置选择下一位置考虑信息素感应浓度和方向权重因子。 在中文、英文和藏文文本数据集上进行实验,从聚类准确性上看应用优化策略的SI*-Cluster算法的 F-measure 值达到0.862,相比于 k~means 算法提高 44.1% ;从收敛性上看SI*-Cluster算法在聚类效果明显的前提下迭代 500 次收敛,相比SI*-Cluster算法 900 次收敛,具有更快的收敛速度。模拟展示了SI*-Cluster和SI*-Cluster算法进行文本聚类的迭代过程,证明所提优化策略的有效性。
中图分类号: