摘要: 短文本具有特征稀疏的特点,如采用TFIDF权重和算法来选择短文本特征,很多具有专业领域信息特征而训练集中未出现过的特征将被忽略,从而导致待分类文本集的权值分布比较集中,区分度小,最终影响短文本信息推送。因此,一种基于改进的TFIDF权重的短文本分类算法被提出。该算法通过同义词对分类器的关键词库进行扩展和基于特征长度对短文本权值进行加权,使得文本集的权值方差增大。与直接对短文本进行扩展的算法相比,该算法
具有更快的分类速度。
. 基于改进的TF-IDF权重的短文本分类算法[J]. 重庆理工大学学报(自然科学), 2016, 30(12): -.