摘要: 文本表示是将可阅读的文字转换成计算机可识别的数据结构的过程,是文本信息处理领域中关注的基础性问题。针对向量空间模型中文本表示的tfidf算法仅考虑了词项特征与文档之间的关系,没有考虑与类别关联性的问题,引入数理统计卡方分布方法,以此改进了tfidf算法,构成为新算法tfidfcθ。该算法将词项的卡方分布值c作为文本表示的一个因子,用该c值来衡量词项在文本类中分布的差异,并且引入词性因子θ,得到改进向量空间模型的表示文本。对改进前后的2个算法进行文本分类实验,结果表明:改进后的算法得到了提升,部分解决了词项特征与类别的关联性。