重庆理工大学学报(自然科学) ›› 2021, Vol. 35 ›› Issue (7): 283-290.doi: 10.3969/j.issn.1674-8425(z).2021.07.035
• “第四届亚洲人工智能技术大会”专栏 • 上一篇
吴俊华,谭博觉,高 切,陈木生
摘要: 针对垃圾网页检测过程中的“维数灾难”和不平衡分类问题,提出一种融合最优 Fisher特征选择的样本加权 K近邻分类器用于垃圾网页检测。首先,针对训练数据集进行 Fish er特征选择,按 FisherScore从大到小排序,依次选择 FisherScore更大的特征对训练数据集进 行样本加权的 K近邻分类,根据训练数据集分类结果的 AUC值是否增加以确定是否保留某个 特征,最后基于保留的最优特征子集对测试数据集进行样本加权的 K近邻分类。在 WEBSPAM UK2006数据集上的实验表明:该方法明显优于决策树、支持向量机、朴素贝叶斯、K近邻等传 统分类器。与其他相关方法相比,该方法在准确率、F1测度和 AUC指标上接近最优结果。
中图分类号: