重庆理工大学学报(自然科学) ›› 2021, Vol. 35 ›› Issue (7): 283-290.doi: 10.3969/j.issn.1674-8425(z).2021.07.035

• “第四届亚洲人工智能技术大会”专栏 • 上一篇    

改进样本加权 K近邻分类器用于垃圾网页检测

吴俊华,谭博觉,高 切,陈木生   

  1. 江西理工大学 软件工程学院,南昌 330013
  • 收稿日期:2020-08-08 发布日期:2021-08-11
  • 作者简介:吴俊华,女,硕士,讲师,主要从事数据挖掘、机器学习研究,Email:271045802@qq.com;通讯作者 陈木生,男, 博士,高级工程师,主要从事 Web数据挖掘、自然语言处理方面研究,Email:dreaminit@ 163.com。
  • 基金资助:
    江西省教育厅科学技术研究基金项目(GJJ180450)

  • Received:2020-08-08 Published:2021-08-11

摘要: 针对垃圾网页检测过程中的“维数灾难”和不平衡分类问题,提出一种融合最优 Fisher特征选择的样本加权 K近邻分类器用于垃圾网页检测。首先,针对训练数据集进行 Fish er特征选择,按 FisherScore从大到小排序,依次选择 FisherScore更大的特征对训练数据集进 行样本加权的 K近邻分类,根据训练数据集分类结果的 AUC值是否增加以确定是否保留某个 特征,最后基于保留的最优特征子集对测试数据集进行样本加权的 K近邻分类。在 WEBSPAM UK2006数据集上的实验表明:该方法明显优于决策树、支持向量机、朴素贝叶斯、K近邻等传 统分类器。与其他相关方法相比,该方法在准确率、F1测度和 AUC指标上接近最优结果。

关键词: 垃圾网页检测, 特征选择, K近邻, 不平衡数据分类, 代价敏感分析

中图分类号: 

  • TP391.6