改进样本加权 Ｋ近邻分类器用于垃圾网页检测

doi:10.3969/j.issn.1674-8425(z).2021.07.035

重庆理工大学学报（自然科学） ›› 2021, Vol. 35 ›› Issue (7): 283-290.doi: 10.3969/j.issn.1674-8425(z).2021.07.035

• “第四届亚洲人工智能技术大会”专栏 • 上一篇

改进样本加权Ｋ近邻分类器用于垃圾网页检测

吴俊华，谭博觉，高切，陈木生

江西理工大学软件工程学院，南昌３３００１３

收稿日期:2020-08-08 发布日期:2021-08-11
作者简介:吴俊华，女，硕士，讲师，主要从事数据挖掘、机器学习研究，Ｅｍａｉｌ：２７１０４５８０２＠ｑｑ．ｃｏｍ；通讯作者陈木生，男，博士，高级工程师，主要从事Ｗｅｂ数据挖掘、自然语言处理方面研究，Ｅｍａｉｌ：ｄｒｅａｍｉｎｉｔ＠１６３．ｃｏｍ。
基金资助:
江西省教育厅科学技术研究基金项目（ＧＪＪ１８０４５０）

Received:2020-08-08 Published:2021-08-11

摘要/Abstract

摘要： 针对垃圾网页检测过程中的“维数灾难”和不平衡分类问题，提出一种融合最优Ｆｉｓｈｅｒ特征选择的样本加权Ｋ近邻分类器用于垃圾网页检测。首先，针对训练数据集进行Ｆｉｓｈ ｅｒ特征选择，按ＦｉｓｈｅｒＳｃｏｒｅ从大到小排序，依次选择ＦｉｓｈｅｒＳｃｏｒｅ更大的特征对训练数据集进行样本加权的Ｋ近邻分类，根据训练数据集分类结果的ＡＵＣ值是否增加以确定是否保留某个特征，最后基于保留的最优特征子集对测试数据集进行样本加权的Ｋ近邻分类。在ＷＥＢＳＰＡＭＵＫ２００６数据集上的实验表明：该方法明显优于决策树、支持向量机、朴素贝叶斯、Ｋ近邻等传统分类器。与其他相关方法相比，该方法在准确率、Ｆ１测度和ＡＵＣ指标上接近最优结果。

关键词: 垃圾网页检测, 特征选择, Ｋ近邻, 不平衡数据分类, 代价敏感分析

中图分类号:

TP391.6

吴俊华，谭博觉，高切，陈木生. 改进样本加权Ｋ近邻分类器用于垃圾网页检测[J]. 重庆理工大学学报（自然科学）, 2021, 35(7): 283-290.

[1]	. 大数据环境下利用新型FTS的并行细节点指纹匹配通用分解方法[J]. 重庆理工大学学报（自然科学）, 2019, 33(4): 147-155.
[2]	. 基于随机森林算法的信道场景分类模型研究[J]. 重庆理工大学学报（自然科学）, 2017, 31(4): -.

改进样本加权Ｋ近邻分类器用于垃圾网页检测

PDF (PC)

赞

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 2

Metrics

本文评价

推荐阅读 0

改进样本加权 Ｋ近邻分类器用于垃圾网页检测

PDF (PC)

赞

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 2

Metrics

本文评价

推荐阅读 0

改进样本加权Ｋ近邻分类器用于垃圾网页检测