重庆理工大学学报(自然科学) ›› 2019, Vol. 33 ›› Issue (7): 113-123.

• “第三届亚洲人工智能技术大会”专栏 • 上一篇    下一篇

基于混合采样策略的改进随机森林不平衡数据分类算法

郑建华1,2,刘双印1,2,贺超波1,2,符志强1   

  1. 1.仲恺农业工程学院信息科学与技术学院;2.广东省高校智慧农业工程技术研究中心
  • 出版日期:2019-09-05 发布日期:2019-09-05
  • 作者简介:郑建华,男,博士,讲师,主要从事大数据处理与分析、数据挖掘以及机器学习研究;通讯作者刘双印,男,博士,教授,主要从事智能信息处理、物联网、大数据等方面研究。

  • Online:2019-09-05 Published:2019-09-05

摘要: 针对传统分类算法难以处理不平衡数据的问题,提出了一种基于混合采样策略的改进随机森林不平衡数据分类算法。首先从理论上分析了混合采样策略提升随机森林基分类器多样性的机理,随后设计了改进随机森林不平衡数据分类算法。算法采用过采样和欠采样混合采样策略为每棵子树生成不同的平衡训练子集,再利用该训练子集训练子树,从而创建随机森林分类器。最后用13种不平衡数据集进行实验测试。结果显示:采用较小的过采样因子可以取得较好的分类效果;与9种对照算法相比,改进的随机森林分类算法在AUC值对比时获得10个最优结果,G-mean值对比时获得9个最优结果。

关键词: 混合采样策略, 随机森林, 不平衡数据, 集成学习, 分类算法

中图分类号: 

  • TP181