重庆理工大学学报(自然科学) ›› 2022, Vol. 36 ›› Issue (7): 281-292.

• 数学·统计学 • 上一篇    

生物医学中高维非均衡数据整合算法

肖枝洪,李 季,王一超   

  1. 1.重庆理工大学 理学院,重庆 400054; 2.内蒙古赤峰市昭乌达中学,内蒙古 赤峰 024099
  • 发布日期:2022-08-17
  • 作者简介:肖枝洪,男,博士,教授,主要从事数据分析、应用统计研究,Email:zhihongxiao@126.com;通讯作者 李季,男,硕 士研究生,主要从事数据分析、应用统计研究,Email:821599101@qq.com。

  • Published:2022-08-17

摘要: 针对随机森林算法(RF)以及过采样技术处理高维非均衡数据的不足,提出了新的 算法:首先结合 RF模型基尼系数与袋外数据准确率提出 MAG算法,并用此算法对高维数据进 行降维处理;其次用动态离差平方和机器学习方法改进中心 SMOTE算法来优化非均衡数据少 样本结构,使数据结构成为低维均衡结构;最后运用最小二乘支持向量机(LSSVM)与 RF对整 合数据进行分类来判定所提出的算法的有效性。RF分类器和 LSSVM分类器的实验结果表明: 所提出的 MAGPDSSDSMOTE算法整合数据较已有方法在 Fvalue值、Gmean值和 Accuracy值 上都有显著的提高,所提出算法整合数据较已有方法更精准,但从时间复杂度来看,提出的 MAGPDSSDSMOTE算法比已有方法复杂一点,但还是处于同一个数量级别。

关键词: MAGPDSSDSMOTE算法;随机森林;高维非均衡数据;数据处理

中图分类号: 

  • TP18