重庆理工大学学报(自然科学) ›› 2022, Vol. 36 ›› Issue (4): 187-195.

• 信息·计算机 • 上一篇    下一篇

一种新的基于聚类的试探性 SMOTE算法

王 曜,郑 列   

  1. 湖北工业大学理学院
  • 发布日期:2022-05-16
  • 作者简介:王曜,男,硕士研究生,主要从事数据挖掘研究,E-mail:wy.3637@foxmail.com;;*郑列,男,教授,主要从事应用数学、计算机应用技术研究

  • Published:2022-05-16

摘要: 针对传统过采样算法中常常出现的生成噪声点、数据分布边缘化、未增强足够特征的问题,提出了一种新算法:试探性少数类过采样技术(tentative synthetic minority over-sampling technique, TSMOTE)。该算法先将少数类样本进行K-means聚类,然后创建正类安全水平等指标,运用试探性的思想,放出试探点求出每个少数类样本对应的警戒点,获取最适合新样本生成的空间区域,最后在簇心和警戒点之间进行合成少数类过采样技术(synthetic minority over-sampling technique, SMOTE),确保新样本的生成质量。在12个公开数据集上的大量实验表明:TSMOTE算法可以有效提高分类器对少数类样本和整体数据集的分类性能。

关键词: 不平衡数据;试探性;K-means;SMOTE;安全水平;

中图分类号: 

  • TP311.13