摘要: 针对传统过采样算法中常常出现的生成噪声点、数据分布边缘化、未增强足够特征的问题,提出了一种新算法:试探性少数类过采样技术(tentative synthetic minority over-sampling technique, TSMOTE)。该算法先将少数类样本进行K-means聚类,然后创建正类安全水平等指标,运用试探性的思想,放出试探点求出每个少数类样本对应的警戒点,获取最适合新样本生成的空间区域,最后在簇心和警戒点之间进行合成少数类过采样技术(synthetic minority over-sampling technique, SMOTE),确保新样本的生成质量。在12个公开数据集上的大量实验表明:TSMOTE算法可以有效提高分类器对少数类样本和整体数据集的分类性能。
中图分类号: