重庆理工大学学报(自然科学) ›› 2024, Vol. 38 ›› Issue (3): 201-211.
• “中国粒计算与知识发现学术会议”专栏 • 上一篇
余啟煬,方 宇,李昭宸,刘 畅,杨 梅
摘要: 在实际应用中,少数类样本往往包含重要信息,而传统机器学习方法通常对少数类 样本的分类准确率低,且误分类代价较高。针对不平衡文本数据的情感分类问题,以三支采样 (threewaysampling,3WS)与过采样为基础,提出了三支过采样算法(threewaySMOTE,3WOS) 和三支边缘过采样算法(threewayborderlineSMOTE,3WOBS),3WOS能够更好地识别边界区域 上的数据,3WOBS可以增强边界区域所蕴含的信息。首先,将文本数据构建为超球,获得超球 边缘的支持向量。其次,3WOS对边缘上的支持向量直接进行过采样以生成合成新样本并更新 样本集,3WOBS则在生成合成新样本后根据给定条件判断是否获得该新样本并更新样本集。 最后,将更新的样本集放在不同的基分类器上进行对比实验。实验采用了 3个不平衡数据集, 并保证了不同的不平衡比。同时,在数据集训练过程中引入粒计算思想,确保模型的鲁棒性。 实验结果表明,3WOSITSC与 3WOBSITSC准确率较高且代价低于其他模型,为不平衡文本分 类问题提供了新思路
中图分类号: