重庆理工大学学报(自然科学) ›› 2024, Vol. 38 ›› Issue (1): 131-141.

• 信息计算机 • 上一篇    下一篇

数据降维与K-均值聚类的质量评估

何帆,何选森,刘润宗,樊跃平,熊茂华   

  1. 北京理工大学管理与经济学院,广州商学院信息技术与工程学院,湖南大学信息科学与工程学院
  • 出版日期:2024-02-07 发布日期:2024-02-07
  • 作者简介:何帆,男,博士研究生,主要从事经济数据分析与处理研究,Email:fan_he2017@163.com;通信作者何选森,男,教授,主要从事统计信号处理与机器学习研究,Email:xshe2010@163.com

Data dimensionality reduction and clustering quality evaluation of K-means clustering

  • Online:2024-02-07 Published:2024-02-07

摘要: 聚类分析在大数据时代应用广泛,但缺乏直观评价聚类质量的有效方法。为此,提出一种具有数据降维和搜寻数据固有聚类数量的处理模式。在数据散射矩阵基础上构造一个增广矩阵,利用线性辨别分析将高维数据变换到最具辨别性的低维特征子空间以实现数据降维。为解决分区聚类算法的随机初始化问题,提出最小-最大规则,避免出现空聚类并确保数据的可分性。对于聚类的结果,计算每个聚类的轮廓系数,通过比较轮廓的尺寸以评价不同聚类数量情况下的聚类质量。对K均值算法的仿真结果说明,这种处理模式不仅能够可视化确定未知数据所固有的聚类数量,而且能为高维数据提供有效的分析方法

关键词: 聚类质量, 散射矩阵, 线性辨别分析, 最小-最大规则, 轮廓分析

中图分类号: 

  • TP391