基于稀疏聚类的无监督特征选择
【作者】
董利梅
赵红
杨文元
【关键词】
无监督特征选择
流形学习
特征映射
稀疏回归
【摘要】特征选择是从特征集合中选择相关特征子集,方便数据聚类、分类和检索等.现有的无监督特征选择算法是将高维数据映射到低维空间并计算每个特征的得分,选择排名靠前的特征.提出一种基于稀疏聚类的无监督特征选择算法:首先利用流形学习的特征映射思想将高维空间的数据映射到低维空间中,用样本构造近邻图,通过图的嵌入找到低维空间,降维后的空间能保持原始数据集的流形结构.其次,得到的样本嵌入矩阵表示特征的重要性,是区分特征对每一个聚类簇的贡献大小的指标,利用低维空间对高维空间的拟合,构造一个目标函数.最后,目标函数本质是回归问题,求解回归优化问题常用最小角回归算法,使用L 1范数进行稀疏回归计算每个特征的得分,选出得分靠前的特征.在六个现实数据集上的实验结果表明:该算法在聚类精度和互信息上取得了较好的实验结果,能有效地选出重要特征,在降维方面具有良好性能,优于其他对比算法.
上一篇: HSEC:基于聚类的启发式选择性集成
下一篇: 一种新的基于时空轨迹的汇合模式挖掘算法