我正在应用一种k均值算法来聚类我的客户群。我在概念上为模型中包含的维度(变量)的选择过程而挣扎。我想知道是否有建立的方法来比较不同变量的模型。特别是,我在考虑使用共同的SSwithin / SSbetween比率,但我不确定这是否可以用于比较不同维度的模型.有suggestions>吗?非常感谢。
发布于 2015-04-08 20:25:48
经典的方法是顺序选择算法,如“顺序浮动前向选择(SFFS)”或“顺序浮动后向消除(SFBS)”。这是一种启发式方法,在这种方法中,您可以根据性能度量(例如,均方误差(MSE) )在时间上消除(或添加)一个特性。此外,如果您愿意,可以使用遗传算法。
以下是一篇简单易懂的论文,总结了这些想法:从大特征集中选择特征。
还有一个更高级的,可能有用的:K-均值聚类问题的无监督特征选择
编辑:当我再次考虑这个问题时,我最初想到的问题是“如何选择k(一个固定数)最佳特性(其中k< d)”,例如,为了计算效率或可视化目的。现在,我认为您所问的更像是“哪个功能子集在总体上表现最好?”剪影索引(集群中点的相似性)可能很有用,但我真的认为,除非您有基本的真实标签,否则不能通过特性选择来真正提高性能。
我必须承认,我有更多的经验,监督,而不是无监督的方法。因此,与特征选择/降维相比,我通常更喜欢正则化来解决“维度的诅咒”。不过,我经常使用降维来压缩数据。
https://stackoverflow.com/questions/29524524
复制相似问题