问K均值聚类:变量选择
EN

Stack Overflow用户

提问于 2015-04-08 20:17:06

回答 1查看 2.6K关注 0票数 0

我正在应用一种k均值算法来聚类我的客户群。我在概念上为模型中包含的维度(变量)的选择过程而挣扎。我想知道是否有建立的方法来比较不同变量的模型。特别是，我在考虑使用共同的SSwithin / SSbetween比率，但我不确定这是否可以用于比较不同维度的模型.有suggestions>吗？非常感谢。

cluster-analysis

k-means

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-04-08 20:25:48

经典的方法是顺序选择算法，如“顺序浮动前向选择(SFFS)”或“顺序浮动后向消除(SFBS)”。这是一种启发式方法，在这种方法中，您可以根据性能度量(例如，均方误差(MSE) )在时间上消除(或添加)一个特性。此外，如果您愿意，可以使用遗传算法。

以下是一篇简单易懂的论文，总结了这些想法：从大特征集中选择特征。

还有一个更高级的，可能有用的：K-均值聚类问题的无监督特征选择

编辑:当我再次考虑这个问题时，我最初想到的问题是“如何选择k(一个固定数)最佳特性(其中k< d)”，例如，为了计算效率或可视化目的。现在，我认为您所问的更像是“哪个功能子集在总体上表现最好？”剪影索引(集群中点的相似性)可能很有用，但我真的认为，除非您有基本的真实标签，否则不能通过特性选择来真正提高性能。

我必须承认，我有更多的经验，监督，而不是无监督的方法。因此，与特征选择/降维相比，我通常更喜欢正则化来解决“维度的诅咒”。不过，我经常使用降维来压缩数据。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/29524524

复制

相似问题

问K均值聚类:变量选择
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问K均值聚类:变量选择EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问K均值聚类:变量选择
EN