首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >K均值聚类:变量选择

K均值聚类:变量选择
EN

Stack Overflow用户
提问于 2015-04-08 20:17:06
回答 1查看 2.6K关注 0票数 0

我正在应用一种k均值算法来聚类我的客户群。我在概念上为模型中包含的维度(变量)的选择过程而挣扎。我想知道是否有建立的方法来比较不同变量的模型。特别是,我在考虑使用共同的SSwithin / SSbetween比率,但我不确定这是否可以用于比较不同维度的模型.有suggestions>吗?非常感谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-04-08 20:25:48

经典的方法是顺序选择算法,如“顺序浮动前向选择(SFFS)”或“顺序浮动后向消除(SFBS)”。这是一种启发式方法,在这种方法中,您可以根据性能度量(例如,均方误差(MSE) )在时间上消除(或添加)一个特性。此外,如果您愿意,可以使用遗传算法。

以下是一篇简单易懂的论文,总结了这些想法:从大特征集中选择特征

还有一个更高级的,可能有用的:K-均值聚类问题的无监督特征选择

编辑:当我再次考虑这个问题时,我最初想到的问题是“如何选择k(一个固定数)最佳特性(其中k< d)”,例如,为了计算效率或可视化目的。现在,我认为您所问的更像是“哪个功能子集在总体上表现最好?”剪影索引(集群中点的相似性)可能很有用,但我真的认为,除非您有基本的真实标签,否则不能通过特性选择来真正提高性能。

我必须承认,我有更多的经验,监督,而不是无监督的方法。因此,与特征选择/降维相比,我通常更喜欢正则化来解决“维度的诅咒”。不过,我经常使用降维来压缩数据。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/29524524

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档