问层次聚类与变量选择
EN

Data Science用户

提问于 2019-03-04 11:23:54

回答 1查看 882关注 0票数 2

我使用“单链接”分层算法对数据点进行Gower距离聚类，因为我的数据具有定性和定量变量。

在将此应用于整个模型(所有变量)之后，我想开始排除那些对我的数据不太重要的变量。我想使用主成分分析(PCA)，但我不能，因为我的变量是一个分类和连续的混合体。有人能建议什么是选择变量的最佳方法吗？

最后，我想用埃尔博方法来检查集群的最优数目是多少？

有人能帮我处理这个逻辑吗？

我用analysis做分析。

clustering

feature-selection

回答 1

Data Science用户

发布于 2019-03-23 10:06:57

PCA只适用于连续变量，且对尺度敏感。所以不要在这里用它。

相反，您需要查看经典的信息度量，即某些属性是否与集群“相关”。例如吉尼，相互信息等。

同样，弯头法也是个坏主意。从一开始就不是个好主意因为.但它只适用于选择k中的k-表示，如果你做了许多随机的重新启动，并查看发现的最佳分区。但即使如此：“肘”还没有数学定义。在大多数情况下，没有肘部，人们只是这样选择一些随机的k，因为他们不考虑这个选项.nit可能被广泛使用。但是，它绝对不能与分层聚类一起使用！

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/46632

复制

相似问题

问层次聚类与变量选择
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问层次聚类与变量选择EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问层次聚类与变量选择
EN