首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >层次聚类与变量选择

层次聚类与变量选择
EN

Data Science用户
提问于 2019-03-04 11:23:54
回答 1查看 882关注 0票数 2

我使用“单链接”分层算法对数据点进行Gower距离聚类,因为我的数据具有定性和定量变量。

在将此应用于整个模型(所有变量)之后,我想开始排除那些对我的数据不太重要的变量。我想使用主成分分析(PCA),但我不能,因为我的变量是一个分类和连续的混合体。有人能建议什么是选择变量的最佳方法吗?

最后,我想用埃尔博方法来检查集群的最优数目是多少?

有人能帮我处理这个逻辑吗?

我用analysis做分析。

EN

回答 1

Data Science用户

发布于 2019-03-23 10:06:57

PCA只适用于连续变量,且对尺度敏感。所以不要在这里用它。

相反,您需要查看经典的信息度量,即某些属性是否与集群“相关”。例如吉尼,相互信息等。

同样,弯头法也是个坏主意。从一开始就不是个好主意因为.但它只适用于选择k中的k-表示,如果你做了许多随机的重新启动,并查看发现的最佳分区。但即使如此:“肘”还没有数学定义。在大多数情况下,没有肘部,人们只是这样选择一些随机的k,因为他们不考虑这个选项.nit可能被广泛使用。但是,它绝对不能与分层聚类一起使用!

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/46632

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档