我使用“单链接”分层算法对数据点进行Gower距离聚类,因为我的数据具有定性和定量变量。
在将此应用于整个模型(所有变量)之后,我想开始排除那些对我的数据不太重要的变量。我想使用主成分分析(PCA),但我不能,因为我的变量是一个分类和连续的混合体。有人能建议什么是选择变量的最佳方法吗?
最后,我想用埃尔博方法来检查集群的最优数目是多少?
有人能帮我处理这个逻辑吗?
我用analysis做分析。
发布于 2019-03-23 10:06:57
PCA只适用于连续变量,且对尺度敏感。所以不要在这里用它。
相反,您需要查看经典的信息度量,即某些属性是否与集群“相关”。例如吉尼,相互信息等。
同样,弯头法也是个坏主意。从一开始就不是个好主意因为.但它只适用于选择k中的k-表示,如果你做了许多随机的重新启动,并查看发现的最佳分区。但即使如此:“肘”还没有数学定义。在大多数情况下,没有肘部,人们只是这样选择一些随机的k,因为他们不考虑这个选项.nit可能被广泛使用。但是,它绝对不能与分层聚类一起使用!
https://datascience.stackexchange.com/questions/46632
复制相似问题