在主成分分析降维后,我想将K均值应用于聚类。在主成分分析之前,我已经用StandardScaler标准化了数据,然后我想训练Kmeans来找到簇。然而,PCA组分之间的差异不可能是相同的数量级。
聚类前对PCA组件进行标准化是一个很好的实践吗?
发布于 2019-06-13 08:46:34
如果用于k-均值聚类的变量在不同的尺度上,方差较高的变量将通过驱动k-质心的收敛来控制算法。
根据你的研究目标,这是你可以允许的吗?相反,如果您希望所有的因素在集群中具有相同的权重,那么您应该对它们进行缩放。
发布于 2019-06-13 18:22:27
通常PCA已经返回标准化组件。
你计算了每个组件的方差吗?通常情况下,是1。
更棘手的问题是在进行PCA之前是否使用标准化。我不认为这是一个普遍的答案。
https://datascience.stackexchange.com/questions/53688
复制相似问题