我目前正在做一个项目,我希望对多维数据进行聚类。我尝试了K均值聚类和DBSCAN聚类,两者都是完全不同的算法.
K-均值模型返回了相当好的输出,它返回了5个簇,但是我已经读到,当维数很大时,欧氏距离会失败,所以我不知道我是否可以相信这个模型。
在尝试DBSCAN模型时,该模型产生了大量的噪声点,并在一个集群中对多个点进行了聚类。我尝试了KNN dist绘图方法来为模型找到最优的eps,但我似乎无法使模型工作。这导致了我的结论,也许所绘制的点的密度很高,这也是我在一个星系团中得到很多点的原因。
对于集群,我使用10列不同的数据。我应该改变我正在使用的算法吗?对于多维数据和变化密度较小的数据,什么是更好的算法?
发布于 2020-03-31 20:36:22
您可以首先使用PCA/LDA/t或自动编码器对数据集进行降维。然后运行standart的一些聚类算法。
另一种方法是您可以使用复杂的深度聚类方法。这个博客帖子非常好地解释了它们是如何在高维数据集中应用深度聚类的。
发布于 2020-03-31 11:41:45
也许这给了你一些灵感:Scikit-学习聚类算法,我建议你尝试一下。希望这能帮上忙!
https://stackoverflow.com/questions/60948236
复制相似问题