我使用两种类型的聚类算法,我采用分层聚类,K-均值聚类使用python库。
现在的结果有点不同,那么我如何比较结果和使用哪种算法呢?因为我想为一组未标记的数据写一个结论。
使用多个算法并在它们之间进行比较有什么好处?
发布于 2020-12-28 04:45:26
一般来说,即使使用k-意味着不止一次就会产生稍微不同的星团(如果S不设置随机种子的话)。
理想情况下,集群的配置文件和数据点在其中的分布将是相似的。如果是这样的话,那么你选择哪一个并不重要。如果不是那样的话,我建议你仔细检查是什么导致了任何重大的差异。
如果您真的想选择,那么:
正如前面提到的,理想情况下,度量标准(如距离内的总量或轮廓)不应该有太大的不同。因此,这一切归结为使用第二个标准。
至于使用多种算法是否有好处的问题,
https://datascience.stackexchange.com/questions/86596
复制相似问题