我面临的一个问题是,我需要大量的数据来进行聚类。正如我们所知道的,聚类算法可能具有很高的O复杂度,我正在寻找减少算法运行时间的方法。
我想尝试几种不同的方法,如预聚类(冠层聚类)或子空间聚类、相关聚类等。
但是,我还没有听说过一些事情,我想知道为什么--简单地从我的数据集中获取一个有代表性的样本,在它上运行聚类,并将这个模型推广到整个数据集是否可行呢?为什么/为什么这不是一个可行的方法?谢谢!
发布于 2020-11-09 22:44:50
我会得到一个足够大的随机/有代表性的样本,并对其进行聚类。
要了解这样的示例是什么,您必须获得两个这样的示例,并对它们进行聚类,以获得集群解决方案c1和c2。如果匹配的c1和c2集群具有相同的模型参数,那么您可能有代表性的样本。
您可以通过查看c1和c2如何将绘制的数据分配给集群来匹配集群。
发布于 2020-11-09 08:46:38
这绝对是可行的,只是有第22条。
为了从您的数据集中获取这个有代表性的样本,您必须从每个集群中取样。但是如果你已经可以从每个集群中抽取样本,你已经知道了,所以你不需要没有监督的学习。
https://datascience.stackexchange.com/questions/85120
复制相似问题