我正在研究一个基于聚类的模型,我读过关于分层聚类和K-均值聚类的文章。
在什么条件下我应该选择聚类而不是K-均值聚类?
发布于 2021-03-28 00:27:19
要添加到WBM伟大的引文,你应该使用K-意味着凝聚,当你最后的强迫症是使用经过训练的算法来对新的看不见的观察作出推论。
我将尝试用一个例子来说明这一点:
假设您有两个模型,kmeans和aggcls都接受了与特定领域客户信息相对应的数据培训(您提供不同的信用卡),而您的任务是组成小组,以查看每个组对哪些产品可能更感兴趣,假设您在这两种情况下形成了相同数量的集群n,在这些n组中,有一个特别适合于高级信用卡,因为该组具有巨大的收入、大量的交易和更多的信用体验,因此,当一个新客户到来时,你想要评估他,以便知道你是否可以为他提供优质的产品。
使用kmeans模型,您只需要在这个新客户端的特征向量上创建一个predict,就可以获得这个客户所属的集群,而使用aggcls,您将不得不用整个数据(包括这个新的观察)重新训练算法(不是很有用吗?)
这是因为每个算法的性质,使用kmeans,您将得到n个质心,可以用来通过计算新实例和每个集群之间的距离来推断新的未见数据,然后将这个新的观察分配给最近的一个。对于凝聚,您不生成任何参数,可以应用到新的观测,您必须再次形成您的集群。


https://datascience.stackexchange.com/questions/91182
复制相似问题