首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >什么时候应该选择聚类而不是K-均值聚类?

什么时候应该选择聚类而不是K-均值聚类?
EN

Data Science用户
提问于 2021-03-26 10:34:44
回答 2查看 3.6K关注 0票数 2

我正在研究一个基于聚类的模型,我读过关于分层聚类和K-均值聚类的文章。

在什么条件下我应该选择聚类而不是K-均值聚类?

EN

回答 2

Data Science用户

回答已采纳

发布于 2021-03-28 00:27:19

要添加到WBM伟大的引文,你应该使用K-意味着凝聚,当你最后的强迫症是使用经过训练的算法来对新的看不见的观察作出推论。

我将尝试用一个例子来说明这一点:

假设您有两个模型,kmeansaggcls都接受了与特定领域客户信息相对应的数据培训(您提供不同的信用卡),而您的任务是组成小组,以查看每个组对哪些产品可能更感兴趣,假设您在这两种情况下形成了相同数量的集群n,在这些n组中,有一个特别适合于高级信用卡,因为该组具有巨大的收入、大量的交易和更多的信用体验,因此,当一个新客户到来时,你想要评估他,以便知道你是否可以为他提供优质的产品。

使用kmeans模型,您只需要在这个新客户端的特征向量上创建一个predict,就可以获得这个客户所属的集群,而使用aggcls,您将不得不用整个数据(包括这个新的观察)重新训练算法(不是很有用吗?)

这是因为每个算法的性质,使用kmeans,您将得到n个质心,可以用来通过计算新实例和每个集群之间的距离来推断新的未见数据,然后将这个新的观察分配给最近的一个。对于凝聚,您不生成任何参数,可以应用到新的观测,您必须再次形成您的集群。

聚类

K-意思是

票数 2
EN

Data Science用户

发布于 2021-03-26 12:53:05

您可以在sklearn中看到这个比较表,它提供了一些关于每种算法何时何地成功的直觉:

尝试并评估它们的准确性可能是一个好主意,使用一个无监督的聚类度量,比如剪影评分,以获得它们在特定数据集上的性能的客观度量。

一些其他主要差异是:

  • K-均值对二维和三维球体性能更好
  • 分层聚类会降低较大数据集的性能。
  • 分层聚类对离群点很敏感。
票数 4
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/91182

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档