首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >查找集群示例的共享属性

查找集群示例的共享属性
EN

Data Science用户
提问于 2019-07-27 23:35:00
回答 3查看 121关注 0票数 3

我有一个包含15个特征的数据集。用弯头法,我发现最优的团簇数可能是4。因此,我将K-均值算法应用于四个聚类.现在,我想了解为什么这些集群是以这样的方式形成的。换句话说,我想确定特定集群点的共享属性。

我的想法如下:

让我们假设C1是第一个集群的质心坐标,而P1和P2是这个集群的两点。

代码语言:javascript
复制
`C1 =     \begin{pmatrix}     5\\     2\\     4\\     \end{pmatrix} #qcStackCode#`
代码语言:javascript
复制
 `P1 =      \begin{pmatrix}     8\\     2\\     6\\     \end{pmatrix}     P2 =      \begin{pmatrix}     9\\     2\\     0\\     \end{pmatrix} #qcStackCode#`

如果我们计算P1和P2的不同坐标的平均距离,我们得到如下结果:

代码语言:javascript
复制
 `DistAverage =      \begin{pmatrix}     ((8-5)+(9-5))/2\\     ((2-2)+(2-2))/2\\     ((6-4)+(4-0))/2\\     \end{pmatrix}     =     \begin{pmatrix}     3.5\\     0\\     3\\     \end{pmatrix} #qcStackCode#`

这是否意味着第二个特性是这个集群点的“共享属性”(因为平均距离为0)?

我希望问题足够清楚。

EN

回答 3

Data Science用户

发布于 2019-07-28 17:15:11

显然,您可以检查每个属性的方差。

但是,除非数据规模过大,否则很可能需要结合属性来解释集群的差异。

票数 0
EN

Data Science用户

发布于 2021-08-09 15:45:50

有许多评估指标可以量化集群内部的属性和集群属性之间的关系。

您正在描述类似于戴维斯-博尔丁指数的东西,它是集群内散射的度量。

票数 0
EN

Data Science用户

发布于 2021-08-09 20:58:04

与上面的答案一样,有很多度量可以用来确定为什么某些集群被选择而不是其他集群。在这个答案的基础上,您还可以查看其他的答案,在这个链接中,它可以帮助回答您的问题。

  1. 惯性
  2. 邓恩指数

总之,惯性是指质心与星团中各点之间的距离,惯性越小,惯性越好。Dunn指数测量簇内距离和簇间的比率,以较高的分数决定更好的集群。

至于具体的“共享属性”,我要说的是,这可能是特定于手头的项目。在我之前共享的链接中,有一个有用的图表显示了同一散点图的两种可能的集群类型。

在案例1中,集群共享收入水平,而在案例2中,集群共享债务水平。这篇文章接着解释说,案例2会更好,因为可以将集群描述为四种不同的类别:高收入/债务、高收入/低债务、低收入/高债务、低收入/低债务。这比我们从案例1中得到的两个类别要好,那就是低收入、高收入。这将给我们提供更好的债务“共享财产”集群。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/56501

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档