我有一个包含15个特征的数据集。用弯头法,我发现最优的团簇数可能是4。因此,我将K-均值算法应用于四个聚类.现在,我想了解为什么这些集群是以这样的方式形成的。换句话说,我想确定特定集群点的共享属性。
我的想法如下:
让我们假设C1是第一个集群的质心坐标,而P1和P2是这个集群的两点。
`C1 = \begin{pmatrix} 5\\ 2\\ 4\\ \end{pmatrix} #qcStackCode#` `P1 = \begin{pmatrix} 8\\ 2\\ 6\\ \end{pmatrix} P2 = \begin{pmatrix} 9\\ 2\\ 0\\ \end{pmatrix} #qcStackCode#`如果我们计算P1和P2的不同坐标的平均距离,我们得到如下结果:
`DistAverage = \begin{pmatrix} ((8-5)+(9-5))/2\\ ((2-2)+(2-2))/2\\ ((6-4)+(4-0))/2\\ \end{pmatrix} = \begin{pmatrix} 3.5\\ 0\\ 3\\ \end{pmatrix} #qcStackCode#`这是否意味着第二个特性是这个集群点的“共享属性”(因为平均距离为0)?
我希望问题足够清楚。
发布于 2019-07-28 17:15:11
显然,您可以检查每个属性的方差。
但是,除非数据规模过大,否则很可能需要结合属性来解释集群的差异。
发布于 2021-08-09 15:45:50
有许多评估指标可以量化集群内部的属性和集群属性之间的关系。
您正在描述类似于戴维斯-博尔丁指数的东西,它是集群内散射的度量。
发布于 2021-08-09 20:58:04
与上面的答案一样,有很多度量可以用来确定为什么某些集群被选择而不是其他集群。在这个答案的基础上,您还可以查看其他的答案,在这个链接中,它可以帮助回答您的问题。
总之,惯性是指质心与星团中各点之间的距离,惯性越小,惯性越好。Dunn指数测量簇内距离和簇间的比率,以较高的分数决定更好的集群。
至于具体的“共享属性”,我要说的是,这可能是特定于手头的项目。在我之前共享的链接中,有一个有用的图表显示了同一散点图的两种可能的集群类型。

在案例1中,集群共享收入水平,而在案例2中,集群共享债务水平。这篇文章接着解释说,案例2会更好,因为可以将集群描述为四种不同的类别:高收入/债务、高收入/低债务、低收入/高债务、低收入/低债务。这比我们从案例1中得到的两个类别要好,那就是低收入、高收入。这将给我们提供更好的债务“共享财产”集群。
https://datascience.stackexchange.com/questions/56501
复制相似问题