首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >解读C-索引

解读C-索引
EN

Data Science用户
提问于 2018-03-11 16:42:29
回答 1查看 138关注 0票数 1

我对C指数聚类质量度量的理解和解释存在一些问题.所以,如果我们有

$c(x_i,x_j) =1$ if $ x_i,x_j $在同一集群中;$0$ x_i

$\Gamma = \sum_ {i=1}^{n-1}\sum_ {j=i+1}^n (x_i,x_j)*c(x_i,x_j)$

$\alpha = \sum_ {i=1}^{n-1}\sum_ {j=i+1}^n c(x_i,x_j)$

$min=$和的$\alpha$最小$d(x_i,x_j)$的不同对$x_i,x_j$,其中$x_i \neq x_j$

$max=$和的$\alpha$最大$d(x_i,x_j)$的不同对$x_i,x_j$,其中$x_i \neq x_j$

然后C-索引定义为$C=\frac{\Gamma - min}{max - min}$

结果是$$中的一个值,值越低表示集群质量越好。

因此,以下是我从这个价值中得到的一些东西:

  • 如果一个集群中的所有元素都很接近,并且所有的集群都相距很远,我们就可以得到$\Gamma=min$,也就是$C=0$。
  • 类似地,在最坏的情况下,所有相距遥远的观测都可能位于同一个集群中,因此我们将得到$\Gamma=max$,这意味着$C=1$

现在,这些是我不确定的事情:

首先:如果我们的集群中只有一个集群(例如,k-表示$k=1$),那么$\alpha$等于不同的观测对数,所以$max=min$,这意味着$C=\frac{Gamma- min}{max - min} = \frac{\Gamma - min}{ 0 }$,我们得到了0的除法。如果我们在不同的集群中有$N$观测,也会出现类似的问题,因为在这种情况下,$c$总是$0。那么,C-索引只适用于$1

第二:C-索引与集群的数量无关(例如,k-均值中的$k$值),这是否合理?例如,我们可能有5个观测$x_1...x_5$彼此相近,但每一个都放在一个单独的集群$C_1...C_5$中。然后,我们可能会有一个簇( $C_6={x_6,x_7}$ $x_6,x_7$ )彼此非常接近,但与所有其他观测结果相去甚远。在这种情况下,$\Gamma=d(x_6,x_7)$,$\alpha=1$,$\min=d(x_6,x_7)$,so $\Gamma=min$,意思是$C=0$。也就是说,我们有尽可能最好的C-指数值,尽管直观地说,将$x_1...x_5$放在一个集群中可能会更好。

最后,这更多的是关于k-均值:如果我们使用普通k-均值(而不是全局k-均值),我们是否总是保证到达$C=0$,对于无界的迭代次数?我似乎找不到一个不会导致这种情况的例子。

EN

回答 1

Data Science用户

发布于 2018-03-13 08:49:32

对于第一个Q,您已经给出了一个反例:

它偏向于k,它喜欢k= N,它也会高估N,……因此,k并不是不可知论的。

如果k-均值总是能找到最好的C索引,那么C索引就会对SSQ来说是多余的,而SSQ的计算成本要低得多.但你可能只是在看过于简单的玩具数据集。使用真实的数据。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/28942

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档