文章/答案/技术大牛

发布

社区首页 >问答首页 >解读C-索引

问解读C-索引
EN

Data Science用户

提问于 2018-03-11 16:42:29

回答 1查看 138关注 0票数 1

我对C指数聚类质量度量的理解和解释存在一些问题.所以，如果我们有

$c(x_i，x_j) =1$ if $ x_i，x_j $在同一集群中；$0$ x_i

$\Gamma = \sum_ {i=1}^{n-1}\sum_ {j=i+1}^n (x_i，x_j)*c(x_i，x_j)$

$\alpha = \sum_ {i=1}^{n-1}\sum_ {j=i+1}^n c(x_i，x_j)$

$min=$和的$\alpha$最小$d(x_i，x_j)$的不同对$x_i，x_j$，其中$x_i \neq x_j$

$max=$和的$\alpha$最大$d(x_i，x_j)$的不同对$x_i，x_j$，其中$x_i \neq x_j$

然后C-索引定义为$C=\frac{\Gamma - min}{max - min}$

结果是$$中的一个值，值越低表示集群质量越好。

因此，以下是我从这个价值中得到的一些东西：

如果一个集群中的所有元素都很接近，并且所有的集群都相距很远，我们就可以得到$\Gamma=min$，也就是$C=0$。
类似地，在最坏的情况下，所有相距遥远的观测都可能位于同一个集群中，因此我们将得到$\Gamma=max$，这意味着$C=1$

现在，这些是我不确定的事情：

首先:如果我们的集群中只有一个集群(例如，k-表示$k=1$)，那么$\alpha$等于不同的观测对数，所以$max=min$，这意味着$C=\frac{Gamma- min}{max - min} = \frac{\Gamma - min}{ 0 }$，我们得到了0的除法。如果我们在不同的集群中有$N$观测，也会出现类似的问题，因为在这种情况下，$c$总是$0。那么，C-索引只适用于$1

第二:C-索引与集群的数量无关(例如，k-均值中的$k$值)，这是否合理？例如，我们可能有5个观测$x_1...x_5$彼此相近，但每一个都放在一个单独的集群$C_1...C_5$中。然后，我们可能会有一个簇( $C_6={x_6，x_7}$ $x_6，x_7$ )彼此非常接近，但与所有其他观测结果相去甚远。在这种情况下，$\Gamma=d(x_6，x_7)$，$\alpha=1$，$\min=d(x_6，x_7)$，so $\Gamma=min$，意思是$C=0$。也就是说，我们有尽可能最好的C-指数值，尽管直观地说，将$x_1...x_5$放在一个集群中可能会更好。

最后，这更多的是关于k-均值:如果我们使用普通k-均值(而不是全局k-均值)，我们是否总是保证到达$C=0$，对于无界的迭代次数？我似乎找不到一个不会导致这种情况的例子。

clustering

k-means

回答 1

Data Science用户

发布于 2018-03-13 08:49:32

对于第一个Q，您已经给出了一个反例：

它偏向于k，它喜欢k= N，它也会高估N，……因此，k并不是不可知论的。

如果k-均值总是能找到最好的C索引，那么C索引就会对SSQ来说是多余的，而SSQ的计算成本要低得多.但你可能只是在看过于简单的玩具数据集。使用真实的数据。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/28942

复制

相似问题

问解读C-索引
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问解读C-索引EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问解读C-索引
EN