我不太明白Carrot2中标签和短语之间的区别,它们似乎没有给出I http://doc.carrot2.org/的明确区别。我试着把它们都打印出来,但它们显然是相同的(使用kmeansclustering)。有人能帮我澄清这件事吗?
我也在想分数的问题。在聚类之后,我的集群没有任何附加分数,我应该自己计算这些分数吗?
关于相似性,是否可以使用Carrot2来确定查询与集群有多相似?
发布于 2014-06-05 06:54:20
标签、短语和分数的确切含义因算法而异。一般来说,标签可以由一个或多个短语组成。有些算法总是产生一个短语标签,另一些算法可能输出由多个短语组成的标签.对于k-均值聚类,可以使用labelCount属性设置每个标签的字数。
聚类得分也是算法特有的,是聚类算法对聚类质量的信念。目前K-均值的实现实际上并没有产生任何分数.如果您想要计算其中一个通用聚类质量度量,最简单的方法可能是直接扩展算法的代码,因为它将允许您访问计算质心和距离所需的向量空间模型。
当涉及到计算查询和集群之间的相似性时,还有许多可能性。例如,对于k-表示集群,您可以假设向量空间模型,并计算与查询对应的向量与集群的质心之间的距离。
https://stackoverflow.com/questions/24048085
复制相似问题