我想在R中评估和比较我的社区检测算法的结果,我的算法不允许重叠,还有一些节点没有被处理。例如,对于Zachary空手道俱乐部,我有一个节点没有处理。我发现了很多度量标准(NMI、ARI、Modulaity(Q)、纯净、Rank Index.),但我不知道哪一个是最好的。目前,我正在使用模块化,纯度和排名指数。
所选择的评估指标是否足够?
例如,对于Rank指数是RI(P,R)= (a+d)/(a+b+c+d),其中a、b、c和d分别是根据P和R在同一个社区中,在同一个社区中根据P在同一个社区中,在不同的社区中,根据R在不同的社区中,在P给出的不同的社区中,以及在不同的社区中,根据P和R,并且P= {p1,p2,。。。,pk}是应用于图G =< V,E >和R= {r1,r2,的社区检测算法的输出。。。,rn}是真正的社区结构。
因此,如果我处理一个大图,我如何计算这些值?在哪里可以找到R(真正的社区结构)?
发布于 2015-07-17 15:23:40
您混淆了两种类型的度量:内部和外部标准,这是为集群问题定义的(参见此页)。
没有“最佳”的度量:它们都是不同的,并且依赖于一个社区检测算法的性能应该如何量化的不同的概念。一个更相关的问题是:哪些措施适合你的情况?
实际上,您所列出的度量都需要节点集的分区。您提到您的算法忽略了某些节点,因此这可能是一个问题。一个基本的解决方法是考虑每个被忽略的节点构成自己的社区。或者,为重叠的社区结构确定的某些措施能够处理这一案件。
另一个要点是用于测试算法的数据。您有这些数据的实际社区结构吗?如果没有,那么您就根本不能使用外部条件。
注意,大多数外部标准都认为社区结构只是节点集的一个分区(从数学意义上来说)。因此,它们依赖于引用分区和估计分区的比较。这是因为它们都起源于聚类分析领域。问题是,他们完全没有考虑到网络链接。然而,社区结构不仅仅是节点集的分区:链接在此分区上的分布方式非常重要。因此,您可能希望以更定性的方式评估您的社区结构,例如,通过比较检测到的社区的拓扑属性(参见奥曼‘12)。您也可以更改现有的措施,使它们考虑到链接(请参阅拉巴特‘13)。我并不是特别想引用我自己的话,但这些文件似乎是相关的。
关于这些度量的具体处理,您可能需要查看用于执行社区检测的工具的文档:其中一些工具与性能度量捆绑在一起。例如,如果您使用is,就会有一个功能就是为了这个。
https://stackoverflow.com/questions/28952104
复制相似问题