我想对一些文本文档进行聚类,以找到具有相同概念的文档。我已经使用潜在语义分析(LSA)进行了语义相似性分析,但我搞不清应该选择哪种聚类方法来实现我的目的。谢谢
发布于 2016-05-31 19:42:48
您可以使用分层聚类。在R中有一个名为RClusterpp的包,它对于大数据的分层聚类非常有效(它进行并行计算)。然后,您可以在可能的范围内剪切不同数量的集群的树状图树,并使用交叉表检查集群配置文件。
https://stackoverflow.com/questions/30929131
复制相似问题