最近,我从事图像聚类工作,找到相似的图像并将它们分组在一起。我使用了python的skimage模块来计算SSIM,然后根据确定的阈值对所有图像进行聚类。
我想对文本做类似的操作。我想创建包含相似文本的自动聚类。例如,cluster-1可以包含代表职业母亲的所有文本,cluster-2可以包含代表人们谈论食物等内容的所有文本。我知道这必须是无监督的学习。我们有没有类似的python模块可以帮助完成这个任务?我还检查了google的tensorflow,看看是否可以从中获得一些东西,但在它的文档中没有找到任何与文本聚类相关的内容。
发布于 2018-06-11 23:52:19
有很多方法可以帮助你完成这项任务。在大多数情况下,聚类算法非常类似于图像聚类,但您需要定义的是距离度量-在本例中是某种semantic similarity度量。
为此,您可以使用我在另一个question around the topic of semantic similarity中列出的方法(即使更详细一些)。
值得一提的是由LSA等topical modelling工具提供的“自动集群”,您可以使用gensim包运行fairly easy。
https://stackoverflow.com/questions/50801434
复制相似问题