文章/答案/技术大牛

发布

社区首页 >问答首页 >创建包含相似文本的文本聚类

问创建包含相似文本的文本聚类
EN

Stack Overflow用户

提问于 2018-06-11 23:38:07

回答 1查看 127关注 0票数 0

最近，我从事图像聚类工作，找到相似的图像并将它们分组在一起。我使用了python的skimage模块来计算SSIM，然后根据确定的阈值对所有图像进行聚类。

我想对文本做类似的操作。我想创建包含相似文本的自动聚类。例如，cluster-1可以包含代表职业母亲的所有文本，cluster-2可以包含代表人们谈论食物等内容的所有文本。我知道这必须是无监督的学习。我们有没有类似的python模块可以帮助完成这个任务？我还检查了google的tensorflow，看看是否可以从中获得一些东西，但在它的文档中没有找到任何与文本聚类相关的内容。

python

machine-learning

text-analysis

unsupervised-learning

回答 1

Stack Overflow用户

发布于 2018-06-11 23:52:19

有很多方法可以帮助你完成这项任务。在大多数情况下，聚类算法非常类似于图像聚类，但您需要定义的是距离度量-在本例中是某种semantic similarity度量。

为此，您可以使用我在另一个question around the topic of semantic similarity中列出的方法(即使更详细一些)。

值得一提的是由LSA等topical modelling工具提供的“自动集群”，您可以使用gensim包运行fairly easy。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50801434

复制

相似问题

问创建包含相似文本的文本聚类
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问创建包含相似文本的文本聚类EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问创建包含相似文本的文本聚类
EN