比方说,我一直在收集在线发布的所有新闻文章(只有关于每一篇的基本信息,例如。标题、内容、语言、来源(哪个新闻网站)。
比方说,我想把所有谈论同一件事的文章组合在一起。然而:
为了简单起见,让我们假设所有的文章都使用同一种语言。
从现在起,我一直在使用TF-下手,因为这是我在头脑中想到的,当时我对主题建模一无所知,但它并不擅长它的工作。我正在进行主题建模并发现一些东西,比如潜在的Dirichlet分配、相关的主题模型、单词图表等等。我目前正在阅读关于这个主题的所有我能读到的东西,但是我可能不知道一些有趣的算法可以满足我的需要。
我很感兴趣:你会采取什么方法来解决我的问题?
谢谢
https://datascience.stackexchange.com/questions/12330
复制相似问题