首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >新闻文章的实时主题识别

新闻文章的实时主题识别
EN

Data Science用户
提问于 2016-06-21 17:38:56
回答 1查看 1.7K关注 0票数 1

比方说,我一直在收集在线发布的所有新闻文章(只有关于每一篇的基本信息,例如。标题、内容、语言、来源(哪个新闻网站)。

比方说,我想把所有谈论同一件事的文章组合在一起。然而:

  1. 我希望我的算法自己定义主题(与“用户告诉现有主题,算法将每一篇文章分配给主题”相反),
  2. 我不知道确切的数字主题是什么(因为,很明显,每次发生新的事情都要创建一个新的主题),
  3. 而且,当我们谈论新闻文章的时候,如果有新的事情发生,新的文章谈论的话,话题的列表应该会实时地扩大。

为了简单起见,让我们假设所有的文章都使用同一种语言。

从现在起,我一直在使用TF-下手,因为这是我在头脑中想到的,当时我对主题建模一无所知,但它并不擅长它的工作。我正在进行主题建模并发现一些东西,比如潜在的Dirichlet分配、相关的主题模型、单词图表等等。我目前正在阅读关于这个主题的所有我能读到的东西,但是我可能不知道一些有趣的算法可以满足我的需要。

我很感兴趣:你会采取什么方法来解决我的问题?

谢谢

EN

回答 1

Data Science用户

发布于 2017-07-06 18:24:31

您正在寻找“在线”或“流”主题建模。递阶Dirichlet过程可以自动选择主题的数量。这里是一篇关于流/在线潜在Dirichlet分配模型的论文。流/在线的Python实现可以找到这里。如果您的规模有保证,Apache也有一个在线LDA的实现

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/12330

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档