首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >新闻文章的在线聚类

新闻文章的在线聚类
EN

Stack Overflow用户
提问于 2018-04-03 20:43:42
回答 1查看 379关注 0票数 7

是否有一种常见的在线新闻动态分类算法?我有一大组按主题分类的新闻。我认为每一个主题都是一个集群。现在我要把突发新闻分类。可能,我需要动态地生成新的主题或新的集群。

我使用的算法如下:

1)我浏览了一组来自新闻网站的提要,并识别新闻链接。

2)对于每个新链接,我使用dragnet提取内容,然后标记它。

( 3)利用sklearn的TfidfVectorizer,找到了所有旧新闻和最后一个新闻的向量表示。

4)在数据集中找到最近的邻域,计算出与上一次新闻向量表示和旧新闻的所有向量表示的欧几里德距离。

5)如果该距离小于阈值,我将其放入邻居所属的集群中。否则,我将创建一个新的集群,提供最新消息。

每次新闻到达时,我都会用TfidfVectorizer重新拟合所有的数据,因为新的维度是可以建立的。我迫不及待地想每天重新安装一次,因为我需要检测中断事件,这可能与未知的主题有关。有没有一种比我现在使用的方法更有效的方法呢?

EN

回答 1

Stack Overflow用户

发布于 2018-04-06 19:46:51

如果您自己构建矢量化,那么添加新数据就会容易得多。

  1. 您可以简单地将新单词添加为所有早期文档的0的新列。
  2. 不要应用以色列国防军的权重,但只使用它们作为动态权重。

这方面的实现是众所周知的,而且速度很快。

例如Apache Lucene。它可以在线添加新文档,并使用tfidf的一个变体进行搜索。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49638869

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档