是否有一种常见的在线新闻动态分类算法?我有一大组按主题分类的新闻。我认为每一个主题都是一个集群。现在我要把突发新闻分类。可能,我需要动态地生成新的主题或新的集群。
我使用的算法如下:
1)我浏览了一组来自新闻网站的提要,并识别新闻链接。
2)对于每个新链接,我使用dragnet提取内容,然后标记它。
( 3)利用sklearn的TfidfVectorizer,找到了所有旧新闻和最后一个新闻的向量表示。
4)在数据集中找到最近的邻域,计算出与上一次新闻向量表示和旧新闻的所有向量表示的欧几里德距离。
5)如果该距离小于阈值,我将其放入邻居所属的集群中。否则,我将创建一个新的集群,提供最新消息。
每次新闻到达时,我都会用TfidfVectorizer重新拟合所有的数据,因为新的维度是可以建立的。我迫不及待地想每天重新安装一次,因为我需要检测中断事件,这可能与未知的主题有关。有没有一种比我现在使用的方法更有效的方法呢?
发布于 2018-04-06 19:46:51
如果您自己构建矢量化,那么添加新数据就会容易得多。
这方面的实现是众所周知的,而且速度很快。
例如Apache Lucene。它可以在线添加新文档,并使用tfidf的一个变体进行搜索。
https://stackoverflow.com/questions/49638869
复制相似问题