文章/答案/技术大牛

发布

社区首页 >问答首页 >相似新闻文章变体的聚类

问相似新闻文章变体的聚类
EN

Data Science用户

提问于 2018-03-27 16:35:06

回答 2查看 307关注 0票数 2

我们有几个新闻网站的数据，有上百万的条目。由于每个新闻网站发布各自版本的新闻(每个新闻网站也可能发布同一新闻的几个不同版本)，我们有几个条目是单个新闻的变体。我目前正致力于将“独特”的新闻从我们的存储库中分离出来。这意味着，如果一个新闻有几个变体，那么只会考虑一个单一的变体(最有可能是最早报道的那个)。

我相信，聚类的新闻文章可以用来把相似的新闻聚在一起。我目前正在探索DBSCAN和分层聚类(Ward的方法)。我想知道我是否朝着正确的方向前进，聚在一起是否是解决问题的最佳办法？如果是，我应该探索其他哪些算法和技术？

machine-learning

clustering

dbscan

回答 2

Data Science用户

回答已采纳

发布于 2018-04-06 19:16:09

你不想聚在一起。

你要找的是几乎重复的检测。

用小哈希。显然，这正是谷歌新闻( Google )的目的所在。

票数 2

Data Science用户

发布于 2018-04-03 18:48:37

我现在在同一个话题上工作。我使用的算法如下：

1)从新闻中提取普通内容，例如使用拖网。

2)对每一文本进行标记化，并用文字包技术表示它们。执行此操作的一个简单方法是使用sklearn中的TfidfVectorizer。

3)利用k-NN(k近邻)等分类技术对其进行聚类。你会发现k-NN滑雪板实现非常有用。

执行该任务的关键是使用TfidfVectorizer，它会使只出现在几个注意事项中的标记更多，因此我可以识别谈论相同主题的类似新闻。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/29600

复制

相似问题

问相似新闻文章变体的聚类
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问相似新闻文章变体的聚类EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问相似新闻文章变体的聚类
EN