首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >相似新闻文章变体的聚类

相似新闻文章变体的聚类
EN

Data Science用户
提问于 2018-03-27 16:35:06
回答 2查看 307关注 0票数 2

我们有几个新闻网站的数据,有上百万的条目。由于每个新闻网站发布各自版本的新闻(每个新闻网站也可能发布同一新闻的几个不同版本),我们有几个条目是单个新闻的变体。我目前正致力于将“独特”的新闻从我们的存储库中分离出来。这意味着,如果一个新闻有几个变体,那么只会考虑一个单一的变体(最有可能是最早报道的那个)。

我相信,聚类的新闻文章可以用来把相似的新闻聚在一起。我目前正在探索DBSCAN和分层聚类(Ward的方法)。我想知道我是否朝着正确的方向前进,聚在一起是否是解决问题的最佳办法?如果是,我应该探索其他哪些算法和技术?

EN

回答 2

Data Science用户

回答已采纳

发布于 2018-04-06 19:16:09

你不想聚在一起。

你要找的是几乎重复的检测。

用小哈希。显然,这正是谷歌新闻( Google )的目的所在。

票数 2
EN

Data Science用户

发布于 2018-04-03 18:48:37

我现在在同一个话题上工作。我使用的算法如下:

1)从新闻中提取普通内容,例如使用拖网

2)对每一文本进行标记化,并用文字包技术表示它们。执行此操作的一个简单方法是使用sklearn中的TfidfVectorizer

3)利用k-NN(k近邻)等分类技术对其进行聚类。你会发现k-NN滑雪板实现非常有用。

执行该任务的关键是使用TfidfVectorizer,它会使只出现在几个注意事项中的标记更多,因此我可以识别谈论相同主题的类似新闻。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/29600

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档