我正在寻找一个具有语义复制新闻文章标记的新闻数据集。从根本上讲,所有谈论同一个故事的新闻文章都应该分类。这些故事可以用不同的语言表达,但在高层谈论同样的事件。就像谷歌新闻做的那样。有标记的新闻数据集吗?
发布于 2021-08-07 16:13:30
您可以从多个新闻来源和语言中找到许多文章,讨论这个数据集中相同的趋势事件。
但是,它没有为语义上重复的文章提供标记。这是你必须实现自己的东西。检查dataset中提到的来源页面,它们提供了一些事件相关特性。
https://datascience.stackexchange.com/questions/66261
相似问题