问寻找一个程序/脚本来收集新闻文章中的句子
EN

Stack Overflow用户

提问于 2019-10-16 22:26:29

回答 1查看 15关注 0票数 0

因此，我目前正在写一篇关于媒体对2020年总统候选人的偏见(或缺乏偏见)的研究论文。

为此，我正在寻找一种方法来建立一个巨大的句子数据库，这些句子可以通过名字或(如果可能的话)用代词来提到这些政客。现在，我只想关注5-7家美国最大的新闻媒体(WaPo，纽约时报，福克斯等)。

我想将所有这些句子收集到Excel工作表中，包括文章发布的时间戳和文章本身的链接。实际上我不知道这是否可行，也不知道这样的程序/脚本是否存在。

你认为有办法解决这个问题吗?它已经存在了吗?如果没有，新手程序员可以为此编写一个脚本吗？

提前感谢您的帮助！

发布于 2019-10-16 22:43:58

你可能只需要创建你自己的网络抓取器。你可以有一组你正在寻找的名字，如果这个名字存在于页面上，那么你可以使用一些启发式方法来获得它所在的句子。您可能需要一些特定的内容才能从文章中获取时间戳。我想说这不会太糟糕，因为你的目标只有几个新闻媒体，但对于一个新手程序员来说可能有点挑战。

此外，我还建议您查看https://www.webscraper.io/之类的内容

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58415682

复制

相似问题

问寻找一个程序/脚本来收集新闻文章中的句子EN