因此,我目前正在写一篇关于媒体对2020年总统候选人的偏见(或缺乏偏见)的研究论文。
为此,我正在寻找一种方法来建立一个巨大的句子数据库,这些句子可以通过名字或(如果可能的话)用代词来提到这些政客。现在,我只想关注5-7家美国最大的新闻媒体(WaPo,纽约时报,福克斯等)。
我想将所有这些句子收集到Excel工作表中,包括文章发布的时间戳和文章本身的链接。实际上我不知道这是否可行,也不知道这样的程序/脚本是否存在。
你认为有办法解决这个问题吗?它已经存在了吗?如果没有,新手程序员可以为此编写一个脚本吗?
提前感谢您的帮助!
发布于 2019-10-16 22:43:58
你可能只需要创建你自己的网络抓取器。你可以有一组你正在寻找的名字,如果这个名字存在于页面上,那么你可以使用一些启发式方法来获得它所在的句子。您可能需要一些特定的内容才能从文章中获取时间戳。我想说这不会太糟糕,因为你的目标只有几个新闻媒体,但对于一个新手程序员来说可能有点挑战。
此外,我还建议您查看https://www.webscraper.io/之类的内容
https://stackoverflow.com/questions/58415682
复制相似问题