首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >寻找一个程序/脚本来收集新闻文章中的句子

寻找一个程序/脚本来收集新闻文章中的句子
EN

Stack Overflow用户
提问于 2019-10-16 22:26:29
回答 1查看 15关注 0票数 0

因此,我目前正在写一篇关于媒体对2020年总统候选人的偏见(或缺乏偏见)的研究论文。

为此,我正在寻找一种方法来建立一个巨大的句子数据库,这些句子可以通过名字或(如果可能的话)用代词来提到这些政客。现在,我只想关注5-7家美国最大的新闻媒体(WaPo,纽约时报,福克斯等)。

我想将所有这些句子收集到Excel工作表中,包括文章发布的时间戳和文章本身的链接。实际上我不知道这是否可行,也不知道这样的程序/脚本是否存在。

你认为有办法解决这个问题吗?它已经存在了吗?如果没有,新手程序员可以为此编写一个脚本吗?

提前感谢您的帮助!

EN

回答 1

Stack Overflow用户

发布于 2019-10-16 22:43:58

你可能只需要创建你自己的网络抓取器。你可以有一组你正在寻找的名字,如果这个名字存在于页面上,那么你可以使用一些启发式方法来获得它所在的句子。您可能需要一些特定的内容才能从文章中获取时间戳。我想说这不会太糟糕,因为你的目标只有几个新闻媒体,但对于一个新手程序员来说可能有点挑战。

此外,我还建议您查看https://www.webscraper.io/之类的内容

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58415682

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档