首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用Rvest抓取Google News中的关键词

用Rvest抓取Google News中的关键词
EN

Stack Overflow用户
提问于 2020-12-31 19:34:41
回答 1查看 184关注 0票数 0

我想比较一下来自不同国家的新闻文章中特定关键词的用法。

我的想法是使用RCrawler抓取谷歌新闻:

RCrawler(website = “https://news.google.com/topics/CAAqIggKIhxDQkFTRHdvSkwyMHZNREZqY0hsNUVnSmtaU2dBUAE?hl=de&gl=DE&ceid=DE%3Ade”, MaxDepth = 5, Keywordfilter = c(“Keyword”), KeywordAccuracy = 99)

然后只计算我得到的结果。我不确定这是不是最好的方法,或者它是否正确,但我是R的新手,这是我目前能想到的最好的方法。

EN

回答 1

Stack Overflow用户

发布于 2021-01-01 21:47:29

由于您使用的是Google News,而不是以这种方式抓取,一个更简单的方法是访问该特定关键字的RSS提要,并将其放入一个数据帧中。幸运的是,您可以使用{tidyRSS}包来做这件事。

以下URL是提要外观的一个示例:

代码语言:javascript
复制
https://news.google.com/rss/search?q=apple&hl=en-IN&gl=IN&ceid=IN:en

了解如何自定义此URL here。如果愿意,您可以按地理位置进行搜索。

安装tidyRSS后,您可以像这样实现它:

代码语言:javascript
复制
library(tidyRSS)

# I will search for the keyword Apple

keyword <- "https://news.google.com/rss/search?q=apple&hl=en-IN&gl=IN&ceid=IN:en"
# From the package vignette

google_news <- tidyfeed(
  keyword,
  clean_tags = TRUE,
  parse_dates = TRUE
)

这为您提供了一个数据帧,其中包含描述每篇文章的许多变量。您可以选择保留哪些。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65520315

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档