我想比较一下来自不同国家的新闻文章中特定关键词的用法。
我的想法是使用RCrawler抓取谷歌新闻:
RCrawler(website = “https://news.google.com/topics/CAAqIggKIhxDQkFTRHdvSkwyMHZNREZqY0hsNUVnSmtaU2dBUAE?hl=de&gl=DE&ceid=DE%3Ade”, MaxDepth = 5, Keywordfilter = c(“Keyword”), KeywordAccuracy = 99)
然后只计算我得到的结果。我不确定这是不是最好的方法,或者它是否正确,但我是R的新手,这是我目前能想到的最好的方法。
发布于 2021-01-01 21:47:29
由于您使用的是Google News,而不是以这种方式抓取,一个更简单的方法是访问该特定关键字的RSS提要,并将其放入一个数据帧中。幸运的是,您可以使用{tidyRSS}包来做这件事。
以下URL是提要外观的一个示例:
https://news.google.com/rss/search?q=apple&hl=en-IN&gl=IN&ceid=IN:en了解如何自定义此URL here。如果愿意,您可以按地理位置进行搜索。
安装tidyRSS后,您可以像这样实现它:
library(tidyRSS)
# I will search for the keyword Apple
keyword <- "https://news.google.com/rss/search?q=apple&hl=en-IN&gl=IN&ceid=IN:en"
# From the package vignette
google_news <- tidyfeed(
keyword,
clean_tags = TRUE,
parse_dates = TRUE
)这为您提供了一个数据帧,其中包含描述每篇文章的许多变量。您可以选择保留哪些。
https://stackoverflow.com/questions/65520315
复制相似问题