对于这个补习性的问题,我很抱歉(我是一位老教授,不是很懂技术)。
我正在使用rvest从报纸网站抓取图片,代码如下:
read_html(url) %>% html_nodes("img") %>% html_attr("src")有些效果很好,但有些效果不好。我在以下方面遇到了特别的困难:
代码返回: character(0)
我最好的猜测是我没有正确地识别原始html代码中的节点或属性标记。我尝试了许多变体,但收效甚微。
有没有人能提供一些关于常见节点或属性的指导,这些节点或属性可以用来从这样的网站上抓取图像?
谢谢。
发布于 2020-07-14 12:52:45
您提供的网站使用JS动态提供代码。可靠的方法是使用RSelenium,但您可以先看一下页面源代码。在这种情况下,网站将urls放在<slide>标签中,并以某种方式将它们转换为<img>标签。这段代码将给出您可能想要的结果:
library(rvest)
pg <- read_html("https://www.argusleader.com/picture-gallery/news/2020/03/28/photos-coronavirus-impact-sioux-falls/2932927001/")
imgs <- pg %>% html_nodes("slide") %>% html_attr("original")https://stackoverflow.com/questions/61373723
复制相似问题