文章/答案/技术大牛

发布

社区首页 >问答首页 >从报纸网站上抓取图片

问从报纸网站上抓取图片
EN

Stack Overflow用户

提问于 2020-04-23 03:39:14

回答 1查看 67关注 0票数 0

对于这个补习性的问题，我很抱歉(我是一位老教授，不是很懂技术)。

我正在使用rvest从报纸网站抓取图片，代码如下：

read_html(url) %>% html_nodes("img") %>% html_attr("src")

有些效果很好，但有些效果不好。我在以下方面遇到了特别的困难：

https://www.argusleader.com/picture-gallery/news/2020/03/28/photos-coronavirus-impact-sioux-falls/2932927001/

代码返回: character(0)

我最好的猜测是我没有正确地识别原始html代码中的节点或属性标记。我尝试了许多变体，但收效甚微。

有没有人能提供一些关于常见节点或属性的指导，这些节点或属性可以用来从这样的网站上抓取图像？

谢谢。

url

rvest

scrape

image

回答 1

Stack Overflow用户

发布于 2020-07-14 12:52:45

您提供的网站使用JS动态提供代码。可靠的方法是使用RSelenium，但您可以先看一下页面源代码。在这种情况下，网站将urls放在<slide>标签中，并以某种方式将它们转换为<img>标签。这段代码将给出您可能想要的结果：

library(rvest)
pg <- read_html("https://www.argusleader.com/picture-gallery/news/2020/03/28/photos-coronavirus-impact-sioux-falls/2932927001/")
imgs <- pg %>% html_nodes("slide") %>% html_attr("original")

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61373723

复制

相似问题

问从报纸网站上抓取图片
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从报纸网站上抓取图片EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从报纸网站上抓取图片
EN