首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从报纸网站上抓取图片

从报纸网站上抓取图片
EN

Stack Overflow用户
提问于 2020-04-23 03:39:14
回答 1查看 67关注 0票数 0

对于这个补习性的问题,我很抱歉(我是一位老教授,不是很懂技术)。

我正在使用rvest从报纸网站抓取图片,代码如下:

代码语言:javascript
复制
read_html(url) %>% html_nodes("img") %>% html_attr("src")

有些效果很好,但有些效果不好。我在以下方面遇到了特别的困难:

https://www.argusleader.com/picture-gallery/news/2020/03/28/photos-coronavirus-impact-sioux-falls/2932927001/

代码返回: character(0)

我最好的猜测是我没有正确地识别原始html代码中的节点或属性标记。我尝试了许多变体,但收效甚微。

有没有人能提供一些关于常见节点或属性的指导,这些节点或属性可以用来从这样的网站上抓取图像?

谢谢。

EN

回答 1

Stack Overflow用户

发布于 2020-07-14 12:52:45

您提供的网站使用JS动态提供代码。可靠的方法是使用RSelenium,但您可以先看一下页面源代码。在这种情况下,网站将urls放在<slide>标签中,并以某种方式将它们转换为<img>标签。这段代码将给出您可能想要的结果:

代码语言:javascript
复制
library(rvest)
pg <- read_html("https://www.argusleader.com/picture-gallery/news/2020/03/28/photos-coronavirus-impact-sioux-falls/2932927001/")
imgs <- pg %>% html_nodes("slide") %>% html_attr("original")
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61373723

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档