首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用RVEST对<dl> <dt> <dd> html标记进行网络抓取

使用RVEST对<dl> <dt> <dd> html标记进行网络抓取
EN

Stack Overflow用户
提问于 2020-05-07 03:23:11
回答 2查看 133关注 0票数 0

我正在尝试使用rvest从二手车广告中提取一些数据。但是,我无法使用html_nodes()函数抓取构成< dl >、< dt >或< dd > html标记的数据。

更具体地说,我想在下面的数据框中抓取下面汽车广告的图像中的特征。https://www.autoscout24.be/nl/aanbod/mercedes-benz-slk-200-benzine-grijs-e77f7a3e-76b1-4676-88a0-b52c9574068a?cldtidx=3&cldtsrc=listPage

enter image description here

有谁能帮帮我吗?

谢谢!阿恩

EN

回答 2

Stack Overflow用户

发布于 2020-05-08 22:35:55

这(以及其他几种组合--试错)我已经尝试过了。我希望有一个数据帧,其中标记是键,标记是值

代码语言:javascript
复制
install.packages("rvest")    
library(rvest)

autoscout_mercedes <- read_html("https://www.autoscout24.be/nl/lst/mercedes-benz?sort=standard&desc=0&ustate=N%2CU&cy=B&atype=C")

features <- autoscout_mercedes %>%    
      html_nodes("div.sc-ellipsis") %>%    
      html_nodes("a") %>%    
      html_attr("href")    

features

我还包含了一个html脚本的打印屏幕。enter image description here

票数 0
EN

Stack Overflow用户

发布于 2021-06-23 17:07:59

这将是我的方法,使用这个示例链接:

代码语言:javascript
复制
link <- read_html("https://www.autoscout24.de/angebote/opel-corsa-1-2-16v-klima- 
                   nsw-zv-benzin-blau-f189ee9d-b634-4bb7-8051-0e4a1f62846f? 
                   &cldtidx=1&cldtsrc=listPage&searchId=1225151069")
name <- html_text(html_nodes(link, "dl > dt"))
name
value <- html_text(html_nodes(link, "dd"))
value
test <- data.frame(name,value)

head(test)
         h2            dd
1        Zustand \nGebraucht\n
2 Fahrzeughalter         \n3\n
3          Marke      \nOpel\n
4         Modell     \nCorsa\n
5  Erstzulassung      \n2000\n
6     Außenfarbe      \nBlau\n
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61643647

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档