文章/答案/技术大牛

发布

社区首页 >问答首页 >在多个页面中抓取一个web表(缺少一些行)

问在多个页面中抓取一个web表(缺少一些行)
EN

Stack Overflow用户

提问于 2021-11-20 19:00:26

回答 1查看 139关注 0票数 1

我想使用https://irelandsgreatwardead.ie/the-archive/从rvest中抓取一个表格(包含关于31,385名士兵的信息)。

library(rvest)
library(dplyr)

page <- read_html(x = "https://irelandsgreatwardead.ie/the-archive/")    
table <- page             %>% 
  html_nodes("table")     %>%  
  html_table(fill = TRUE) %>%
  as.data.frame()

这是可行的，但只适用于前10名士兵。在源代码中，我只能看到前10名士兵的信息。任何帮助如何获得与其他士兵的排将是非常感谢的！

谢谢，祝您今天愉快！

web-scraping

html-table

rvest

rselenium

回答 1

Stack Overflow用户

发布于 2021-11-21 12:36:48

library(RSelenium)
driver = rsDriver(browser = c("firefox"))

remDr <- driver[["client"]]
url <- 'https://irelandsgreatwardead.ie/the-archive/'
remDr$navigate(url)

# Locate the next page link
webElem <- remDr$findElement(using = "css", value = "a[data-dt-idx='3'")

# Click that link
webElem$clickElement()

# Get that table
remDr$getPageSource()[[1]] %>% 
  read_html() %>%
  html_table()

您的for循环需要从值3开始(这是第二个页面！)。在第二页，它变成4，等等，但它永远不会超过5。因为它是‘设计’的方式，所以你会循环3:5，然后在5，保持在每次5。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70048987

复制

相似问题

问在多个页面中抓取一个web表(缺少一些行)
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在多个页面中抓取一个web表(缺少一些行)EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在多个页面中抓取一个web表(缺少一些行)
EN