首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在多个页面中抓取一个web表(缺少一些行)

在多个页面中抓取一个web表(缺少一些行)
EN

Stack Overflow用户
提问于 2021-11-20 19:00:26
回答 1查看 139关注 0票数 1

我想使用https://irelandsgreatwardead.ie/the-archive/rvest中抓取一个表格(包含关于31,385名士兵的信息)。

代码语言:javascript
复制
library(rvest)
library(dplyr)

page <- read_html(x = "https://irelandsgreatwardead.ie/the-archive/")    
table <- page             %>% 
  html_nodes("table")     %>%  
  html_table(fill = TRUE) %>%
  as.data.frame()

这是可行的,但只适用于前10名士兵。在源代码中,我只能看到前10名士兵的信息。任何帮助如何获得与其他士兵的排将是非常感谢的!

谢谢,祝您今天愉快!

EN

回答 1

Stack Overflow用户

发布于 2021-11-21 12:36:48

代码语言:javascript
复制
library(RSelenium)
driver = rsDriver(browser = c("firefox"))

remDr <- driver[["client"]]
url <- 'https://irelandsgreatwardead.ie/the-archive/'
remDr$navigate(url)

# Locate the next page link
webElem <- remDr$findElement(using = "css", value = "a[data-dt-idx='3'")

# Click that link
webElem$clickElement()

# Get that table
remDr$getPageSource()[[1]] %>% 
  read_html() %>%
  html_table()

您的for循环需要从值3开始(这是第二个页面!)。在第二页,它变成4,等等,但它永远不会超过5。因为它是‘设计’的方式,所以你会循环3:5,然后在5,保持在每次5。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70048987

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档