文章/答案/技术大牛

发布

社区首页 >问答首页 >使用RVEST从sports参考中抓取表格

问使用RVEST从sports参考中抓取表格
EN

Stack Overflow用户

提问于 2020-10-29 21:24:13

回答 1查看 37关注 0票数 0

我试图从这个网页中抓取不同的表格：https://www.pro-football-reference.com/years/2020/

在检查页面的元素时，我发现使用以下代码可以很容易地获得前两个表：

### packages
library(tidyverse)
library(rvest)

### Scrape offense
url_off <- read_html("https://www.pro-football-reference.com/years/2020/")


## AFC Standings
url_off %>% 
  html_table(fill = TRUE) %>% 
  .[1] %>% 
  as.data.frame()

## NFC Standings
url_off %>% 
  html_table(fill = TRUE) %>% 
  .[2] %>% 
  as.data.frame()

我被卡住的地方是那一页上的所有其他表格。

例如，攻击表，我可以看到它在页面上的位置：

我已经尝试了几种方法来提取它，但没有任何运气。例如：

url_off %>%
  html_nodes(".table_outer_container") %>%
  html_nodes("#team_stats")

url_off %>%
  html_nodes(".table_wrapper") %>%
  html_nodes("#team_stats")

当我尝试从该页面提取任何其他表时，这似乎是一个问题。我唯一能得到的两个表是前两个(上面)。我不知道我错在哪里。

web-scraping

rvest

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-10-29 21:33:39

我已经把它整理好了。这些数据都被存储为评论，我认为这是我的问题。对于任何感兴趣或有类似问题的人，下面是我如何提取这些表的：

url_off %>%
  html_nodes('#all_team_stats') %>%   
  html_nodes(xpath = 'comment()') %>%
  html_text() %>%
  read_html() %>%
  html_node('table') %>%
  html_table()


url_off %>%
  html_nodes('#all_passing') %>%   
  html_nodes(xpath = 'comment()') %>%
  html_text() %>%
  read_html() %>%
  html_node('table') %>%
  html_table()

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64592017

复制

相似问题

问使用RVEST从sports参考中抓取表格
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用RVEST从sports参考中抓取表格EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用RVEST从sports参考中抓取表格
EN