首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用RVEST从sports参考中抓取表格

使用RVEST从sports参考中抓取表格
EN

Stack Overflow用户
提问于 2020-10-29 21:24:13
回答 1查看 37关注 0票数 0

我试图从这个网页中抓取不同的表格:https://www.pro-football-reference.com/years/2020/

在检查页面的元素时,我发现使用以下代码可以很容易地获得前两个表:

代码语言:javascript
复制
### packages
library(tidyverse)
library(rvest)

### Scrape offense
url_off <- read_html("https://www.pro-football-reference.com/years/2020/")


## AFC Standings
url_off %>% 
  html_table(fill = TRUE) %>% 
  .[1] %>% 
  as.data.frame()

## NFC Standings
url_off %>% 
  html_table(fill = TRUE) %>% 
  .[2] %>% 
  as.data.frame()

我被卡住的地方是那一页上的所有其他表格。

例如,攻击表,我可以看到它在页面上的位置:

我已经尝试了几种方法来提取它,但没有任何运气。例如:

代码语言:javascript
复制
url_off %>%
  html_nodes(".table_outer_container") %>%
  html_nodes("#team_stats")

url_off %>%
  html_nodes(".table_wrapper") %>%
  html_nodes("#team_stats")

当我尝试从该页面提取任何其他表时,这似乎是一个问题。我唯一能得到的两个表是前两个(上面)。我不知道我错在哪里。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-10-29 21:33:39

我已经把它整理好了。这些数据都被存储为评论,我认为这是我的问题。对于任何感兴趣或有类似问题的人,下面是我如何提取这些表的:

代码语言:javascript
复制
url_off %>%
  html_nodes('#all_team_stats') %>%   
  html_nodes(xpath = 'comment()') %>%
  html_text() %>%
  read_html() %>%
  html_node('table') %>%
  html_table()


url_off %>%
  html_nodes('#all_passing') %>%   
  html_nodes(xpath = 'comment()') %>%
  html_text() %>%
  read_html() %>%
  html_node('table') %>%
  html_table()
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64592017

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档