文章/答案/技术大牛

发布

社区首页 >问答首页 >使用html_nodes引用子节点

问使用html_nodes引用子节点
EN

Stack Overflow用户

提问于 2019-08-23 16:19:37

回答 1查看 22关注 0票数 0

我想提取一个网站的页数，这个数字在一个嵌套的节点中。

我的网站是https://www.cbanque.com/pratique/agences/credit-mutuel/33/

当我这样做的时候

soup=read_html(page1)

 soup%>%html_nodes("div.col-xs-4)

我得到了

[1] <div class="col-xs-4"> </div>\n
[2] <div class="col-xs-4 tcenter">64 agences - Page 1 / 6</div>\n
[3] <div class="col-xs-4 tright"><a href="/pratique/agences/credit-mutuel/33/2/" class=" ...
[4] <div class="col-xs-4"> </div>\n
[5] <div class="col-xs-4 tcenter">64 agences - Page 1 / 6</div>\n
[6] <div class="col-xs-4 tright"><a href="/pratique/agences/credit-mutuel/33/2/" class=" ...
[7] <div class="col-xs-4">\n\t\t\t<span class="icon-cbanque"></span>\n\t\t</div>
[8] <div class="col-xs-4"> </div>
[9] <div class="col-xs-4 reseau-soc">\n\t\t\tSuivez-nous aussi sur\n\t\t\t<ul class="lis ...

我想访问名为“col xs-4 tcenter”的节点，以及其中的值。

web-scraping

rvest

回答 1

Stack Overflow用户

发布于 2019-08-23 19:52:45

您可以使用str_split

library(rvest))
library(magrittr)

page <- read_html("https://www.cbanque.com/pratique/agences/credit-mutuel/33/")
s <- page %>% html_node(".col-xs-4.tcenter") %>% html_text()
x <- strsplit(s, "/ ", fixed=FALSE)[[1]]
print(x[[-1]])

或正则表达式

library(rvest))
library(magrittr)
library(stringr)

page <- read_html("https://www.cbanque.com/pratique/agences/credit-mutuel/33/")
s <- page %>% html_node(".col-xs-4.tcenter") %>% html_text()
x <- str_match_all(s ,'/\\s+(\\d+)')
print(x[[1]][,2])

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57622306

复制

相似问题

问使用html_nodes引用子节点
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用html_nodes引用子节点EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用html_nodes引用子节点
EN