我对RSelenium比较陌生。我已经成功地登录到一个网站,我需要从那里拉所有的网络链接。
该概述页面如下所示:
<a title="Search 'A2A'" href="/search?company=a2a&rf=13">A2A</a>
<a title="Search 'ABB'" href="/search?company=abb&rf=13">ABB</a>
<a title="Search 'Achmea'" href="/search?company=achmea&rf=13">Achmea</a>等等。这种情况还会持续约6000个链接
我尝试使用下面这行代码来获取所有链接,但这不起作用:
remDr$findElement(using="link text", value="href")如果有人能告诉我如何抓取所有的链接,包括公司名称,如'A2A','ABB','Achmea‘等,我将不胜感激。
致敬,mr_bungles
发布于 2018-08-02 01:20:46
我建议你和RSelenium一起使用'rvest‘和'tidyverse’。
library(tidyverse)
library(rvest)
url <- 'add your url here'
pg <- read_html(url)
tbl <- tibble(
text = pg %>% html_nodes('add css selector here') %>% html_text()
link = pg %>% html_nodes('add css selector here') %>% html_attr('href')
)https://stackoverflow.com/questions/45531169
复制相似问题