首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >RSelenium:抓取页面上的链接

RSelenium:抓取页面上的链接
EN

Stack Overflow用户
提问于 2017-08-06 18:43:18
回答 1查看 447关注 0票数 0

我对RSelenium比较陌生。我已经成功地登录到一个网站,我需要从那里拉所有的网络链接。

该概述页面如下所示:

代码语言:javascript
复制
<a title="Search 'A2A'" href="/search?company=a2a&amp;rf=13">A2A</a>
<a title="Search 'ABB'" href="/search?company=abb&amp;rf=13">ABB</a>
<a title="Search 'Achmea'" href="/search?company=achmea&amp;rf=13">Achmea</a>

等等。这种情况还会持续约6000个链接

我尝试使用下面这行代码来获取所有链接,但这不起作用:

代码语言:javascript
复制
remDr$findElement(using="link text", value="href")

如果有人能告诉我如何抓取所有的链接,包括公司名称,如'A2A','ABB','Achmea‘等,我将不胜感激。

致敬,mr_bungles

EN

回答 1

Stack Overflow用户

发布于 2018-08-02 01:20:46

我建议你和RSelenium一起使用'rvest‘和'tidyverse’。

代码语言:javascript
复制
library(tidyverse)
library(rvest)

url <- 'add your url here'

pg <- read_html(url)

tbl <- tibble(
    text = pg %>% html_nodes('add css selector here') %>% html_text()
    link = pg %>% html_nodes('add css selector here') %>% html_attr('href')
)
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45531169

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档