问RSelenium网络抓取
EN

Stack Overflow用户

提问于 2015-11-26 20:10:09

回答 1查看 204关注 0票数 0

我正在尝试抓取一个网站，但是javascript给我带来了问题。我使用RSelenium到达我想要的页面，给出html，我可以解析它并获得我想要的数据。然而，这是我似乎无法解决的中间步骤。这就是我所拥有的：

library('RSelenium')
checkForServer()
startServer()
remDr <- remoteDriver(browserName="firefox", port=4444)
remDr$open(silent=T)
library('XML')
url <- "http://racing.hkjc.com/racing/Info/Meeting/Results/english/Local/20141012/ST/1"
remDr$navigate(url)
elem <- remDr$findElement(using="div id", value="results")  # PROBLEM HERE, CAN'T FIND A TAG THAT WORKS!
elemtxt <- elem$getElementAttribute("outerHTML")[[1]]  # possible continuation
elemxml <- htmlTreeParse(elemtxt, useInternalNodes=T)

(我关注的是页面上的大部分数据:结果表、上面的信息、红利表和赛车事件报告。但是有了elemxml之后，我知道如何实现这一点。)

非常感谢

javascript

web-scraping

回答 1

Stack Overflow用户

发布于 2016-11-01 10:09:28

类似于：

doc <- htmlParse(remDr$getPageSource()[[1]])
readHTMLTable(doc)

应该允许您访问html并处理包含的表。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/33938372

复制

相似问题

问RSelenium网络抓取
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问RSelenium网络抓取EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问RSelenium网络抓取
EN