问使用R从网页中提取HyperLinks
EN

Stack Overflow用户

提问于 2016-05-22 21:05:01

回答 1查看 2.4K关注 0票数 0

需要帮助从下面的页面提取每个产品的超链接(比如费城:一个自由观察甲板)：

https://www.getyourguide.com/s/?q=Philadelphia

我采用了以下一般方法：

url <- "http://www.viator.com/search/Philadelphia"
doc <- htmlParse(url)
links <- xpathSApply(doc, "//a/@href")

但我错了。我正在寻找输出数据框架，如

product1: Philadelphia: One Liberty Observation Deck 
link1 : "https://www.getyourguide.com/philadelphia-l60/philadelphia-one-liberty-observation-deck-t61908/"

product2 : Philadelphia Hop-on Hop-off Bus Tour Tickets
link2 : "https://www.getyourguide.com/philadelphia-l60/philadelphia-hop-on-hop-off-bus-tour-t47403/"

同样，我对编程非常陌生，所以任何帮助或代码片段都将受到极大的赞赏。

web-scraping

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-05-22 21:43:52

您要查找的这些链接不在源页面的代码中，它们包含来自JSON文件的javascript，您在这里可以看到https://www.getyourguide.com/s/search.json?q=Philadelphia。

试试下面的代码，你应该得到链接向量。

library(RCurl)
library(XML)
url<-"https://www.getyourguide.com/s/search.json?q=Philadelphia"
url2<-getURL(url)
parsed<-htmlParse(url2)
links<-xpathSApply(parsed,path = "//a",xmlGetAttr,"href")

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/37379657

复制

相似问题

问使用R从网页中提取HyperLinks
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用R从网页中提取HyperLinksEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用R从网页中提取HyperLinks
EN