我对Rcrawler包的ContentScraper函数有一个问题。我想从this site上提取一些关于到达和出发的时间和机场以及价格的信息:(我的灵感来自this site)
MY_Data=ContentScraper(CssPatterns = c(".leg",".price"), ManyPerPattern = T, Url = "http://www.skyscanner.it/trasporti/voli/rome/lond/180201?adults=1&children=0&adultsv2=1&childrenv2=&infants=0&cabinclass=economy&rtn=0&preferdirects=false&outboundaltsenabled=false&inboundaltsenabled=false&ref=day-view#results")但是我得到了这个错误:
Error in LinkExtractor(url = Ur, encod = encod) : object 'Extlinks' not found我看过LinkExtractor函数,但我不知道为什么它找不到Extlink,因为它应该由函数本身创建。难到不是么?有人能帮我吗?
谢谢!
发布于 2017-12-18 02:46:42
此网站不允许抓取。这可能是你的例子不起作用的原因之一。你可以试试in this web。我还建议您尝试使用更容易使用的rvest包。
发布于 2018-11-15 03:44:49
我使用Rcrawler+phantomjs web驱动程序尝试了同样的请求,但没有结果,有某种类型的javascript保护,以防止不真实的会话,
br<-run_browser()
MY_Data<-ContentScraper(CssPatterns = c(".leg",".price"), ManyPerPattern = T, Url = "https://www.skyscanner.it/trasporti/voli/rome/lond/?adults=1&children=0&adultsv2=1&childrenv2=&infants=0&cabinclass=economy&rtn=0&preferdirects=false&outboundaltsenabled=false&inboundaltsenabled=false&ref=day-view&oym=1903&selectedoday=01", browser = br, RenderingDelay = 5)我检索到了session Screenshot,我可以确认加载结果的javascript被卡住了。
使用Rselenium+ chrome headless (启用图形处理器),我得到了机器人检查页面。(见图片)
因此,合法获取数据的唯一希望就是使用他们的API


爬虫创建者
https://stackoverflow.com/questions/47858076
复制相似问题