首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >爬虫程序包: ContentScraper错误

爬虫程序包: ContentScraper错误
EN

Stack Overflow用户
提问于 2017-12-18 02:14:42
回答 2查看 549关注 0票数 0

我对Rcrawler包的ContentScraper函数有一个问题。我想从this site上提取一些关于到达和出发的时间和机场以及价格的信息:(我的灵感来自this site)

代码语言:javascript
复制
MY_Data=ContentScraper(CssPatterns = c(".leg",".price"), ManyPerPattern = T, Url = "http://www.skyscanner.it/trasporti/voli/rome/lond/180201?adults=1&children=0&adultsv2=1&childrenv2=&infants=0&cabinclass=economy&rtn=0&preferdirects=false&outboundaltsenabled=false&inboundaltsenabled=false&ref=day-view#results")

但是我得到了这个错误:

代码语言:javascript
复制
Error in LinkExtractor(url = Ur, encod = encod) : object 'Extlinks' not found

我看过LinkExtractor函数,但我不知道为什么它找不到Extlink,因为它应该由函数本身创建。难到不是么?有人能帮我吗?

谢谢!

EN

回答 2

Stack Overflow用户

发布于 2017-12-18 02:46:42

此网站不允许抓取。这可能是你的例子不起作用的原因之一。你可以试试in this web。我还建议您尝试使用更容易使用的rvest包。

票数 2
EN

Stack Overflow用户

发布于 2018-11-15 03:44:49

我使用Rcrawler+phantomjs web驱动程序尝试了同样的请求,但没有结果,有某种类型的javascript保护,以防止不真实的会话,

代码语言:javascript
复制
br<-run_browser()
MY_Data<-ContentScraper(CssPatterns = c(".leg",".price"), ManyPerPattern = T, Url = "https://www.skyscanner.it/trasporti/voli/rome/lond/?adults=1&children=0&adultsv2=1&childrenv2=&infants=0&cabinclass=economy&rtn=0&preferdirects=false&outboundaltsenabled=false&inboundaltsenabled=false&ref=day-view&oym=1903&selectedoday=01", browser = br, RenderingDelay = 5)

我检索到了session Screenshot,我可以确认加载结果的javascript被卡住了。

使用Rselenium+ chrome headless (启用图形处理器),我得到了机器人检查页面。(见图片)

因此,合法获取数据的唯一希望就是使用他们的API

爬虫创建者

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47858076

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档