文章/答案/技术大牛

发布

社区首页 >问答首页 >爬虫程序包: ContentScraper错误

问爬虫程序包: ContentScraper错误
EN

Stack Overflow用户

提问于 2017-12-18 02:14:42

回答 2查看 549关注 0票数 0

我对Rcrawler包的ContentScraper函数有一个问题。我想从this site上提取一些关于到达和出发的时间和机场以及价格的信息：(我的灵感来自this site)

MY_Data=ContentScraper(CssPatterns = c(".leg",".price"), ManyPerPattern = T, Url = "http://www.skyscanner.it/trasporti/voli/rome/lond/180201?adults=1&children=0&adultsv2=1&childrenv2=&infants=0&cabinclass=economy&rtn=0&preferdirects=false&outboundaltsenabled=false&inboundaltsenabled=false&ref=day-view#results")

但是我得到了这个错误：

Error in LinkExtractor(url = Ur, encod = encod) : object 'Extlinks' not found

我看过LinkExtractor函数，但我不知道为什么它找不到Extlink，因为它应该由函数本身创建。难到不是么？有人能帮我吗？

谢谢!

web-scraping

回答 2

Stack Overflow用户

发布于 2017-12-18 02:46:42

此网站不允许抓取。这可能是你的例子不起作用的原因之一。你可以试试in this web。我还建议您尝试使用更容易使用的rvest包。

票数 2

Stack Overflow用户

发布于 2018-11-15 03:44:49

我使用Rcrawler+phantomjs web驱动程序尝试了同样的请求，但没有结果，有某种类型的javascript保护，以防止不真实的会话，

br<-run_browser()
MY_Data<-ContentScraper(CssPatterns = c(".leg",".price"), ManyPerPattern = T, Url = "https://www.skyscanner.it/trasporti/voli/rome/lond/?adults=1&children=0&adultsv2=1&childrenv2=&infants=0&cabinclass=economy&rtn=0&preferdirects=false&outboundaltsenabled=false&inboundaltsenabled=false&ref=day-view&oym=1903&selectedoday=01", browser = br, RenderingDelay = 5)

我检索到了session Screenshot，我可以确认加载结果的javascript被卡住了。

使用Rselenium+ chrome headless (启用图形处理器)，我得到了机器人检查页面。(见图片)

因此，合法获取数据的唯一希望就是使用他们的API

爬虫创建者

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/47858076

复制

相似问题

问爬虫程序包: ContentScraper错误
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问爬虫程序包: ContentScraper错误EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问爬虫程序包: ContentScraper错误
EN