我的目标是写几行R代码,让我可以从
www.skyscanner.it/trasporti/voli/mila/fran/180201?adults=1&children=0&adultsv2=1&childrenv2=&infants=0&cabinclass=economy&rtn=0&preferdirects=false&outboundaltsenabled=false&inboundaltsenabled=false&ref=home#results
获取:航空公司,出发和到达airportS,出发和到达timeS,价格。
我决定使用爬虫程序包(here how it works),但由于没有使用HTML语言的经验,我不知道如何设置ExtractXpathPat选项来获取数据。
Rcrawler(Website = "https://www.skyscanner.it/trasporti/voli/mila/fran/180201?adults=1&children=0&adultsv2=1&childrenv2=&infants=0&cabinclass=economy&rtn=0&preferdirects=false&outboundaltsenabled=false&inboundaltsenabled=false&ref=day-view#results",
no_cores = 4, no_conn = 4, ExtractXpathPat = c("?????"))我该怎么办?如何学习如何设置路径?谢谢!
发布于 2017-12-16 23:23:29
要小心,根据域名的策略,不允许通过网页抓取的信息。但是,要获得css代码或xpath,可以使用"Selector Gadget“或浏览器中的inspect按钮。
要确保允许web抓取,您必须访问该域的robots.txt。在您的例子中:http://www.skyscanner.com/robots.txt。您也可以使用robotstxt包。
https://stackoverflow.com/questions/47846541
复制相似问题