文章/答案/技术大牛

发布

问获取HTML格式的数据模式
EN

Stack Overflow用户

提问于 2017-12-16 22:12:23

回答 1查看 121关注 0票数 0

我的目标是写几行R代码，让我可以从

www.skyscanner.it/trasporti/voli/mila/fran/180201?adults=1&children=0&adultsv2=1&childrenv2=&infants=0&cabinclass=economy&rtn=0&preferdirects=false&outboundaltsenabled=false&inboundaltsenabled=false&ref=home#results

获取:航空公司，出发和到达airportS，出发和到达timeS，价格。

我决定使用爬虫程序包(here how it works)，但由于没有使用HTML语言的经验，我不知道如何设置ExtractXpathPat选项来获取数据。

    Rcrawler(Website = "https://www.skyscanner.it/trasporti/voli/mila/fran/180201?adults=1&children=0&adultsv2=1&childrenv2=&infants=0&cabinclass=economy&rtn=0&preferdirects=false&outboundaltsenabled=false&inboundaltsenabled=false&ref=day-view#results", 
no_cores = 4, no_conn = 4, ExtractXpathPat = c("?????"))

我该怎么办？如何学习如何设置路径？谢谢!

path

web-crawler

html

回答 1

Stack Overflow用户

发布于 2017-12-16 23:23:29

要小心，根据域名的策略，不允许通过网页抓取的信息。但是，要获得css代码或xpath，可以使用"Selector Gadget“或浏览器中的inspect按钮。

要确保允许web抓取，您必须访问该域的robots.txt。在您的例子中：http://www.skyscanner.com/robots.txt。您也可以使用robotstxt包。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/47846541

复制

相似问题

问获取HTML格式的数据模式
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问获取HTML格式的数据模式EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问获取HTML格式的数据模式
EN