首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >获取HTML格式的数据模式

获取HTML格式的数据模式
EN

Stack Overflow用户
提问于 2017-12-16 22:12:23
回答 1查看 121关注 0票数 0

我的目标是写几行R代码,让我可以从

www.skyscanner.it/trasporti/voli/mila/fran/180201?adults=1&children=0&adultsv2=1&childrenv2=&infants=0&cabinclass=economy&rtn=0&preferdirects=false&outboundaltsenabled=false&inboundaltsenabled=false&ref=home#results

获取:航空公司,出发和到达airportS,出发和到达timeS,价格。

我决定使用爬虫程序包(here how it works),但由于没有使用HTML语言的经验,我不知道如何设置ExtractXpathPat选项来获取数据。

代码语言:javascript
复制
    Rcrawler(Website = "https://www.skyscanner.it/trasporti/voli/mila/fran/180201?adults=1&children=0&adultsv2=1&childrenv2=&infants=0&cabinclass=economy&rtn=0&preferdirects=false&outboundaltsenabled=false&inboundaltsenabled=false&ref=day-view#results", 
no_cores = 4, no_conn = 4, ExtractXpathPat = c("?????"))

我该怎么办?如何学习如何设置路径?谢谢!

EN

回答 1

Stack Overflow用户

发布于 2017-12-16 23:23:29

要小心,根据域名的策略,不允许通过网页抓取的信息。但是,要获得css代码或xpath,可以使用"Selector Gadget“或浏览器中的inspect按钮。

要确保允许web抓取,您必须访问该域的robots.txt。在您的例子中:http://www.skyscanner.com/robots.txt。您也可以使用robotstxt包。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47846541

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档