文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用R中的Rcrawler从子域提取信息？

问如何使用R中的Rcrawler从子域提取信息？
EN

Stack Overflow用户

提问于 2017-12-22 06:20:32

回答 2查看 750关注 0票数 1

我想使用主URL从子域提取网页内容。

我试过用Rcrawler

library(Rcrawler)

Rcrawler(Website = "http://www.xbyte-technolabs.com/", no_cores = 4, no_conn = 4, ExtractCSSPat = c(".address"))

运行此代码后，我得到了索引默认变量，我们可以看到网站的所有URL。有一个网址“us.php”，我想从中提取联系详细信息。

现在，请有人指点我如何使用R中的http://xbyte-technolabs.com/从主网址“”转到这个特定的URL。

web-scraping

rcrawler

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-12-22 07:40:31

library(Rcrawler)
Rcrawler(Website = "http://www.xbyte-technolabs.com/", no_cores = 1, no_conn = 1, ExtractCSSPat = c(".address"))

pageid <- as.numeric(INDEX$Id[INDEX$Url == 'http://xbyte-technolabs.com/contact_us.php'])
DATA[pageid]

根据?Rcrawler的说法，Rcrawler创建了两个全局变量

索引:表示通用URL索引的全局环境中的数据框架，包括获取的URL和页面详细信息(contenttype、HTTP状态、退出链接和链接中的数量、编码类型和级别)的列表，以及
数据:全局环境中保存刮过的内容的列表列表。

索引中的Id变量对应于数据中的list元素。上面的代码片段查找与您感兴趣的url对应的Id。

Sidenote:既然你知道你要寻找的URL，在整个网站上爬行似乎有点过火了。

票数 0

Stack Overflow用户

发布于 2017-12-22 07:35:20

library(Rcrawler)

Rcrawler("http://www.xbyte-technolabs.com/",no_cores = 4,no_conn = 4)

for (i in length(INDEX)) {
  for (j in nrow(INDEX)) {

    Rcrawler(Website = INDEX[[i]][j], no_cores = 4, no_conn = 4, ExtractCSSPat = c(".address"))

  }

}
#Rcrawler(Website = INDEX[[i]][23], no_cores = 4, no_conn = 4, ExtractCSSPat = c(".address"))
class(DATA)
head(DATA)

ad <- DATA[[1]]
ad <- as.character(ad)
cat(ad)

对不起，我认为这个代码有问题，任何人都会出现以下错误：

strsplit(gsub("[http://|https://|www\](http://|https//|www%5C)."，“，网站)，”/“中的错误[c(1，：下标超出界限)”

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/47936738

复制

相似问题

问如何使用R中的Rcrawler从子域提取信息？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用R中的Rcrawler从子域提取信息？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用R中的Rcrawler从子域提取信息？
EN