我想使用主URL从子域提取网页内容。
我试过用Rcrawler
library(Rcrawler)
Rcrawler(Website = "http://www.xbyte-technolabs.com/", no_cores = 4, no_conn = 4, ExtractCSSPat = c(".address"))运行此代码后,我得到了索引默认变量,我们可以看到网站的所有URL。有一个网址“us.php”,我想从中提取联系详细信息。
现在,请有人指点我如何使用R中的http://xbyte-technolabs.com/从主网址“”转到这个特定的URL。
发布于 2017-12-22 07:40:31
library(Rcrawler)
Rcrawler(Website = "http://www.xbyte-technolabs.com/", no_cores = 1, no_conn = 1, ExtractCSSPat = c(".address"))
pageid <- as.numeric(INDEX$Id[INDEX$Url == 'http://xbyte-technolabs.com/contact_us.php'])
DATA[pageid]根据?Rcrawler的说法,Rcrawler创建了两个全局变量
索引中的Id变量对应于数据中的list元素。上面的代码片段查找与您感兴趣的url对应的Id。
Sidenote:既然你知道你要寻找的URL,在整个网站上爬行似乎有点过火了。
发布于 2017-12-22 07:35:20
library(Rcrawler)
Rcrawler("http://www.xbyte-technolabs.com/",no_cores = 4,no_conn = 4)
for (i in length(INDEX)) {
for (j in nrow(INDEX)) {
Rcrawler(Website = INDEX[[i]][j], no_cores = 4, no_conn = 4, ExtractCSSPat = c(".address"))
}
}
#Rcrawler(Website = INDEX[[i]][23], no_cores = 4, no_conn = 4, ExtractCSSPat = c(".address"))
class(DATA)
head(DATA)
ad <- DATA[[1]]
ad <- as.character(ad)
cat(ad)对不起,我认为这个代码有问题,任何人都会出现以下错误:
strsplit(gsub("[http://|https://|www\](http://|https//|www%5C).",“,网站),”/“中的错误[c(1,:下标超出界限)”
https://stackoverflow.com/questions/47936738
复制相似问题