首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用R中的Rcrawler从子域提取信息?

如何使用R中的Rcrawler从子域提取信息?
EN

Stack Overflow用户
提问于 2017-12-22 06:20:32
回答 2查看 750关注 0票数 1

我想使用主URL从子域提取网页内容。

我试过用Rcrawler

代码语言:javascript
复制
library(Rcrawler)

Rcrawler(Website = "http://www.xbyte-technolabs.com/", no_cores = 4, no_conn = 4, ExtractCSSPat = c(".address"))

运行此代码后,我得到了索引默认变量,我们可以看到网站的所有URL。有一个网址“us.php”,我想从中提取联系详细信息。

现在,请有人指点我如何使用R中的http://xbyte-technolabs.com/从主网址“”转到这个特定的URL。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-12-22 07:40:31

代码语言:javascript
复制
library(Rcrawler)
Rcrawler(Website = "http://www.xbyte-technolabs.com/", no_cores = 1, no_conn = 1, ExtractCSSPat = c(".address"))

pageid <- as.numeric(INDEX$Id[INDEX$Url == 'http://xbyte-technolabs.com/contact_us.php'])
DATA[pageid]

根据?Rcrawler的说法,Rcrawler创建了两个全局变量

  • 索引:表示通用URL索引的全局环境中的数据框架,包括获取的URL和页面详细信息(contenttype、HTTP状态、退出链接和链接中的数量、编码类型和级别)的列表,以及
  • 数据:全局环境中保存刮过的内容的列表列表。

索引中的Id变量对应于数据中的list元素。上面的代码片段查找与您感兴趣的url对应的Id。

Sidenote:既然你知道你要寻找的URL,在整个网站上爬行似乎有点过火了。

票数 0
EN

Stack Overflow用户

发布于 2017-12-22 07:35:20

代码语言:javascript
复制
library(Rcrawler)

Rcrawler("http://www.xbyte-technolabs.com/",no_cores = 4,no_conn = 4)

for (i in length(INDEX)) {
  for (j in nrow(INDEX)) {

    Rcrawler(Website = INDEX[[i]][j], no_cores = 4, no_conn = 4, ExtractCSSPat = c(".address"))

  }

}
#Rcrawler(Website = INDEX[[i]][23], no_cores = 4, no_conn = 4, ExtractCSSPat = c(".address"))
class(DATA)
head(DATA)

ad <- DATA[[1]]
ad <- as.character(ad)
cat(ad)

对不起,我认为这个代码有问题,任何人都会出现以下错误:

strsplit(gsub("[http://|https://|www\](http://|https//|www%5C).",“,网站),”/“中的错误[c(1,:下标超出界限)”

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47936738

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档