文章/答案/技术大牛

发布

社区首页 >问答首页 >在R中使用htmlParse()时缺少网站源代码

问在R中使用htmlParse()时缺少网站源代码
EN

Stack Overflow用户

提问于 2013-03-25 04:58:14

回答 2查看 176关注 0票数 0

我正在尝试下载以下网站的完整源代码：http://www.carnegiehall.org/Students/。

我要提取的信息如下：

卡内基音乐厅演讲 2013年3月28日(星期四)下午7:30 劳伦斯·布朗利马丁·卡茨赞克尔厅

视图源显示了该文本的以下代码块：

 <div class="info-col">
     <div class="up-lic">Carnegie Hall Presents</div>
     <div class="date">Thursday, March 28, 2013 | 7:30 PM</div> 
     <div class="clearfix"></div>
     <div class="title color">
         <a href="/Calendar/2013/3/28/0730/PM/Lawrence-Brownlee-Martin-Katz/">Lawrence Brownlee<BR>Martin Katz</a>
     </div>
     <div class="clearfix"></div>
     <div class="location"> Zankel Hall</div>
     <div class="clearfix"></div> 
     <br />

当我在R中运行以下代码时，它是缺失的：

htmlParse(getURL("http://www.carnegiehall.org/Students", .opts = curlOptions(followlocation=TRUE)), asText = TRUE)

有人能告诉我我做错了什么吗？

html-parsing

回答 2

Stack Overflow用户

发布于 2013-03-25 05:18:01

问题似乎只是获取URL (而不是解析URL)。您正在寻找的信息不会过来，如下所示：

H <- getURL("http://www.carnegiehall.org/Students", .opts = curlOptions(followlocation=TRUE))

grepl("Zankel Hall", H)
# [1] FALSE

grepl("March 28", H)
# [1] FALSE

如果仔细查看html，它会显示日历是通过脚本加载的。

票数 0

Stack Overflow用户

发布于 2013-03-25 10:59:47

library(XML)
hdata <- htmlParse('http://www.carnegiehall.org/Students/')
xpathSApply(hdata,'//div[@class="info-col"]/div/text()|//div[@class="info-col"]/div/a/text()')
#[[1]]
#Carnegie Hall Presents 

#[[2]]
#Thursday, March 28, 2013 | 7:30 PM 

#[[3]]


#[[4]]
#Lawrence Brownlee 

#[[5]]
#Martin Katz 

#[[6]]
# Zankel Hall 

#[[7]]

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/15607936

复制

相似问题

问在R中使用htmlParse()时缺少网站源代码
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在R中使用htmlParse()时缺少网站源代码EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在R中使用htmlParse()时缺少网站源代码
EN