我正在尝试下载以下网站的完整源代码:http://www.carnegiehall.org/Students/。
我要提取的信息如下:
卡内基音乐厅演讲 2013年3月28日(星期四)下午7:30 劳伦斯·布朗利 马丁·卡茨 赞克尔厅
视图源显示了该文本的以下代码块:
<div class="info-col">
<div class="up-lic">Carnegie Hall Presents</div>
<div class="date">Thursday, March 28, 2013 | 7:30 PM</div>
<div class="clearfix"></div>
<div class="title color">
<a href="/Calendar/2013/3/28/0730/PM/Lawrence-Brownlee-Martin-Katz/">Lawrence Brownlee<BR>Martin Katz</a>
</div>
<div class="clearfix"></div>
<div class="location"> Zankel Hall</div>
<div class="clearfix"></div>
<br />当我在R中运行以下代码时,它是缺失的:
htmlParse(getURL("http://www.carnegiehall.org/Students", .opts = curlOptions(followlocation=TRUE)), asText = TRUE)有人能告诉我我做错了什么吗?
发布于 2013-03-25 05:18:01
问题似乎只是获取URL (而不是解析URL)。您正在寻找的信息不会过来,如下所示:
H <- getURL("http://www.carnegiehall.org/Students", .opts = curlOptions(followlocation=TRUE))
grepl("Zankel Hall", H)
# [1] FALSE
grepl("March 28", H)
# [1] FALSE如果仔细查看html,它会显示日历是通过脚本加载的。
发布于 2013-03-25 10:59:47
library(XML)
hdata <- htmlParse('http://www.carnegiehall.org/Students/')
xpathSApply(hdata,'//div[@class="info-col"]/div/text()|//div[@class="info-col"]/div/a/text()')
#[[1]]
#Carnegie Hall Presents
#[[2]]
#Thursday, March 28, 2013 | 7:30 PM
#[[3]]
#[[4]]
#Lawrence Brownlee
#[[5]]
#Martin Katz
#[[6]]
# Zankel Hall
#[[7]]https://stackoverflow.com/questions/15607936
复制相似问题