首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何修复这个RCurl错误?

如何修复这个RCurl错误?
EN

Stack Overflow用户
提问于 2014-02-05 02:02:22
回答 2查看 355关注 0票数 0

我想问一个问题,关于我目前困在这个问题上。在尝试抓取HTML页面时(使用RCurl),我会遇到这样的错误:“curlMultiPerform中的错误(MultiHandle):string中的embedded nul”。我读了很多关于这类错误的文章,以及关于如何处理它的建议(包括RCurl包的创建者邓肯·坦普尔·朗的一个建议)。但即使应用了他的建议(如下所示),我也会犯同样的错误:

代码语言:javascript
复制
htmlPage <- rawToChar(getURLContent(url, followlocation = TRUE, binary = TRUE))
doc <- htmlParse(htmlPage, asText=TRUE)

我是不是遗漏了什么?任何帮助都将不胜感激!

编辑:

然而,有第二个错误,我没有提到在最初的帖子。它发生在这里:

代码语言:javascript
复制
data <- lapply(i <- 1:length(links),
               function(url) try(read.table(bzfile(links[i]),
                                            sep=",", row.names=NULL)))

错误:Error in bzfile(links[i]) : invalid 'description' argument

“链接”是文件的完整URL列表,构造如下:

代码语言:javascript
复制
links <- lapply(filenames, function(x) paste(url, x, sep="/"))

通过使用links[i],我试图在正在进行的‘list ()’迭代中引用链接列表的当前元素。

第二版:

目前,我正在为下面的代码而挣扎。我发现了更多的案例,人们建议完全相同的方法,这让我好奇为什么它在我的情况下行不通.

代码语言:javascript
复制
getData <- function(x) try(read.table(bzfile(x), sep = ",", row.names = NULL))
data <- lapply(seq_along(links), function(i) getData(links[[i]]))
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-02-16 16:15:28

我能够找出上述问题的原因。这花了我大量的时间和精力,但这是值得的-现在我更了解R listslapply()

基本上,我做了三大改变:

1)在处理类CSV文件时添加了textConnection()readLines()

代码语言:javascript
复制
conn <- gzcon(bzfile(file, open = "r"))
tConn <- textConnection(readLines(conn))

然而,我发现了这种方法的一些问题--参见我的另一个如此问题:Extremely slow R code and hanging

2)使用正确的订阅表示法来引用传递给function(i)lapply()中适当的列表元素

代码语言:javascript
复制
url <- links[[1]][i]

3)使用正确的订阅符号来引用lapply()的整个列表

代码语言:javascript
复制
data <- lapply(seq_along(links[[1]]), getData)

感谢所有参与并帮助回答这个问题的人!

票数 0
EN

Stack Overflow用户

发布于 2014-02-09 05:04:54

萨沙

尝尝这个

代码语言:javascript
复制
library(XML)
url <- "http://flossdata.syr.edu/data/fc/2013/2013-Dec/"
doc <- htmlParse(url)
ndx <- getNodeSet(doc,"//table")

就像一种魅力。

祝好运。

S.

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/21567304

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档