如何将语料库转换为包含元数据的R中的数据帧?我已经尝试了来自convert corpus into data.frame in R的建议,但得到的数据框只包含语料库中所有文档的文本行。我还需要文档ID,也许还需要两列中文本行的行号。那么,我如何扩展这个命令:dataframe <- data.frame(text=unlist(sapply(mycorpus,[, "content")), stringsAsFactors=FALSE)?
我已经试过了
dataframe <-
data.frame(id=sapply(corpus, meta(corpus, "id")),
text=unlist(sapply(corpus, `[`, "content")),
stringsAsFactors=F)但是没有帮助;我只得到了一个错误信息"Error in match.fun(FUN):‘meta(语料库,"id")’ist nicht Funktion,Zeichen oder Symbol“
语料库是从纯文本文件中提取的;下面是一个示例:
> str(corpus)
[...]
$ 1178531510 :List of 2
..$ content: chr [1:67] " uberrasch sagt [...] gemacht echt schad verursacht" ...
..$ meta :List of 7
.. ..$ author : chr(0)
.. ..$ datetimestamp: POSIXlt[1:1], format: "2015-08-16 14:44:11"
.. ..$ description : chr(0)
.. ..$ heading : chr(0)
.. ..$ id : chr "1178531510" # <--- This is the ID i want in the data.frame
.. ..$ language : chr "de"
.. ..$ origin : chr(0)
.. ..- attr(*, "class")= chr "TextDocumentMeta"
..- attr(*, "class")= chr [1:2] "PlainTextDocument" "TextDocument"
[...]提前表示感谢:)
发布于 2015-08-18 18:51:08
有两个问题:您不应该在sapply中重复参数语料库,并且多段落文本被转换为长度大于1的字符向量,您应该在取消列出之前将它们粘贴在一起。
dataframe <-
data.frame(id=sapply(corpus, meta, "id"),
text=unlist(lapply(sapply(corpus, '[', "content"),paste,collapse="\n")),
stringsAsFactors=FALSE)https://stackoverflow.com/questions/32036391
复制相似问题