问如何使用R中元数据将语料库转换为data.frame
EN

Stack Overflow用户

提问于 2015-08-16 22:51:28

回答 1查看 4.1K关注 0票数 3

如何将语料库转换为包含元数据的R中的数据帧？我已经尝试了来自convert corpus into data.frame in R的建议，但得到的数据框只包含语料库中所有文档的文本行。我还需要文档ID，也许还需要两列中文本行的行号。那么，我如何扩展这个命令：dataframe <- data.frame(text=unlist(sapply(mycorpus,[, "content")), stringsAsFactors=FALSE)？

我已经试过了

    dataframe <- 
data.frame(id=sapply(corpus, meta(corpus, "id")), 
text=unlist(sapply(corpus, `[`, "content")), 
stringsAsFactors=F)

但是没有帮助；我只得到了一个错误信息"Error in match.fun(FUN)：‘meta(语料库，"id")’ist nicht Funktion，Zeichen oder Symbol“

语料库是从纯文本文件中提取的；下面是一个示例：

> str(corpus)
[...]
$ 1178531510 :List of 2
  ..$ content: chr [1:67] " uberrasch sagt [...] gemacht echt schad verursacht" ...
  ..$ meta   :List of 7
  .. ..$ author       : chr(0) 
  .. ..$ datetimestamp: POSIXlt[1:1], format: "2015-08-16 14:44:11"
  .. ..$ description  : chr(0) 
  .. ..$ heading      : chr(0) 
  .. ..$ id           : chr "1178531510" # <--- This is the ID i want in the data.frame
  .. ..$ language     : chr "de"
  .. ..$ origin       : chr(0) 
  .. ..- attr(*, "class")= chr "TextDocumentMeta"
  ..- attr(*, "class")= chr [1:2] "PlainTextDocument" "TextDocument"
[...]

提前表示感谢:)

回答 1

Stack Overflow用户

发布于 2015-08-18 18:51:08

有两个问题:您不应该在sapply中重复参数语料库，并且多段落文本被转换为长度大于1的字符向量，您应该在取消列出之前将它们粘贴在一起。

dataframe <- 
    data.frame(id=sapply(corpus, meta, "id"),
               text=unlist(lapply(sapply(corpus, '[', "content"),paste,collapse="\n")),
               stringsAsFactors=FALSE)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/32036391

复制

相似问题

问如何使用R中元数据将语料库转换为data.frame
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用R中元数据将语料库转换为data.frameEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用R中元数据将语料库转换为data.frame
EN