首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >tm在应用tm_map时丢失元数据

tm在应用tm_map时丢失元数据
EN

Stack Overflow用户
提问于 2014-09-03 07:21:08
回答 1查看 7.1K关注 0票数 3

我对tm r库有一个(小)问题。说我有一个语料库:

代码语言:javascript
复制
# boilerplate
bcorp <- c("one","two","three","four","five")
myCorpus <- Corpus(VectorSource(bcorp), list(lanuage = "en_US"))
tdm <- TermDocumentMatrix(myCorpus)
Docs(tdm)

结果:

代码语言:javascript
复制
[1] "1" "2" "3" "4" "5"

这个很管用。但是,当我尝试使用转换时,tm_map():

代码语言:javascript
复制
# this does not work
myCorpus <- Corpus(VectorSource(bcorp), list(lanuage = "en_US"))
myCorpus <- tm_map(myCorpus, tolower)
tdm <- TermDocumentMatrix(myCorpus)

给出

代码语言:javascript
复制
Error: inherits(doc, "TextDocument") is not TRUE

在这种情况下提出的解决方案是转换为PlainTextDocument。

代码语言:javascript
复制
# this works but erase the metadata
myCorpus <- Corpus(VectorSource(bcorp), list(lanuage = "en_US"))
myCorpus <- tm_map(myCorpus, tolower)
myCorpus <- tm_map(myCorpus, PlainTextDocument)
tdm <- TermDocumentMatrix(myCorpus)
Docs(tdm)

结果:

代码语言:javascript
复制
[1] "character(0)" "character(0)" "character(0)" "character(0)" "character(0)"

现在它起作用了,但是删除所有元数据(在本例中是文档名)。有一种方法可以对元数据进行分类,或者保存并恢复元数据?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-09-03 08:27:43

我找到了。

这句话:

代码语言:javascript
复制
myCorpus <- tm_map(myCorpus, PlainTextDocument)

解决了问题,但删除了元数据。

我找到了解释使用this answer ()的更好方法的tm_map()。我只需要替代:

代码语言:javascript
复制
myCorpus <- tm_map(myCorpus, tolower)

通过以下方式:

代码语言:javascript
复制
myCorpus <- tm_map(myCorpus, content_transformer(tolower))

一切都成功了!

票数 8
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/25638503

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档