首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在R中创建带有西班牙语文本的语料库

在R中创建带有西班牙语文本的语料库
EN

Stack Overflow用户
提问于 2014-05-05 23:59:22
回答 1查看 2.7K关注 0票数 4

尝试对西班牙语文本进行文本挖掘和字云可视化。我实际上有9个不同的.txt文件,但只会张贴一个复制。

"Nos los los preexistentes del pueblo de la Nación阿根廷,reunidos en Congreso en Congreso Congreso de la Nación Congreso en Congreso en Congreso de la unión nacional,afianzar la justicia,Congreso en Congreso de la unión nacional,afianzar la justicia,Congreso en Congreso de la Nación,reunidos en Congreso en con de la Nación,Congreso en Congreso de la Nación.

该文件被保存为.txt文件。下面是我天真的尝试用正确的编码来生成术语文档矩阵。当我检查它时,我不会得到原始文件中的文本(例如,“constitución”变成"constitucif3n“)。我对文本挖掘很陌生,而且我知道这个解决方案可能涉及到各种各样的相互依赖的调整,所以我想我应该在这里请求,而不是搜索4个小时。提前谢谢。

代码语言:javascript
复制
#Generate Term-Document-Matrix

#Convert Text to Corpus and Clean
cleanCorpus <- function(corpus) {
  corpus.tmp <- tm_map(corpus, removePunctuation)
  corpus.tmp <- tm_map(corpus.tmp, stripWhitespace)
  corpus.tmp <- tm_map(corpus.tmp, tolower)
  corpus.tmp <- tm_map(corpus.tmp, removeWords, stopwords("spanish"))
  return(corpus.tmp)
}

generateTDM <- function(path) {
  cor.tmp <- Corpus(DirSource(directory=path, encoding="ISO8859-1"))
  cor.cl <- cleanCorpus(cor.tmp)
  tdm.tmp <- TermDocumentMatrix(cor.cl)
  tdm.s <- removeSparseTerms(tdm.tmp, 0.7)
}

tdm <- generateTDM(pathname)
tdm.m <- as.matrix(tdm)
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-05-06 18:27:17

答:确保原始文本文件是UTF-8编码.要做到这一点,我必须改变我的储蓄偏好在TextEdit上的Mac。这使得一切都完美地运转起来。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/23483826

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档