尝试对西班牙语文本进行文本挖掘和字云可视化。我实际上有9个不同的.txt文件,但只会张贴一个复制。
"Nos los los preexistentes del pueblo de la Nación阿根廷,reunidos en Congreso en Congreso Congreso de la Nación Congreso en Congreso en Congreso de la unión nacional,afianzar la justicia,Congreso en Congreso de la unión nacional,afianzar la justicia,Congreso en Congreso de la Nación,reunidos en Congreso en con de la Nación,Congreso en Congreso de la Nación.
该文件被保存为.txt文件。下面是我天真的尝试用正确的编码来生成术语文档矩阵。当我检查它时,我不会得到原始文件中的文本(例如,“constitución”变成"constitucif3n“)。我对文本挖掘很陌生,而且我知道这个解决方案可能涉及到各种各样的相互依赖的调整,所以我想我应该在这里请求,而不是搜索4个小时。提前谢谢。
#Generate Term-Document-Matrix
#Convert Text to Corpus and Clean
cleanCorpus <- function(corpus) {
corpus.tmp <- tm_map(corpus, removePunctuation)
corpus.tmp <- tm_map(corpus.tmp, stripWhitespace)
corpus.tmp <- tm_map(corpus.tmp, tolower)
corpus.tmp <- tm_map(corpus.tmp, removeWords, stopwords("spanish"))
return(corpus.tmp)
}
generateTDM <- function(path) {
cor.tmp <- Corpus(DirSource(directory=path, encoding="ISO8859-1"))
cor.cl <- cleanCorpus(cor.tmp)
tdm.tmp <- TermDocumentMatrix(cor.cl)
tdm.s <- removeSparseTerms(tdm.tmp, 0.7)
}
tdm <- generateTDM(pathname)
tdm.m <- as.matrix(tdm)发布于 2014-05-06 18:27:17
答:确保原始文本文件是UTF-8编码.要做到这一点,我必须改变我的储蓄偏好在TextEdit上的Mac。这使得一切都完美地运转起来。
https://stackoverflow.com/questions/23483826
复制相似问题