我使用R来挖掘tweet,我得到了tweet中使用频率最高的单词。然而,最常见的单词是这样的:
[1] "cant" "dont" "girl" "gonna" "lol" "love"
[7] "que" "thats" "watching" "wish" "youre" 我正在寻找文本中的趋势和名称和事件。我想知道是否有一种方法可以删除这种短信风格的单词(例如,将要,想要,...)从语料库?有没有针对他们的禁言?任何帮助都将不胜感激。
发布于 2012-11-26 16:05:54
文本挖掘包维护自己的停用词列表,并提供有用的工具来管理和总结这类文本。
假设您的tweet存储在一个向量中。
library(tm)
words <- vector_of_strings
corpus <- Corpus(VectorSource(words))
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, function(x) tolower(x))
corpus <- tm_map(corpus, function(x) removeWords(x,
stopwords()))您可以将最后一行与您自己的停用词列表()一起使用:
stoppers <- c(stopwords(), "gonna", "wanna", "lol", ... ) 不幸的是,你必须生成你自己的“文本消息”或“互联网消息”停用词列表。
但是,你可以通过借用NetLingo ( http://vps.netlingo.com/acronyms.php )来欺骗一下。
library(XML)
theurl <- "http://vps.netlingo.com/acronyms.php"
h <- htmlParse(theurl)
h <- getNodeSet(h,"//ul/li/span//a")
stoppers <- sapply(h,xmlValue)https://stackoverflow.com/questions/13558703
复制相似问题