文章/答案/技术大牛

发布

社区首页 >问答首页 >寻找傻瓜式和文本消息风格的停用词

问寻找傻瓜式和文本消息风格的停用词
EN

Stack Overflow用户

提问于 2012-11-26 12:33:28

回答 1查看 310关注 0票数 3

我使用R来挖掘tweet，我得到了tweet中使用频率最高的单词。然而，最常见的单词是这样的：

 [1] "cant"     "dont"     "girl"     "gonna"    "lol"      "love"    
 [7] "que"      "thats"    "watching" "wish"     "youre"

我正在寻找文本中的趋势和名称和事件。我想知道是否有一种方法可以删除这种短信风格的单词(例如，将要，想要，...)从语料库？有没有针对他们的禁言？任何帮助都将不胜感激。

text-mining

stop-words

nlp

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-11-26 16:05:54

文本挖掘包维护自己的停用词列表，并提供有用的工具来管理和总结这类文本。

假设您的tweet存储在一个向量中。

library(tm)
words <- vector_of_strings
corpus <- Corpus(VectorSource(words))
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, function(x) tolower(x))
corpus <- tm_map(corpus, function(x) removeWords(x, 
                stopwords()))

您可以将最后一行与您自己的停用词列表()一起使用：

stoppers <- c(stopwords(), "gonna", "wanna", "lol", ... )

不幸的是，你必须生成你自己的“文本消息”或“互联网消息”停用词列表。

但是，你可以通过借用NetLingo ( http://vps.netlingo.com/acronyms.php )来欺骗一下。

library(XML)
theurl <- "http://vps.netlingo.com/acronyms.php"
h <- htmlParse(theurl)
h <- getNodeSet(h,"//ul/li/span//a")
stoppers <- sapply(h,xmlValue)

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/13558703

复制

相似问题

问寻找傻瓜式和文本消息风格的停用词
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问寻找傻瓜式和文本消息风格的停用词EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问寻找傻瓜式和文本消息风格的停用词
EN