首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >寻找傻瓜式和文本消息风格的停用词

寻找傻瓜式和文本消息风格的停用词
EN

Stack Overflow用户
提问于 2012-11-26 12:33:28
回答 1查看 310关注 0票数 3

我使用R来挖掘tweet,我得到了tweet中使用频率最高的单词。然而,最常见的单词是这样的:

代码语言:javascript
复制
 [1] "cant"     "dont"     "girl"     "gonna"    "lol"      "love"    
 [7] "que"      "thats"    "watching" "wish"     "youre"  

我正在寻找文本中的趋势和名称和事件。我想知道是否有一种方法可以删除这种短信风格的单词(例如,将要,想要,...)从语料库?有没有针对他们的禁言?任何帮助都将不胜感激。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-11-26 16:05:54

文本挖掘包维护自己的停用词列表,并提供有用的工具来管理和总结这类文本。

假设您的tweet存储在一个向量中。

代码语言:javascript
复制
library(tm)
words <- vector_of_strings
corpus <- Corpus(VectorSource(words))
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, function(x) tolower(x))
corpus <- tm_map(corpus, function(x) removeWords(x, 
                stopwords()))

您可以将最后一行与您自己的停用词列表()一起使用:

代码语言:javascript
复制
stoppers <- c(stopwords(), "gonna", "wanna", "lol", ... ) 

不幸的是,你必须生成你自己的“文本消息”或“互联网消息”停用词列表。

但是,你可以通过借用NetLingo ( http://vps.netlingo.com/acronyms.php )来欺骗一下。

代码语言:javascript
复制
library(XML)
theurl <- "http://vps.netlingo.com/acronyms.php"
h <- htmlParse(theurl)
h <- getNodeSet(h,"//ul/li/span//a")
stoppers <- sapply(h,xmlValue)
票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/13558703

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档