首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从dfm中删除特定的单词

从dfm中删除特定的单词
EN

Stack Overflow用户
提问于 2020-11-27 19:15:57
回答 1查看 737关注 0票数 0

从这个过程中

代码语言:javascript
复制
    library(stm)
library(tidyr)
library(quanteda)
     testDfm <- gadarian$open.ended.response %>%
             tokens(remove_punct = TRUE, remove_numbers = TRUE, remove_symbols = TRUE)  %>%
             dfm()

假设我们检查了frq

代码语言:javascript
复制
dftextstat <- textstat_frequency(testDfm)

我们想从dfm中删除一些特定的单词。对于dftextstat,我们想要删除c("and", "to"),有什么方法可以使它在dfm中不需要再次运行行来创建dfm?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-11-27 20:04:24

如果您已经有了一个dfm,您可以使用dfm_remove来删除特性。

根据您的例子:

代码语言:javascript
复制
# remove "and" and "to"
testDfm <- dfm_remove(testDfm, c("and", "to"))

最好用以下方式移除所有的塞子:

代码语言:javascript
复制
dfm_remove(testDfm, stopwords("english"))

如果您仍然有一个令牌对象,您可以以相同的方式使用tokens_remove,或者像上面这样在管道中使用。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65042736

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档