问从dfm中删除特定的单词
EN

Stack Overflow用户

提问于 2020-11-27 19:15:57

回答 1查看 737关注 0票数 0

从这个过程中

    library(stm)
library(tidyr)
library(quanteda)
     testDfm <- gadarian$open.ended.response %>%
             tokens(remove_punct = TRUE, remove_numbers = TRUE, remove_symbols = TRUE)  %>%
             dfm()

假设我们检查了frq

dftextstat <- textstat_frequency(testDfm)

我们想从dfm中删除一些特定的单词。对于dftextstat，我们想要删除c("and", "to")，有什么方法可以使它在dfm中不需要再次运行行来创建dfm？

quanteda

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-11-27 20:04:24

如果您已经有了一个dfm，您可以使用dfm_remove来删除特性。

根据您的例子：

# remove "and" and "to"
testDfm <- dfm_remove(testDfm, c("and", "to"))

最好用以下方式移除所有的塞子：

dfm_remove(testDfm, stopwords("english"))

如果您仍然有一个令牌对象，您可以以相同的方式使用tokens_remove，或者像上面这样在管道中使用。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65042736

复制

相似问题

问从dfm中删除特定的单词
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从dfm中删除特定的单词EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从dfm中删除特定的单词
EN