在运行一个主题模型之前,我添加了n个元素,这样以后我的主题模型中就可以出现2-3块的单词了。
toks_data_ngrams <- tokens_ngrams(toks_data, n=2:3)然而,在此之后,我的主题模型包含了许多单词,如a_b、apple_banana、happy_hand。
我怎么能忽略那些带有下划线的词呢?我不希望它们被包括在我的主题模型中。是否有额外的代码来表示ngram,这样ngram之间就不会捕获带有下划线的单词了吗?(在预处理过程中我已经删除了标点符号和符号)。
非常感谢您的所有投入,提前!
发布于 2022-08-09 14:44:04
tokens_ngrams有一个级联器选项。默认情况下,此设置为_。您可以指定任何您想要的内容,例如:
tokens_ngrams(toks_data, n= 2:3, concatenator = " ")发布于 2022-08-09 10:23:12
您可以将它们排除在
toks_data_ngrams <- toks_data_ngrams[!grepl("_", toks_data_ngrams)]在将来,在你的问题中一定要包括可重复的例子。
https://stackoverflow.com/questions/73290175
复制相似问题