首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >删除单词之间的下划线,这样它们就不会出现在R中的n-克中。

删除单词之间的下划线,这样它们就不会出现在R中的n-克中。
EN

Stack Overflow用户
提问于 2022-08-09 10:19:10
回答 2查看 43关注 0票数 1

在运行一个主题模型之前,我添加了n个元素,这样以后我的主题模型中就可以出现2-3块的单词了。

代码语言:javascript
复制
toks_data_ngrams <- tokens_ngrams(toks_data, n=2:3)

然而,在此之后,我的主题模型包含了许多单词,如a_b、apple_banana、happy_hand。

我怎么能忽略那些带有下划线的词呢?我不希望它们被包括在我的主题模型中。是否有额外的代码来表示ngram,这样ngram之间就不会捕获带有下划线的单词了吗?(在预处理过程中我已经删除了标点符号和符号)。

非常感谢您的所有投入,提前!

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2022-08-09 14:44:04

tokens_ngrams有一个级联器选项。默认情况下,此设置为_。您可以指定任何您想要的内容,例如:

代码语言:javascript
复制
tokens_ngrams(toks_data, n= 2:3, concatenator = " ")
票数 2
EN

Stack Overflow用户

发布于 2022-08-09 10:23:12

您可以将它们排除在

代码语言:javascript
复制
toks_data_ngrams <- toks_data_ngrams[!grepl("_", toks_data_ngrams)]

在将来,在你的问题中一定要包括可重复的例子。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/73290175

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档