我正在使用R和相对较新的编程,因此,任何帮助将不胜感激。
我是一项调查的文本挖掘,并希望过滤评论与文字组合。数据集已从csv文件中读取。
我想过滤那些包含“国外”和“收费”字样的评论。
我使用grepl函数来识别注释中的模式。通过使用以下代码,我成功地过滤了注释部分中的数据,其中包含“国外”和“收费”两个词:
ac <- filter(data, grepl("abroad|charges", Comment))
ac$Comment它返回带有“国外”和“收费”字样的评论,但它返回的评论可以是“国外”,也可以是“收费”。我想把这两个词结合起来。我试着用&但这不起作用。
我也尝试过子集:
ac <- subset(data, Comment %in% c("abroad", "charges"))
ac$Comment所有这些都不返回所需的结果。我漏掉了什么明显的东西吗?如何查看只包含特定单词的评论。因此,如果我想进一步探索我的文本,我可以尝试找到“国外”和“收费”和“昂贵”的组合。
谢谢,任何帮助都会很好。
发布于 2015-08-12 11:00:16
我们可以在grep内部使用带有&运算符的双filter,它只适用于在string中同时包含“国外”和“收费”的单词TRUE。
filter(data, grepl("abroad", Comment) & grepl('charges', Comment))https://stackoverflow.com/questions/31962798
复制相似问题