我有一个名为tweets_data的数据集,它使用Rtweet包捕获tweet的详细信息。其中一个名为text的列捕获tweet的文本。我正在尝试匹配tweet的文本是否包含以下代码中提到的任何单词。我遇到了“广告”这个词的问题,因为像“爸爸”、“副词”、“坏”之类的词也被捕获了。我使用了“\坏\b”而不是"ad“,它改善了结果,但它仍然捕获了一些没有使用"ad”一词的tweet。我想要匹配准确的单词"ad“。
words = c("endorsement","advertisement","sponsored","\\bad\\b","sponsored content","advert","paid partnership")
x <- sapply(words, function(x) grepl(tolower(x), tolower(tweets_data$text)))
tweets_data$Words <- apply(x, 1, function(i) paste0(names(i)[i], collapse = ","))
tweets_data$Count <- apply(x, 1, function(i) sum(i))发布于 2020-05-10 21:16:14
使用^表示开始,使用$表示结束。
"^ad$", "^AD$"https://stackoverflow.com/questions/61712547
复制相似问题