我正试着在一些单词中找出西班牙语单词。我有来自excel的所有西班牙语单词,但我不知道如何附加到帖子中(它有80000多个单词),我正在尝试检查是否有一些单词在上面。
例如:
words = c("Silla", "Sillas", "Perro", "asdfg")我试着用这个solution
grepl(paste(spanish_words, collapse = "|"), words) 但是有太多的西班牙语单词,并给出了这个错误:
所以..。我能做的是谁?我还尝试了这个:
toupper(words) %in% toupper(spanish_words)正如你所看到的,这个选项只在完全匹配的情况下给出TRUE,我需要"Sillas“也显示为TRUE (它是silla的复数)。这就是我首先尝试grepl的原因,因为get复数也是如此。
有什么想法吗?
发布于 2019-07-11 15:24:01
作为df:
df <- tibble(text = c("some words",
"more words",
"Perro",
"And asdfg",
"Comb perro and asdfg"))单词向量:word <- c("Silla","Sillas","Perro","asdfg") word <- tolower(paste( words,collapse = "|"))
然后使用mutate和str_detect:
df %>%
mutate(
text = tolower(text),
spanish_word = str_detect(text, words)
)返回:
text spanish_word
<chr> <lgl>
1 some words FALSE
2 more words FALSE
3 perro TRUE
4 and asdfg TRUE
5 comb perro and asdfg TRUE https://stackoverflow.com/questions/56983390
复制相似问题