在我的数据(即文本)中,有缩略语。
是否有在文本中搜索缩写的函数或代码?例如,检测3-4-5大写字母缩写,让我计算它们发生的频率。
非常感谢!
发布于 2017-06-13 20:11:37
检测3-4-5大写字母缩写
你可以用
\b[A-Z]{3,5}\b详细信息
\b -一个单词边界[A-Z]{3,5} - 3、4或5个大写字母(也可以使用[[:upper:]]匹配其他字母)\b -一个词的边界。R演示在线 (利用来自@TheComeOnMan的regex出现计数代码)
abbrev_regex <- "\\b[A-Z]{3,5}\\b";
x <- "XYZ was seen at WXYZ with VWXYZ and did ABCDEFGH."
sum(gregexpr(abbrev_regex,x)[[1]] > 0)
## => [1] 3
regmatches(x, gregexpr(abbrev_regex, x))[[1]]
## => [1] "XYZ" "WXYZ" "VWXYZ"发布于 2017-06-13 18:30:42
您可以使用正则表达式[A-Z]来匹配任意的无符号字母。如果您希望这个模式重复3次,您可以将\1{3}添加到正则表达式中。考虑使用变量和一个循环来完成工作,重复3到5次。
https://stackoverflow.com/questions/44528816
复制相似问题