首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在R中使用字符串提取变量名

在R中使用字符串提取变量名
EN

Stack Overflow用户
提问于 2017-12-22 02:47:14
回答 2查看 1.1K关注 0票数 1

我试图从以下向量中提取一些变量名称和数字,并将它们存储到两个新变量中:

代码语言:javascript
复制
unique_strings <- c("PM_1_PMS5003_S_Avg", "PM_2_5_PMS5003_S_Avg", "PM_10_PMS5003_S_Avg", 
  "PM_1_PMS5003_A_Avg", "PM_2_5_PMS5003_A_Avg", "PM_10_PMS5003_A_Avg", 
  "PNC_0_3_PMS5003_Avg", "PNC_0_5_PMS5003_Avg", "PNC_1_0_PMS5003_Avg", 
  "PNC_2_5_PMS5003_Avg", "PNC_5_0_PMS5003_Avg", "PNC_10_0_PMS5003_Avg", 
  "PM_1_PMS7003_S_Avg", "PM_2_5_PMS7003_S_Avg", "PM_10_PMS7003_S_Avg", 
  "PM_1_PMS7003_A_Avg", "PM_2_5_PMS7003_A_Avg", "PM_10_PMS7003_A_Avg", 
  "PNC_0_3_PMS7003_Avg", "PNC_0_5_PMS7003_Avg", "PNC_1_0_PMS7003_Avg", 
  "PNC_2_5_PMS7003_Avg", "PNC_5_0_PMS7003_Avg", "PNC_10_0_PMS7003_Avg"
)

我想为第一个变量在PMS之前提取每个字符。这包括使用PMPNC的字符串,以及下划线和数字。我想将这些结果存储到一个名为pollutant的变量中。

期望产出:

代码语言:javascript
复制
unique(pollutant)
[1] "PM_1" "PM_2_5" "PM_10" "PNC_0_3" "PNC_0_5" "PNC_1_0" "PNC_2_5" "PNC_5_0" "PNC_10"

我想为第二个变量提取PMS之后的所有内容。

为此,我首先尝试从每个字符串中提取模型数字(以003结尾的四位数字),但是,在提取中包括A_AvgS_Avg也是有用的。

这是我的第一次尝试:

代码语言:javascript
复制
model_id <- str_extract(unique_strings, "[0-9]{4,}")

unique(model_id)
[1] "5003" "7003"

我以前没有使用regex,现在很难浏览现有的docs / stack。非常感谢您的投入!

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-12-22 03:06:19

我们可以使用str_split来拆分基于"PMS"的字符串。之后,使用str_replace删除第一列中的最后一个"_"。输出为m。第一个变量在第一列中,第二个变量在第二列中。

代码语言:javascript
复制
library(stringr)
m <- str_split(unique_strings, pattern = "PMS", simplify = TRUE)
m[, 1] <- str_replace(m[, 1], "_$", "")
m
#       [,1]       [,2]        
#  [1,] "PM_1"     "5003_S_Avg"
#  [2,] "PM_2_5"   "5003_S_Avg"
#  [3,] "PM_10"    "5003_S_Avg"
#  [4,] "PM_1"     "5003_A_Avg"
#  [5,] "PM_2_5"   "5003_A_Avg"
#  [6,] "PM_10"    "5003_A_Avg"
#  [7,] "PNC_0_3"  "5003_Avg"  
#  [8,] "PNC_0_5"  "5003_Avg"  
#  [9,] "PNC_1_0"  "5003_Avg"  
# [10,] "PNC_2_5"  "5003_Avg"  
# [11,] "PNC_5_0"  "5003_Avg"  
# [12,] "PNC_10_0" "5003_Avg"  
# [13,] "PM_1"     "7003_S_Avg"
# [14,] "PM_2_5"   "7003_S_Avg"
# [15,] "PM_10"    "7003_S_Avg"
# [16,] "PM_1"     "7003_A_Avg"
# [17,] "PM_2_5"   "7003_A_Avg"
# [18,] "PM_10"    "7003_A_Avg"
# [19,] "PNC_0_3"  "7003_Avg"  
# [20,] "PNC_0_5"  "7003_Avg"  
# [21,] "PNC_1_0"  "7003_Avg"  
# [22,] "PNC_2_5"  "7003_Avg"  
# [23,] "PNC_5_0"  "7003_Avg"  
# [24,] "PNC_10_0" "7003_Avg"
票数 2
EN

Stack Overflow用户

发布于 2017-12-22 03:02:03

我们可以使用str_extract从字符串(^(PM|PNC))的开头(^)开始匹配“PM”或“PNC”,后面跟着一个_和一个或多个数字(\\d+),后面跟着有另一组_和数字的情况(为此我们指定零或多个((_\\d)*) )。

代码语言:javascript
复制
library(stringr)
out <- str_extract(unique_strings, "^(PM|PNC)_\\d+(_\\d)*")

这将为那些不匹配的元素提供NA。如果我们需要移除那些

代码语言:javascript
复制
na.omit(out)

对于第二种情况,不清楚期望的输出。如果我们需要在PMS之后提取所有内容,我们可以使用regexlookbehind ((?<=PMS))并匹配后面的所有字符(.*)。

代码语言:javascript
复制
str_extract(unique_strings, "(?<=PMS).*")
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47935270

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档