我需要根据“UCSC_RefGene_Name”和“UCSC_RefGene_Group”列上的值重新组织一个巨大的数据,同时维护“ID”列中的每个值。是否可以使用reshape2或dplyr包来实现这一点?
df <- data.frame(ID=c('cg00035864','cg00050873', 'cg00061679', 'cg00063477', 'cg00121626', 'cg00212031'),
UCSC_RefGene_Name=c('TTTY18', 'TSPY4;FAM197Y2', 'DAZ1;DAZ4;DAZ5', 'EIF1AY', 'BCORL2', 'TTTY14'),
UCSC_RefGene_Group = c('TSS1500','Body;TSS1500','Body;Body;Body', 'Body', 'Body', 'TSS200'))
> df
ID UCSC_RefGene_Name UCSC_RefGene_Group
cg00035864 TTTY18 TSS1500
cg00050873 TSPY4;FAM197Y2 Body;TSS1500
cg00061679 DAZ1;DAZ4;DAZ4 Body;Body;Body
cg00063477 EIF1AY Body
cg00121626 BCORL2 Body
cg00212031 TTTY14 TSS200有些单元格包含由";“符号分隔的多个元素,因此我需要创建新的行来容纳这些元素。我的新DF是:
new_df <- data.frame(ID=c('cg00035864','cg00050873', 'cg00050873','cg00061679', 'cg00061679','cg00061679','cg00063477', 'cg00121626', 'cg00212031'),
UCSC_RefGene_Name=c('TTTY18', 'TSPY4','FAM197Y2', 'DAZ1','DAZ4','DAZ5', 'EIF1AY', 'BCORL2', 'TTTY14'),
UCSC_RefGene_Group = c('TSS1500','Body','TSS1500','Body','Body','Body', 'Body', 'Body', 'TSS200'))
> new_df
ID UCSC_RefGene_Name UCSC_RefGene_Group
cg00035864 TTTY18 TSS1500
cg00050873 TSPY4 Body
cg00050873 FAM197Y2 TSS1500
cg00061679 DAZ1 Body
cg00061679 DAZ4 Body
cg00061679 DAZ5 Body
cg00063477 EIF1AY Body
cg00121626 BCORL2 Body
cg00212031 TTTY14 TSS200发布于 2019-11-25 19:59:10
我们可以在这两列上应用separate_rows
library(dplyr)
library(tidyr)
df %>%
separate_rows(UCSC_RefGene_Name, UCSC_RefGene_Group)
# ID UCSC_RefGene_Name UCSC_RefGene_Group
#1 cg00035864 TTTY18 TSS1500
#2 cg00050873 TSPY4 Body
#3 cg00050873 FAM197Y2 TSS1500
#4 cg00061679 DAZ1 Body
#5 cg00061679 DAZ4 Body
#6 cg00061679 DAZ5 Body
#7 cg00063477 EIF1AY Body
#8 cg00121626 BCORL2 Body
#9 cg00212031 TTTY14 TSS200https://stackoverflow.com/questions/59039211
复制相似问题