我是R的新手,所以我在问一个基本的问题。
我有两个数据帧
数据帧1包含匹配对:
Factor1 Factor2
A D
B E
C F数据帧2包含不同样本中不同因素的水平:
Sample1 Sample2
A 10 0
B 10 0
C 0 0
D 0 10
E 0 10
F 0 0我正在尝试遍历第一个数据帧。对于数据帧1中的每一行,如果样本1中factor1的电平大于5,并且样本2中因子2的电平大于5,则在数据帧1中添加第三列中的TRUE,否则添加FALSE。我希望我的问题足够清楚。谢谢
Factor1 Factor2 if_match
A D TRUE
B E TRUE
C F FALSE发布于 2017-09-12 15:16:49
假设两个数据集中的列数相同,通过比较'df2‘的行名和'df1’的每一列的行名,使用match获取行的索引,然后获取第二个数据集对应的列值,检查它是否大于等于5,并将其Reduce到单个逻辑vector
df2$if_match <- Reduce(`|`, Map(function(x, y) y[match(row.names(df2),
x, nomatch = 0)] >=5 , df1, df2))
df2$if_match
#[1] TRUE TRUE FALSE发布于 2017-09-12 15:21:14
假设data.frame 2的row.names等于data.frame 1中的因子,您可以使用row.names子集:
DF1$if_match <- DF2[as.character(DF1$Factor1),'Sample1'] > 5 &
DF2[as.character(DF1$Factor2),'Sample2'] > 5
> DF1
Factor1 Factor2 if_match
1 A D TRUE
2 B E TRUE
3 C F FALSE编辑:
请注意,由row.names设置的data.frame子集使用部分匹配,因此,例如,如果在row.names(DF)中存在'A'和'A123',则DF['A',]将同时找到它们。
因此,如果您的数据可以有部分匹配因子,我建议您改用以下代码(如data.frame subset documentation中所建议的):
DF1$if_match <- DF2$Sample1[ match(as.character(DF1$Factor1),row.names(DF2)) ] > 5 &
DF2$Sample2[ match(as.character(DF1$Factor2),row.names(DF2)) ] > 5重现示例数据的代码:
DF1 <- read.csv(text=
'Factor1,Factor2
A,D
B,E
C,F')
DF2 <- read.csv(text=
'Sample1,Sample2
A,10,0
B,10,0
C,0,0
D,0,10
E,0,10
F,0,0')https://stackoverflow.com/questions/46170037
复制相似问题