我想知道是否有一种方法可以在使用dcast (库reshape2或data.table)时用随机数对每个缺少的值进行fill。示例:
ID = c('AA', 'AA', 'BB', 'BB', 'CC', 'CC', 'CC', 'DD', 'DD')
Replica = c('H1','H3','H1','H2','H1','H2','H3','H2','H3')
Value = c(1.3, 2.5, 1.4, 3.7, 9.5, 7.4, 7.1, 1.8, 8.4)
example <- data.frame(ID=ID, Replica = Replica, Value = Value)做一个简单的dcast
dfdc <- dcast(data=example, ID~Replica, value.var = 'Value', fill = sample(1:10, 1))请注意一些值是如何遗漏的:
ID H1 H2 H3
1 AA 1.3 NA 2.5
2 BB 1.4 3.7 NA
3 CC 9.5 7.4 7.1
4 DD NA 1.8 8.4我想用随机数来填充这些缺失值,例如:
dfdc <- dcast(data=example, ID~Replica, value.var = 'Value', fill = sample(1:10, 1))其结果是:
ID H1 H2 H3
1 AA 1.3 2.0 2.5
2 BB 1.4 3.7 2.0
3 CC 9.5 7.4 7.1
4 DD 2.0 1.8 8.4但是,所有缺少的值都已被相同的随机数(在本例中为2)所替换。
是否可以将该函数单独应用于每个缺失值,从而用不同的随机数填充缺失值?
提前感谢!
发布于 2017-02-22 10:14:23
如果您不关心警告,您可以只执行fill = sample(10),未使用的值将被删除。你仍然会收到三个随机数。只需确保样本高于NA值的预期数量即可。
dcast(example, ID ~ Replica, fill = sample(10))
# ID H1 H2 H3
# 1 AA 1.3 4.0 2.5
# 2 BB 1.4 3.7 1.0
# 3 CC 9.5 7.4 7.1
# 4 DD 10.0 1.8 8.4
# Warning message:
# In ordered[is.na(ordered)] <- fill :
# number of items to replace is not a multiple of replacement length当然,您也可以简单地用suppressWarnings()包装它。
suppressWarnings(dcast(example, ID ~ Replica, fill = sample(10)))
# ID H1 H2 H3
# 1 AA 1.3 6.0 2.5
# 2 BB 1.4 3.7 5.0
# 3 CC 9.5 7.4 7.1
# 4 DD 9.0 1.8 8.4发布于 2017-02-22 10:29:24
下面是一个使用tidyverse的选项
library(tidyverse)
complete(example, ID, Replica) %>%
mutate(Value = coalesce(Value, as.numeric(sample(1:10, n(), replace=TRUE)))) %>%
spread(Replica, Value)
# A tibble: 4 × 4
# ID H1 H2 H3
#* <fctr> <dbl> <dbl> <dbl>
#1 AA 1.3 2.0 2.5
#2 BB 1.4 3.7 1.0
#3 CC 9.5 7.4 7.1
#4 DD 8.0 1.8 8.4https://stackoverflow.com/questions/42381232
复制相似问题