我想选择一个随机样本的数据在一个因素的水平。我可以使用ddply获得一个因子级别内的样本:
library(dplyr)
newdf <- ddply(iris, ~Species, function(x){
ndf <- x[sample(nrow(x),2), ]
})
with(newdf,table(Species))但是,我不想简单地从每个因素级别中抽取2个观测结果。相反,我想要抽样,比如说,2,3和4种观察,从物种的三个层次(即2种从刚毛,3种来自云杉色,4种来自处女)。我该怎么做?
我是否可以创建一个值的向量,例如c(2,3,4)被循环,每一个数据都被ddply分割?
需要指定向量中的值--它们不是所有数据的一致比例,也不是一致的数字。
发布于 2016-11-21 08:49:21
我们根据“物种”对数据集进行split,使用Map对观测数进行sample,并对list输出进行rbind。
do.call(rbind, Map(function(x,y) x[sample(y),], split(iris, iris$Species), 2:4))https://stackoverflow.com/questions/40715863
复制相似问题