我用R来分析全基因组的关联研究数据。我有大约500,000个潜在的预测变量(单核苷酸多态性,或SNPs),并希望测试它们之间的联系和持续的结果(在这种情况下,低密度脂蛋白在血液中的浓度)。我目前正在使用for循环运行线性模型50万次,如下所示:for(i in 1:500000) {
# Select the appr
每个数据集如下所示: ID p 2 0.0123474 ID p 2 0.5854587因此,我想创建一个新列,并在每个数据集中的新列中检查频率。我以前是这样做的 data$p_threshold <- ifelse(data$p<0.001, 1, 0)
table (data$p_threshold)data=