作为预处理步骤,我需要从大量的RNA-seq数据中选择前1000个高度可变的基因(行),该数据包含100种不同样本的(列)中大约60k个基因。列值已经包含了三重值的平均值。该表包含FPKM 中的规范化值(注:我无法访问原始计数,并且无法使用普通的R包,因为这些包接受原始计数作为输入。),在这种情况下,选择前1000个可变基因的最佳方法是什么?
我试着用rowSums()函数过滤掉这些基因(移除具有较低行和值的基因),并将其从60k个基因缩小到10K个基因,但我不确定选择高变异基因的方法是否正确。如有任何意见,我们将不胜感激。
发布于 2022-04-24 14:05:03
行和是第一个过滤步骤。在此之后,您的数据将被log2fold丢弃,更改截止值和padjst值(0.05或o.o1取决于您的目标)。您可以使用不同的行和截止值重复此路径以查看结果。个人丢弃行和零
https://stackoverflow.com/questions/68026647
复制相似问题