我在人类样本上进行了450K Illumina甲基化芯片,并想要寻找连续变量和β之间的关联,并对其他协变量进行了调整。为此,我使用了R中的CpGassoc包。我还想根据重要的CpG站点搜索差异甲基化区域。然而,Champ软件包和其他用于450K DMR分析的软件包中的探头套索函数总是假设需要找到DMR的2组。我没有两组,而是这个连续变量。有没有办法将我的输出从CpGassoc加载到Champ的探测套索函数中?或者到另一个bump hunter包中?我是一个医学博士,不是一个生物信息学家,因此梳子等对我来说是不可能的。
非常感谢你的帮助。
向您致以亲切的问候,Line
发布于 2015-09-25 23:47:19
我以前没有处理过甲基化数据,所以对我说的话持保留态度。另外,在没有描述的情况下不要使用缩写,我猜这个网站上的大多数人都不知道DMR是什么。
您可以使用glmnet包中的套索对数据运行套索。所以如果你的连续变量是年龄,你可以这样做。如果meth.dt是您的甲基化data.table,您的列作为给定站点的甲基化数量,您的行作为主题。我不确定甲基化数据是否被认为是有毒的,我知道RNA-seq数据是。我也不能说得太具体,但是下面的代码在根据您的列数进行调整后应该可以工作
#load libraries
library(data.table)
library(glmnet)
#read in data
meth.dt <- fread("/data")
#lasso
AgeLasso <- glmnet(as.matrix(meth.dt[,1:70999,with=F]),meth.dt$Age, family="poisson")
cv.AgeLasso <- cv.glmnet(as.matrix(meth.dt[,1:70999,with=F]), meth.dt$Age, family="poisson")
coefTranscripts <- coef(cv.AgeLasso, s= "lambda.1se")[,1][coef(cv.AgeLasso, s= "lambda.1se")[,1] != 0]这将为您提供甲基化位点,这些位点是使用简约模型对您的连续变量进行最佳预测的。有关glmnet的更多信息,请参见http://web.stanford.edu/~hastie/glmnet/glmnet_alpha.html
也可能想问一下的人。他们可能有一些更好的答案。http://stats.stackexchange.com
出于好奇,你的连续变量是什么?
如果你不使用这个方法,请让我知道你是如何解决这个问题的。
https://stackoverflow.com/questions/32785357
复制相似问题