基因芯片分析流程

生信编程日常

发布于 2020-05-08 17:13:26

2.3K0

文章被收录于专栏：生物信息学、python、R、linux生物信息学、python、R、linux

array数据的读取

读取array数据首先确定一下测序平台和数据系列,然后用相应的包读取基因表达芯片数据-CEL格式文件并处理成表达矩阵。 affy包（Affymetrix 平台）处理的芯片平台一般是hgu 95系列和133系列;oligo包（Affymetrix 平台）能够处理affymetrix公司的Gene ST arrays，例如[HuGene-1_1-st] Affymetrix Human Gene 1.1 ST Array;Illumina平台，则可以使用beadarray或lumi

对array的一些介绍： 1.http://homer.ucsd.edu/homer/basicTutorial/affymetrix.html

2.https://qiubio.com/new/book/chapter-03/#%E7%AC%AC%E4%BA%8C%E7%AB%A0-%E5%9F%BA%E5%9B%A0%E8%8A%AF%E7%89%87%E5%88%86%E6%9E%90chapter-1-microarray-analysis

Affy 分析array

source("https://bioconductor.org/biocLite.R")
biocLite("affy")
biocLite("hgu133plus2.db")#注释文件
library(affy)
library("hgu133plus2.db")

读取CEL文件

#读取CEL文件
celFiles <- list.celfiles(path = "/yourdataPATH/", full.names=TRUE)
data.affy <- ReadAffy(filenames = celFiles)
data.affy

标准化

#Normalize data with RMA
data.rma <- rma(data.affy)

获取表达矩阵

expr.rma <- exprs(data.rma) # format as table

对探针进行注释

# Convert gene names
Annot <- data.frame(REFSEQ=sapply(contents(hgu133plus2REFSEQ), paste, collapse=", "),
                    SYMBOL=sapply(contents(hgu133plus2SYMBOL), paste, collapse=", "),
                    DESC = sapply(contents(hgu133plus2GENENAME), paste, collapse=", ")  )
# Merge data frames together (like a database table join)
all <- merge(Annot, expr.rma, by.x=0, by.y=0, all = TRUE)
#remove probe ID,gene REFSEQ and DESC and NA 
all<-all[,c(-1:-2,-4)]
all<-all[which(all[,1] != "NA"),]
#use mean of probe ID as gene expression
all<-aggregate(.~SYMBOL,all,mean)
#change transcript ID to gene symbol in rownames
rownames(all)<-all$SYMBOL

后续差异分析分析参考limma包

oligo分析array

source("https://bioconductor.org/biocLite.R")
biocLite("oligo")
library("oligo")

library("oligo")
#文件位置
data.dir <- "../../../test/GSE81580_RAW-2/"
##CEL文件读取
celfiles <- list.files(data.dir, "\\CEL.gz$")
data.raw <- read.celfiles(filenames = file.path(data.dir, celfiles))
#表达量计算
data.eset <- oligo::rma(data.raw)  #含背景处理、归一化和表达量计算
data.exprs <- exprs(data.eset)  #提取表达量矩阵
write.csv(data.exprs,"../../../test/GSE81580expr.csv")

对探针进行注释

获取array对应的注释R包。可以通过ALL来查询

biocLite("ALL")
library(ALL)
show(data.raw)

以及一些查询和下载注释文件的网址：注释文件下载https://www.thermofisher.com/cn/zh/home/life-science/microarray-analysis/microarray-data-analysis/genechip-array-annotation-files.html

http://www.affymetrix.com/support/technical/byproduct.affx?product=mo_trans_assay

各物种注释包查询：https://blog.csdn.net/weixin_40739969/article/details/103186027

参考： https://bioconductor.org/packages/release/bioc/vignettes/oligo/inst/doc/oug.pdf http://bioinfo.au.tsinghua.edu.cn/member/cye/ref/Microarray.pdf https://y570pc.github.io/%E4%BD%BF%E7%94%A8oligo%E5%8C%85%E5%A4%84%E7%90%86%E5%9F%BA%E5%9B%A0%E8%8A%AF%E7%89%87%E6%95%B0%E6%8D%AE/ https://blog.csdn.net/tommyhechina/article/details/80409983

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

如有侵权请联系 cloudcommunity@tencent.com 删除

https

http

网络安全

html

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

基因芯片分析流程

基因芯片分析流程

array数据的读取

Affy 分析array

读取CEL文件

标准化

获取表达矩阵

对探针进行注释

oligo分析array

对探针进行注释

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐