CpG 岛:CpG 岛指一类 300-3kbp 的 DNA 片段,含有大量相联的 C-G 碱基(p 即为两者间磷酸二酯键),主要位于基因启动子和第一外显子区域。 指 2 条链均未甲基化的 DNA 被甲基化,同时由维持甲基化酶维持稳定的 DNA 甲基化状态。 2.DNA甲基化研究测序方法 目前表观遗传学DNA甲基化研究测序方法常见的有:(1)全基因组重亚硫酸盐甲基化测序[WGBS]; (2)精准DNA甲基化和羟甲基化测序[oxBS-seq]; (3)优化版简化甲基化测序 (3)简化甲基化测序(RRBS/dRRBS/XRBS) 简化甲基化测序(Reduced Representation Bisulfite Sequencing,RRBS)是利用限制性内切酶对基因组进行酶切 3.原始数据处理 如果将甲基化测序结果直接与基因组测序结果进行对比,因为绝大部分的 C 都被转化成了 T,显然是无法比对的。
概念篇 其实无论DNA甲基化还是RNA甲基化,都是在甲基转移酶的催化下在DNA或RNA分子上的某一个原子上添加一个甲基基团(CH3)。 细胞RNA中已经识别到超过100种化学修饰。 RNA甲基化修饰类型很多如:m6A RNA甲基化﹑m5C RNA甲基化﹑m1A RNA甲基化、m7G RNA甲基化等。 真核生物m6A甲基化修饰[1] 功能篇 在真核生物中,5’UTR区域发生的甲基化修饰,在剪接、编辑、稳定性、降解、多腺苷酸化等方面起到十分重要的作用;而3’UTR区域的甲基化修饰有助于 RNA甲基化相关蛋白[2] 甲基化转移酶:催化RNA上发生甲基化修饰,即将甲基基团(CH3)“写入”RNA,包括METTL3/14、WTAP和KIAA1429等。 阅读蛋白:识别发生m6A修饰的碱基,从而激活下游的调控通路如RNA降解、miRNA加工等,包括YTHDF家族中的YTHDF1、YTHDF2、YTHDF3。
甲基化技术里面,whole-genome bisulfite conversion (WGBS) 是金标准,但是价格昂贵,数据处理消耗计算资源,而Reduced- representation bisulfite 但是实际上甲基化芯片才是最高频的产品,在人类研究领域主要是27k, 450k, 850k 以及最新的925k,而成熟的芯片早就有一系列公共资源在Bioconductor网页里面。 整合多种数据类型的能力:由于涵盖了多个领域的工具包,Bioconductor 有助于整合不同类型的生物学数据,如基因表达数据、DNA甲基化数据、蛋白质质谱数据等。 3种bioconductor包,那么它们有什么区别呢? 它目前的配套的包的规律改版了 IlluminaHumanMethylationEPICanno.ilm10b2.hg19 IlluminaHumanMethylationEPICanno.ilm10b3.
--生信自学网 今天给大家介绍一篇五分的甲基化预后分型文章套路 同时,使用甲基化位点构建预后模型,得到预后分析的结果。 首先我们从TCGA下载甲基化数据,我们得到了甲基化的位点矩阵。 将甲基化位点矩阵和生存数据进行联合分析,找出预后相关的甲基化位点。 ConsensusClusterPlus一致性聚类是一种为确定数据集中可能的聚类的数量和成员提供定量证据的方法。 我们比较不同亚型之间甲基化位点的差异,得到差异的甲基化位点。接下来,我们对这些位点构建甲基化位点预后模型。最后,通过风险生存曲线,ROC曲线以及风险曲线,验证了我们模型的准确性。 spm=a1z10.3-c.w4002-10686358831.21.5b3f14f5cF0DsX&id=612553931889 课程购买链接2: https://ke.biowolf.cn/biovideo
组蛋白甲基化通常发生在 H3 和 H4 的精氨酸 (Arg 或 R) 和赖氨酸 (Lys 或 K) 残基上。这些精氨酸和赖氨酸都可以被单甲基化或二甲基化,赖氨酸还能再被三甲基化。 但与乙酰化修饰的生物学效应不同,甲基化后组蛋白赖氨酸残基可以激活或抑制基因转录,这取决于具体的情况 (如甲基化的位点,状态等),例如 H3K4me2/3, H3K36me1/3, H3K79me1/2 DOT1L 是已知的靶向组蛋白 H3K79 位置的组蛋白甲基转移酶。H3K79 位于组蛋白 H3 的球状结构域中,但它暴露在核小体表面上,在这里它可以被 DOT1L 甲基化。 其中 LSD1 (KDM1A) 是第一个发现的组蛋白赖氨酸脱甲基酶 (KDM), 催化 H3K4me1/2, H3K9me1/2 的脱甲基化,另外,LSD1 也可以对非组蛋白脱甲基化,如 p53 上的 这些域是怎么识别组蛋白甲基化位点呢?许多研究表明,含 Chromodomain 蛋白的 HP1 和 Chd1,分别可以识别 H3K9me 和 H3K27me。
但是,个人经验来说,免疫浸润表型分析,首选oncomine+TIMER;相关性分析较多,尤其是涉及基因表达的相关性,基因表达与肿瘤分期的相关性,首选oncomine+GEPIA;若涉及基因组学如甲基化或者与病理分期的相关性 差异分析,UALCAN做箱式图 UALCAN数据库最特殊的地方是甲基化分析。因为甲基化与肿瘤的发生、发展关系极为密切。 所以在涉及肿瘤与正常组织的甲基化分析时,首选oncomine+UALCAN双确认模式。 那么,如何进行甲基化分析呢? 其实很简单。在界面选择甲基化分析,点击进入即可。 ? 表达差异,生存分析,甲基化,相关性等,也是我们生信分析的思路。分析结果,既有探针信息,也有p值,说服力很强。在论文中,我们可以综合编辑,给出探针信息以及p值。 ? 甲基化是基因组学层次上机制探究的重要组成部分,值得我们关注和分析。 ?
undefined 基础知识 芯片中各种值的含义 beta: $beta = \frac{M}{M+U+100}$ 表示某region的甲基化率 ≤0.2 完全未甲基化,(0.2,0.6) 部分甲基化 ,≥0.6完全甲基化 M:探针B(甲基化)的数目M A:探针A(非甲基化)的数目U 基因组上的分布 将整个基因组划分为Promoter, Body, 3UTR, Intergenic 4种区域,其中Promoter 可以看到,位于编码基因上的探针最多,其次是位于基因间区的探针 图片 图片 处理流程 0.下载 1.读取 2.质控:缺失值填充、offset、过滤、QC三张图 3.差异分析:标准化,champ = "") 差异分析 按差异区域的长度不同分类 DMP:找出一个一个的差异甲基化CDG位点 DMR:(连续的差异片段)一个连续不断都比较长的差异片段,科学家们觉得,这样的连续差异片段,对于基因的影响会更加明显 DMB:(某个基因附近的全部甲基化探针)更大的差异化region区域。有的科学家觉得,DMR这样的区域还不够显著,DNA上的甲基化出现变化,可能是绵延几千位点的!
共6列数据,制表符分隔,每一行代表一个甲基化位点,前5列很好理解,描述甲基化位点的染色体位置和类别,默认情况下bbseq用于分析CpG类型的甲基化位点。 Cov代表覆盖到这个位点的reads数,M代表其中发生了甲基化的reads数目。 BS.chr22.1 <- BSmooth(BS.chr22, mc.cores = 2, verbose = TRUE) 3. T-test 在分析之前,有必要过滤掉覆盖度较低的甲基化位点。 通常保留在所有样本中覆盖度大于2的甲基化位点,但是也可以修改这个条件。 subset对差异甲基化的结果进行筛选,筛选包含甲基化位点个数大于3而且meanDiff 大于0.1的甲基化区域。
之前我们推荐过一些和RNA甲基化有关的数据库。其中当时总结了四个基于测序来预测RNA甲基化靶标的数据库。前段时间想查一下相关靶标的时候,发现这四个数据库都成了这个样子了。。。。 所以也就发现了另外一个基于测序数据来预测RNA甲基化的数据库:m6a2Target (http://m6a2target.canceromics.org/#/home)。
测定甲基化的手段有很多,芯片作为一种成熟的手段,其稳定性,可重复性以及性价比,使得在DNA甲基化研究领域芯片占据了半壁江山。 从具体的探针数目也可以看出,450K 和 850K 是1个约数,用来表明探针的数量,覆盖的甲基化位点的个数。 探针是以甲基化位点为单位的,每个探针对应检测一个甲基化位点。 对于亚硫酸氢盐处理的DNA ,非甲基化的C会变成T , 而甲基化的C不会变。 对于II 型探针而言,设计的比较巧妙,它只需要1个bead type, 探针只涉及到甲基化位点的前一个碱基,在DNA 链的延伸阶段,根据延伸的碱基是A 还是 G , 从而判断是甲基化的C 还是非甲基化的 type 分别识别甲基化的C和非甲基化的C,II 型探针通过1个bead type 就可以区分甲基化的C和非甲基化的C。
基于这一差异,可以设计两组特异性引物进行甲基化特异性PCR(MSP):甲基化引物(M引物)保留“C”,仅能扩增甲基化模板;非甲基化引物(U引物)将该位点视作“T”,仅能扩增未甲基化模板。 通过PCR产物的有无即可判断样本的甲基化状态:若仅M扩增则为甲基化,仅U扩增则为未甲基化,二者皆扩增则提示部分甲基化或样本混合。 胞嘧啶),p = 磷酸二酯键(phosphodiester bond,连接 C 和 G 的“—p—”),G = Guanine(鸟嘌呤)所以 CpG 就是指:在 DNA 双链序列里,5'—C—p—G—3' ESR1基因,可以发现其存在多个转录本,一般以NM开头的为主NM_000125.4:NM 开头 → mRNA参考序列(RefSeq mRNA),代表 ESR1 基因的成熟mRNA序列(含5’UTR、CDS、3’ MethPrimer给出了两对引物:M 引物对:用于扩增 甲基化DNA模板(CpG 中的 C 保持不变)U 引物对:用于扩增 非甲基化DNA模板(CpG 中的 C 被转化为 T)3.甲基化后序列可以用在线工具
最近我在《生信技能树》安排了两个甲基化相关的学徒作业: 学徒任务-探索DNA甲基化的组织特异性 一个甲基化芯片数据被挖掘好几次(学徒作业) 有学徒表示虽然看了我在B站免费分享的视频课程《甲基化芯片(450K 非甲基化一般与基因的活化相关联 而去甲基化往往与一个沉默基因的重新激活相关联 DNA甲基化状态的遗传和保持: DNA复制后,新合成链在DNMT1的作用下,以旧链为模板进行甲基化。 复制相关的去甲基化: 在复制过程中维持甲基化酶活性被关闭或维持甲基化酶活性被抵制。 全新甲基化|甲基化状态保持|去甲基化: ? 甲基化芯片 甲基化芯⽚主要是450K和850K,都是采⽤了两种探针Infinium Ⅰ 和Infinium Ⅱ对甲基化 进⾏测定; Infinium I采⽤了两种bead(甲基化M和⾮甲基化U) II只有 3个层次的差异分析 DMP:DMP代表找出Differential Methylation Probe(差异化CpG位点) DMR:DMR代表找出Differential Methylation Region
我们知道一般基因启动子区域的超甲基化会导致下游基因转录受到抑制,从而使表达量下调。也就是一般启动子区域的甲基化水平跟下游基因的表达是成负相关的。 前面也给大家分享过 ☞R绘制甲基化和表达谱联合分析热图 今天给大家介绍一个网页工具cBioPortal(http://www.cbioportal.org/),可以绘制肿瘤中,任意基因的甲基化水平跟表达之间的相关性散点图 1.首先我们打开这个网站 2.接下来我们查找一个研究的肿瘤,我们以结直肠癌为例,搜索colorectal,然后勾选一套数据,点击query by gene(按照基因来检索) 3.选择表达谱数据,选择甲基化数据
甲基化分析应知应会的另一个R包:minfi,ChMAP包的很多的函数都有minfi包的影子。 /gse149282/GSE149282_RAW/" 首先是读取csv文件,这个文件需要自己制作,可以参考这篇文章:ChAMP分析甲基化数据:样本信息csv的制作和IDAT读取 targets <- /gse149282/GSE149282_RAW/GSM4495492_200811050117_R02C01 ## 3 . 甲基化矩阵的两种注释包: manifest:主要包含matrix design, annotation:甲基化位点的位置,SNP信息等。 我们这个甲基化芯片是Illumina EPIC的,不同方法都试一下。
其核心功能是差异甲基化分析和差异甲基化位点和区域的注释。 利用methylKit 做差异分析包括3步 1. 读取原始数据 每个样本一个原始数据,methylKit支持两种格式的methylation calling文件 纯文本格式 内容如下 ? 每一行是一个甲基化位点,coverage 代表覆盖这个位点的reads数,freqC 代表甲基化C的比例,freqT 代表非甲基化C的比例。 meth.min=unite(myobj,min.per.group=1L) 3. 在methylKit中,它的差异分析总是针对合并后的甲基化表达谱,如果你的甲基化表达谱每一行是一个甲基化位点,那么差异分析的结果就是差异甲基化位点;如果你的表达谱每一行是一个甲基化区域,那么差异分析的结果就是差异甲基化区域
在bismark中,根据甲基化的C所处的上下文环境,分成以下3类; CpG CHG CHH p代表磷酸二酯键,CpG指的是甲基化的C的下游是1个G碱基。 默认情况下,软件会自动根据两个因素生成结果文件 甲基化的C的类型 就是前面提到的CpG, CHG, CHH 3种类型 比对情况 包括比对到四条链上OT, OB, CTOT, CTOB 4种情况 所以会生成 3 X 4 = 12 个文件,对于链特异性文库来说,会生成3 X 2 = 6 个文件,这6个文件内容是类似的,都是记录了甲基化的C的染色体位置。 comprehensive选项的作用就是在生成最终文件时,只考虑3种甲基化类型,将所有的比对情况进行合并,这样最终只会生成3个文件. 不同字母表示不同的甲基化C: X 代表CHG中甲基化的C x 代笔CHG中非甲基化的C H 代表CHH中甲基化的C h 代表CHH中非甲基化的C Z 代表CpG中甲基化的C z 代表CpG中非甲基化的
当我们得到差异的探针或者差异的甲基化区域之后,通常都会分析这些差异区域对应的基因是否在特定功能上有富集。在ChAMP中,通过champ.GSEA函数来实现功能富集分析。 myDMR <- champ.DMR() myGSEA <- champ.GSEA() 在ChAMP中,提供了两种富集分析的方法: fisher gometh champ.GSEA默认对差异CpG位点和差异甲基化区域对应的基因做富集分析 富集分析早已经是研究基因功能的常用工具之一了,那么对于甲基化芯片的富集分析和传统的富集分析有没有不一样的地方呢? List of 2 $ DMP:’data.frame’: 666 obs. of 9 variables: ..$ Gene_List: Factor w/ 8338 levels “3_ 2708 6157 … $ DMR:’data.frame’: 115 obs. of 9 variables: ..$ Gene_List: Factor w/ 8338 levels “3_
我们通过TCGA数据库可以观察每个人的基因表达的变化;甲基化的变化;拷贝数的变化;以及他们的临床信息。 结果信息包括 临床信息 基因的表达信息 基因的拷贝数变化信息 基因的甲基化位点变化信息。 甲基化信息的左边可以看到基因的相关信息包括基因组长度;各个不同的转录本; cg位点的位置以及CpG岛的位置 默认的样本的排列顺序是按照基因表达量从小到大的顺序排列的。 聚焦 如果我们想要查看某一区域:比如CpG位点的甲基化变化情况。我们可以用鼠标选上那块区域。然后就可以聚焦查看这段区域的变化了。 ? 甲基化和结果的进一步总结。这里显示的是甲基化和排序变量的总结结果。比如我们排序性别.那么就是看不同性别之间甲基化的变化。 PS:貌似这个总结只能是二分类的,如果是连续性的变量也会变成二分类来看。 ?
3.Full Pipeline完整的流程可以通过一个命令运行(基本不会这么用的。。) 其次,ChAMP 会过滤在至少5%的样本中具有少于3个beads的探针。此默认设置可通过参数filterBeads更改,或者通过参数beadCutoff调整频率。 arraytype="450K",adjPval=0.05, method="fisher")head(myGSEA$DMP$Gene_List)# [1] "BENPORATH_ES_WITH_H3K27ME3 BENPORATH_EED_TARGETS" "TCCAGAG,MIR-518C" "ATATGCA,MIR-448" # [4] "BENPORATH_ES_WITH_H3K27ME3 "ABHD10" "PIK3C2B"# CNV分析CNV分析ChAMP工具包提供了champ.CNA函数。
前言 27K的数据是很老的芯片数据,但是客户有需求就要找方法分析,主流的DNA甲基化芯片R包minfi和champ都只支持450K和850K的芯片。 $entity_submitter_id)) tb %<>% arrange(new_name) colors = str_split(tb$file_name,'_',simplify = T)[,3] 3306-01A-01D-0859-05_R001C001_Grn.idat mv 348750ad-930b-4a62-98fc-165a8216cf42_noid_Red.idat TCGA-A3- 3306-01A-01D-0859-05_R001C001_Red.idat mv 63c1410d-9b54-47a8-bb8f-08a030dacab0_noid_Grn.idat TCGA-A3- 3306-11A-01D-0859-05_R002C002_Grn.idat mv 63c1410d-9b54-47a8-bb8f-08a030dacab0_noid_Red.idat TCGA-A3-