指 2 条链均未甲基化的 DNA 被甲基化,同时由维持甲基化酶维持稳定的 DNA 甲基化状态。 maintenance methylation:维持甲基化,若双链 DNA 的其中一条链已存在甲基化(DNA 半保留复制过程),将另一条未甲基化的链甲基化。 2.DNA甲基化研究测序方法 目前表观遗传学DNA甲基化研究测序方法常见的有:(1)全基因组重亚硫酸盐甲基化测序[WGBS]; (2)精准DNA甲基化和羟甲基化测序[oxBS-seq]; (3)优化版简化甲基化测序 在 PCR 新合成的链中,U 碱基对应位置就会替换成 T,说明该位置碱基未被甲基化;而甲基化/羟甲基化的 C 测序的结果仍为 C,说明该位置碱基已被甲基化。 参考资料: https://mp.weixin.qq.com/s/cF43uwJ0Dx0Ot8wOgNfJ-A https://mp.weixin.qq.com/s/lHnzbZPVsK8SoufKoPV9Hw
DNA甲基化大家肯定都不陌生,而这几年却发现了RNA甲基化的呼声甚至比DNA甲基化更高。那RNA甲基化到底是什么呢? RNA甲基化修饰类型很多如:m6A RNA甲基化﹑m5C RNA甲基化﹑m1A RNA甲基化、m7G RNA甲基化等。 m6A RNA甲基化是由多种蛋白参与的动态可逆的修饰。参与m6A甲基化修饰的酶包括甲基化转移酶(Writers)、去甲基化酶(Erasers)和甲基化阅读蛋白(Readers)等。 RNA甲基化相关蛋白[2] 甲基化转移酶:催化RNA上发生甲基化修饰,即将甲基基团(CH3)“写入”RNA,包括METTL3/14、WTAP和KIAA1429等。 然而该方法只能鉴定高甲基化的区域,无法单碱基的分辨率的识别RNA甲基化。
--生信自学网 今天给大家介绍一篇五分的甲基化预后分型文章套路 同时,使用甲基化位点构建预后模型,得到预后分析的结果。 首先我们从TCGA下载甲基化数据,我们得到了甲基化的位点矩阵。 将甲基化位点矩阵和生存数据进行联合分析,找出预后相关的甲基化位点。 ConsensusClusterPlus一致性聚类是一种为确定数据集中可能的聚类的数量和成员提供定量证据的方法。 使用ConsensusClusterPlus对预后的甲基化位点进行肿瘤分型,得到不同的肿瘤亚型。通过生存分析和临床相关性分析,可以验证我们得到不同亚型的病人预后确实有显著差异。 我们比较不同亚型之间甲基化位点的差异,得到差异的甲基化位点。接下来,我们对这些位点构建甲基化位点预后模型。最后,通过风险生存曲线,ROC曲线以及风险曲线,验证了我们模型的准确性。
和 H4K20me1 与转录激活相关,而 H3K9me2/3, H3K27me2/3, H3K79me3 和 H4K20me3 与转录抑制相关。 I 型 PRMTs (PRMT1, PRMT2, PRMT3, PRMT4, PRMT6 和 PRMT8) 产生单或不对称二甲基化精氨酸 (ADMA),II 型 PRMTs (PRMT5 和 PRMT9 其中 LSD1 (KDM1A) 是第一个发现的组蛋白赖氨酸脱甲基酶 (KDM), 催化 H3K4me1/2, H3K9me1/2 的脱甲基化,另外,LSD1 也可以对非组蛋白脱甲基化,如 p53 上的 这些域是怎么识别组蛋白甲基化位点呢?许多研究表明,含 Chromodomain 蛋白的 HP1 和 Chd1,分别可以识别 H3K9me 和 H3K27me。 PLoS One. 2011;6(8):e24023. 9. Huang J, et al. p53 is regulated by the lysine demethylase LSD1.
但是,个人经验来说,免疫浸润表型分析,首选oncomine+TIMER;相关性分析较多,尤其是涉及基因表达的相关性,基因表达与肿瘤分期的相关性,首选oncomine+GEPIA;若涉及基因组学如甲基化或者与病理分期的相关性 差异分析,UALCAN做箱式图 UALCAN数据库最特殊的地方是甲基化分析。因为甲基化与肿瘤的发生、发展关系极为密切。 所以在涉及肿瘤与正常组织的甲基化分析时,首选oncomine+UALCAN双确认模式。 那么,如何进行甲基化分析呢? 其实很简单。在界面选择甲基化分析,点击进入即可。 ? 表达差异,生存分析,甲基化,相关性等,也是我们生信分析的思路。分析结果,既有探针信息,也有p值,说服力很强。在论文中,我们可以综合编辑,给出探针信息以及p值。 ? 甲基化是基因组学层次上机制探究的重要组成部分,值得我们关注和分析。 ?
undefined 基础知识 芯片中各种值的含义 beta: $beta = \frac{M}{M+U+100}$ 表示某region的甲基化率 ≤0.2 完全未甲基化,(0.2,0.6) 部分甲基化 ,≥0.6完全甲基化 M:探针B(甲基化)的数目M A:探针A(非甲基化)的数目U 基因组上的分布 将整个基因组划分为Promoter, Body, 3UTR, Intergenic 4种区域,其中Promoter DMB:(某个基因附近的全部甲基化探针)更大的差异化region区域。有的科学家觉得,DMR这样的区域还不够显著,DNA上的甲基化出现变化,可能是绵延几千位点的! methy_array https://mp.weixin.qq.com/s/VtuapPafKsZaS_WKuQx4Xg https://mp.weixin.qq.com/s/mJ8qlSLXvvvLz98NdhL9jA https://mp.weixin.qq.com/s/fLZFEWHt5K55FffExhD9zA https://mp.weixin.qq.com/s/12dxY4a_UxdoXQVdIMYZMQ
共6列数据,制表符分隔,每一行代表一个甲基化位点,前5列很好理解,描述甲基化位点的染色体位置和类别,默认情况下bbseq用于分析CpG类型的甲基化位点。 Cov代表覆盖到这个位点的reads数,M代表其中发生了甲基化的reads数目。 在实际分析中,由于甲基化位点很多,所以这一步时间特别久,为了提高速度,可以添加mc.cores参数,这个参数指定了CPU个数,用于并行执行。 T-test 在分析之前,有必要过滤掉覆盖度较低的甲基化位点。通常保留在所有样本中覆盖度大于2的甲基化位点,但是也可以修改这个条件。 subset对差异甲基化的结果进行筛选,筛选包含甲基化位点个数大于3而且meanDiff 大于0.1的甲基化区域。
之前我们推荐过一些和RNA甲基化有关的数据库。其中当时总结了四个基于测序来预测RNA甲基化靶标的数据库。前段时间想查一下相关靶标的时候,发现这四个数据库都成了这个样子了。。。。 所以也就发现了另外一个基于测序数据来预测RNA甲基化的数据库:m6a2Target (http://m6a2target.canceromics.org/#/home)。
测定甲基化的手段有很多,芯片作为一种成熟的手段,其稳定性,可重复性以及性价比,使得在DNA甲基化研究领域芯片占据了半壁江山。 从具体的探针数目也可以看出,450K 和 850K 是1个约数,用来表明探针的数量,覆盖的甲基化位点的个数。 探针是以甲基化位点为单位的,每个探针对应检测一个甲基化位点。 对于亚硫酸氢盐处理的DNA ,非甲基化的C会变成T , 而甲基化的C不会变。 对于II 型探针而言,设计的比较巧妙,它只需要1个bead type, 探针只涉及到甲基化位点的前一个碱基,在DNA 链的延伸阶段,根据延伸的碱基是A 还是 G , 从而判断是甲基化的C 还是非甲基化的 type 分别识别甲基化的C和非甲基化的C,II 型探针通过1个bead type 就可以区分甲基化的C和非甲基化的C。
MSP甲基化引物设计1.前置知识点1.1 实验原理DNA 甲基化是发生在CpG二核苷酸位点胞嘧啶上的一种重要表观遗传修饰,启动子区域的CpG甲基化通常与基因转录沉默密切相关。 这样,同一DNA区域在经过处理后,如果处于甲基化状态则保持“C”,若未甲基化则变为“T”。 基于这一差异,可以设计两组特异性引物进行甲基化特异性PCR(MSP):甲基化引物(M引物)保留“C”,仅能扩增甲基化模板;非甲基化引物(U引物)将该位点视作“T”,仅能扩增未甲基化模板。 通过PCR产物的有无即可判断样本的甲基化状态:若仅M扩增则为甲基化,仅U扩增则为未甲基化,二者皆扩增则提示部分甲基化或样本混合。 57.19 46.67 4 ATAAATAGAGATATATTGGAGTTTGGTATG Right U primer 1812 26 52.13 57.69 9
最近我在《生信技能树》安排了两个甲基化相关的学徒作业: 学徒任务-探索DNA甲基化的组织特异性 一个甲基化芯片数据被挖掘好几次(学徒作业) 有学徒表示虽然看了我在B站免费分享的视频课程《甲基化芯片(450K 非甲基化一般与基因的活化相关联 而去甲基化往往与一个沉默基因的重新激活相关联 DNA甲基化状态的遗传和保持: DNA复制后,新合成链在DNMT1的作用下,以旧链为模板进行甲基化。 特定染色质蛋白、组蛋白修饰或相当有序的染色质结构 DNA去甲基化: 主动去甲基化: ? 复制相关的去甲基化: 在复制过程中维持甲基化酶活性被关闭或维持甲基化酶活性被抵制。 全新甲基化|甲基化状态保持|去甲基化: ? 甲基化芯片 甲基化芯⽚主要是450K和850K,都是采⽤了两种探针Infinium Ⅰ 和Infinium Ⅱ对甲基化 进⾏测定; Infinium I采⽤了两种bead(甲基化M和⾮甲基化U) II只有
我们知道一般基因启动子区域的超甲基化会导致下游基因转录受到抑制,从而使表达量下调。也就是一般启动子区域的甲基化水平跟下游基因的表达是成负相关的。 前面也给大家分享过 ☞R绘制甲基化和表达谱联合分析热图 今天给大家介绍一个网页工具cBioPortal(http://www.cbioportal.org/),可以绘制肿瘤中,任意基因的甲基化水平跟表达之间的相关性散点图 .首先我们打开这个网站 2.接下来我们查找一个研究的肿瘤,我们以结直肠癌为例,搜索colorectal,然后勾选一套数据,点击query by gene(按照基因来检索) 3.选择表达谱数据,选择甲基化数据
甲基化分析应知应会的另一个R包:minfi,ChMAP包的很多的函数都有minfi包的影子。 /gse149282/GSE149282_RAW/" 首先是读取csv文件,这个文件需要自己制作,可以参考这篇文章:ChAMP分析甲基化数据:样本信息csv的制作和IDAT读取 targets <- /gse149282/GSE149282_RAW/GSM4495498_200811050117_R08C01 ## 9 . 甲基化矩阵的两种注释包: manifest:主要包含matrix design, annotation:甲基化位点的位置,SNP信息等。 我们这个甲基化芯片是Illumina EPIC的,不同方法都试一下。
其核心功能是差异甲基化分析和差异甲基化位点和区域的注释。 每一行是一个甲基化位点,coverage 代表覆盖这个位点的reads数,freqC 代表甲基化C的比例,freqT 代表非甲基化C的比例。 执行差异分析 通过calculateDiffMeth函数来执行差异甲基化分析,用法如下 myDiff=calculateDiffMeth(meth) 根据甲基化C是变多了还是变少了,可以将差异甲基化的结果分为两大类 在methylKit中,它的差异分析总是针对合并后的甲基化表达谱,如果你的甲基化表达谱每一行是一个甲基化位点,那么差异分析的结果就是差异甲基化位点;如果你的表达谱每一行是一个甲基化区域,那么差异分析的结果就是差异甲基化区域 上面的例子都是针对差异甲基化位点的,下面看下差异甲基化区域的分析。
在bismark中,根据甲基化的C所处的上下文环境,分成以下3类; CpG CHG CHH p代表磷酸二酯键,CpG指的是甲基化的C的下游是1个G碱基。 不同字母表示不同的甲基化C: X 代表CHG中甲基化的C x 代笔CHG中非甲基化的C H 代表CHH中甲基化的C h 代表CHH中非甲基化的C Z 代表CpG中甲基化的C z 代表CpG中非甲基化的 C U 代表其他情况的甲基化C(CN或者CHN) u 代表其他情况的非甲基化C (CN或者CHN) 对于CpG, 采用字母X的大小写来表征甲基化状态;对于CHG, 采用字母H的大小写来表征甲基化状态; count unmethylated % methylation coverage 1 42 13 76.36 55 2 31 9 双坐标轴图,左侧的纵轴代表甲基化比例,右侧的纵轴代表甲基化的数目,横坐标代表测序读长。
当我们得到差异的探针或者差异的甲基化区域之后,通常都会分析这些差异区域对应的基因是否在特定功能上有富集。在ChAMP中,通过champ.GSEA函数来实现功能富集分析。 myDMR <- champ.DMR() myGSEA <- champ.GSEA() 在ChAMP中,提供了两种富集分析的方法: fisher gometh champ.GSEA默认对差异CpG位点和差异甲基化区域对应的基因做富集分析 富集分析早已经是研究基因功能的常用工具之一了,那么对于甲基化芯片的富集分析和传统的富集分析有没有不一样的地方呢? GSEA 结果如下: str(myGSEA) List of 2 $ DMP:’data.frame’: 666 obs. of 9 variables: ..$ Gene_List: Factor TNFRSF1B IL2RA”,..: 1604 5352 2139 2554 4011 5150 2711 519 2708 6157 … $ DMR:’data.frame’: 115 obs. of 9
我们通过TCGA数据库可以观察每个人的基因表达的变化;甲基化的变化;拷贝数的变化;以及他们的临床信息。 结果信息包括 临床信息 基因的表达信息 基因的拷贝数变化信息 基因的甲基化位点变化信息。 甲基化信息的左边可以看到基因的相关信息包括基因组长度;各个不同的转录本; cg位点的位置以及CpG岛的位置 默认的样本的排列顺序是按照基因表达量从小到大的顺序排列的。 聚焦 如果我们想要查看某一区域:比如CpG位点的甲基化变化情况。我们可以用鼠标选上那块区域。然后就可以聚焦查看这段区域的变化了。 ? 甲基化和结果的进一步总结。这里显示的是甲基化和排序变量的总结结果。比如我们排序性别.那么就是看不同性别之间甲基化的变化。 PS:貌似这个总结只能是二分类的,如果是连续性的变量也会变成二分类来看。 ?
它是一个全面的工具包,可以从数据预处理到差异甲基化分析和功能注释提供一站式解决方案。它特别适用于甲基化数据的批处理分析和高通量研究。 红色功能模块用于生成分析结果,包括差异甲基化位点(DMPs)、差异甲基化区域(DMRs)、差异甲基化区块(Differentially Methylated Blocks)以及通过 FEM 包衍生的差异甲基化基因模块检测方法 然而,BMIQ可能无法收敛并输出结果,尤其是当样本的甲基化分布显著偏离三状态贝塔混合分布时(如在甲基化/非甲基化对照中可能发生),或样本质量较差时。 (DMPs)、差异甲基化区域(DMRs)和差异甲基化块(DMBs)是DNA甲基化分析的三个层次。 YRLeI-rvMcHQCfLVqkH_ZA https://mp.weixin.qq.com/s/YCoc4eirQ4Dxe2kYPd6oGw https://mp.weixin.qq.com/s/VG_MSD8_9HXG1YcW1
前言 27K的数据是很老的芯片数据,但是客户有需求就要找方法分析,主流的DNA甲基化芯片R包minfi和champ都只支持450K和850K的芯片。 930b-4a62-98fc-165a8216cf42_noid_Red.idat TCGA-A3-3306-01A-01D-0859-05_R001C001_Red.idat mv 63c1410d-9b54 -47a8-bb8f-08a030dacab0_noid_Grn.idat TCGA-A3-3306-11A-01D-0859-05_R002C002_Grn.idat mv 63c1410d-9b54
DNA甲基化会调控基因的表达水平,进而影响基因的相互作用。 将基因的相互作用网络和差异甲基化信息结合起来,基于那些甲基化水平发生差异的基因,从整个相互作用网络挖掘出这些基因的相互作用模块,这些模块可以看是与样本表型数据相关的基因集合,这种研究方式叫做Functional 差异甲基化信息 首先读取预处理之后的beta matrix和分组信息Sample_Group,然后进行差异分析 PPI和甲基化差异信息准备好之后,就可以基于这两个数据进行EpiMod分析。 图中的每个节点是一个基因,其相互关系是PPI网络中定义好的,节点的颜色根据差异甲基化的T值定义,小于-1.5的为黄色到白色的渐变色,大于1.5为浅蓝色到蓝色的渐变色,中间的是灰色。 ChAMP只提供了基于差异甲基化信息从PPI网络中挖掘核心module的功能,本值上是通过调用FEM这个R包实现的,在这个R包中,还实现了基于基因水平的差异表达信息从PPI网络中挖掘核心module 的功能