什么是基因的可变剪切? 常见的可变剪切可以分成6类: 1、外显子跳跃(Exon Skipping) 2、内含子保留(Intron Retention) 3、5’端可变剪接(Alternative 5′ splice Site) 4、3’端可变剪接(Alternative 3′ splice Site) 5、最后一个外显子可变剪接(Alternative Last Exon) 6、第一个外显子可变剪接(Alternative First Exon) 可变剪切的意义 可变剪切是调节基因表达和产生蛋白组多样性的重要原因,是导致真核生物基因与蛋白质数量差异效果的主要原因。 可变剪切预测软件 使用Cufflinks软件,与基因原有的剪接模型进行比较,对Mapped Data中的跨内含子Reads,进行新可变剪接事件(Alternative Splicing Events)预测
可变剪切指的是一个基因由于剪切方式的不同从而产生了不同的转录本,很多人对于可变剪切的研究有很多的困惑,比如有没有现成的软件可以研究单个样本中的可变剪切事件,多组间的可变剪切差异分析是基于什么原理? 从这个例子可以看出,判断可变剪切事件的本质,就是将从数据中得到的转录本序列和已知的转录本序列比较,去分析和鉴别符合各种可变剪切类型的转录本。 是否存在可变剪切事件,通过转录本组装和比较就可以得出结论,对于可变剪切的差异分析,其实就是对那些可变剪切产生的isofrom进行定量,然后进行差异分析,定量和差异分析是转录组分析的核心步骤,有很多成熟的软件可以使用 ,而现有的可变剪切差异分析软件,比如rmats, 其原理也是一样,只不过定量的模型和差异分析的算法更加有针对性,是专门对可变剪切事件设计的。 综上,可变剪切分析包含以下4个步骤 转录本组装 可变剪切事件识别 可变剪切转录本定量 差异分析 在这几步中,核心是可变剪切事件的识别,重点是理解各种可变剪切事件的类型,对于定量,需要理解表达量的衡量标准
SplAdder软件得到5种可变剪切类型:外显子跳过(exon skip);内含子保留(intron retention);可变性3’剪切位点(alternative 3’ site);可变性5’剪切位点 第二列展示发生可变剪切的外显子位点:外显子1、2、3等等。 第三类列对应发生可变剪切的基因:基因名。 后面的列分别对应不同的肿瘤类型(可用于不同肿瘤间的比较,PSI值取同一肿瘤队列中所有样本的均值)。 另外,我们还可以观察到,在剪切谱图中:同一基因的不同外显子发生相同类型或者不同类型的可变剪切,通过软件计算出不同的PSI值,如NEIL3的外显子10和外显子8.2。 3 可变剪切后续研究 3.1 基因位点突变与可变剪切事件的关联 也就是表达数量性状基因座(expression Quantitative Trait Loci,eQTL)探究。 可参考文献3和4。 3.4 可变剪切事件与蛋白质组数据库(CPTAC)的联合分析 CPTAC的数据尚是一个未被充分挖掘的宝藏!
MISO是一款经典的可变剪切分析工具,和rmats类似,该软件也支持对可变剪切事件进行定量和差异分析,网址如下 https://miso.readthedocs.io/en/fastmiso/index.html # 这个软件支持exon和transcript两种水平的可变剪切分析,在rmats的文章中,我们也提到了rmats是从exon水平给出的可变剪切结果,因为二代测序读长短的特点,无法有效得到转录本全长,从 ,需要提供已知的可变剪切事件的GFF格式文件,示意如下 chr1 SE gene 4772649 4775821 的reads的可视化,采用了RPKM表示,不同剪切方式用曲线链接,曲线上标记的是比对上该区域的reads数目,不同分组的样本用不同颜色表示,右侧的图片是样本中对应的可变剪切的表达量值。 从这种图中,可以直观的看到两组样本间的可变剪切表达有无差异,上图中heartWT组中的表达量高于heartKO组。
rmats是目前使用的最广泛的可变剪切分析软件,该软件不仅可以识别可变剪切事件,还提供了定量和组间差异分析的功能,功能强大,网站链接如下 http://rnaseq-mats.sourceforge.net rmats可以识别以下五种类型的可变剪切事件 ? 其他类型的可变剪切事件也可以划分成上述两种isoform, 示意图如下 ? 当然,实际计算过程是非常繁琐的,需要考虑数据的分布,对应的统计模型等各种因素,最终会给出每个可变剪切事件的p值和多重假设检验校正后的FDR值。 rmats中,识别可变剪切是以exon为单位的,只需要比较邻近的3到4个exon的表达情况,就可以确定一个可变剪切事件是否发生,这个思路从可变剪切最核心的地方,即exon的变化出发进行分析,直接有效,但是由于其对问题的高度抽象和简化
ASprofile是一款识别可变剪切事件的软件,该软件可以直接将同一个基因的多个转录本进行比较,从而鉴定可变剪切事件,官网如下 https://ccb.jhu.edu/software/ASprofile 最后生成的文件中会给出不同可变剪切事件的详细结果。Asprofile中的可变剪切类型定义如下 1. 外显子跳跃 外显子跳跃的定义如下 ? 上述文件中可变剪切事件是以转录本为单位进行展示的,每行代表一个转录本,存在冗余,当我们想要知道某个基因上发生的可变剪切的类型和数量时,该文件就不够直观,官方提供了summarize_as.pl脚本,可以方便的得到非冗余的可变剪切事件以及每个基因可变剪切事件的汇总信息 ;后缀为summary的文件中是每个基因可变剪切的类型统计,示意如下 ? 通过Asprofile, 可以直接对同一个基因的多个转录本进行比较,从而鉴别不同的可变剪切事件,除此之外,Asprofile还提供了定量的功能, 可以计算fpkm值,通过collect_fpkm.pl脚本可以汇总多个样本的可变剪切结果
可变剪切在真核生物体内广泛存在,有研究指出,对于人类基因组中包含多个exon的基因而言,其中有95%的基因都存在可变剪切现象。 在不同组织或者发育的不同阶段,可变剪切不是一成不变的,在特定的组织或者条件下,会产生特定的剪切异构体isofrom, 这说明不同异构体具有特定的时间与空间作用,从而将可变剪切与正常的生命活动和疾病相关联 ,有大量的研究发现,可变剪切的变化与癌症等多种疾病相关,所以研究可变剪切在不同组织中的研究是非常有意义的。 Alternative 5’ splice site 简称A5SS, 指的是剪切位点的变化导致exon的3’端的位置发生了变化,导致示意图如下 ? 5. Alternative 3’ splice site 简称A3SS, 指的是剪切位点的变化导致exon的5’端的位置发生了变化示意图如下 ?
可变剪切(Alternative Splicing)是指在真核生物基因转录后加工过程中,从一个mRNA前体中通过不同的剪接方式产生多种成熟mRNA异构体的现象。 可变剪切是一种重要的基因表达调控方式,通过它,一个基因可以产生多种不同结构和功能的蛋白质。 异构体开关(Isoform Switch)是指在细胞发育、分化或者响应外界刺激过程中,细胞内不同mRNA异构体(由可变剪切产生)的表达模式发生转换的现象。 可变剪切和异构体开关分析有助于深入理解基因功能、发现药物靶点以及推动个性化医疗,通过解析基因转录后加工产生的多种产物及其表达模式转换来揭示生命的奥秘并服务于健康相关领域。 今天我们就一起来学习一款可变剪切与异构体开关分析的工具——IsoformSwitchAnalyzer。
连接生信技能树粉丝群体的数据分析工程师和有数据分析的科研人员: 明码标价之转录组常规测序服务(仅需799每个样品) 明码标价之普通转录组上游分析 明码标价之转录组下游分析仅需800元 明码标价之转录组测序数据的可变剪切 有一个福建医科大的研究生三年级硕士接了一个TNBC数据集的可变剪切分析,是42个肿瘤样品和21个癌旁的RNA-seq数据,下载了fastq测序数据,然后走salmon流程以及suppa的可变剪切流程。 首先需要有如下所示的文件: 5.3M 4月 7 15:17 gencode.v37.events_A3_strict.ioe 4.2M 4月 7 15:17 gencode.v37.events_A5
mats软件只要你运行成功, 结果还是喜人的, 不过目前TCGA数据库的可变剪切都是一个java软件,叫做spliceseq。 Part 1 转录本--可变剪切 1、原理 ? ? 组成型拼接 外显子跳跃拼接 内含子保留拼接 相互排斥的外显子拼接 替代5’端剪切 替代3'端剪切 2、查看外显子区域 如果想研究一个基因所有外显子区域,而不是单独一个转录本的外显子区域,因此需要获取该基因的所有转录本信息 outDir \ -t paired --nthread 6 --cstat 0.0001 --readLength 150 # ^Z # bg 1 #挂后台 rMATS的结果文件是以各个可变剪切事件的分布的 如果只是单纯的比较两组样品间可变剪切的差异的话) 3. rmats2sashimiplot作图 rmats2sashimiplot --b1 A1.bam,A2.bam,A3.bam --b2 B1.bam
今天在全国第8届生物信息学大会有幸听到了rMATS软件开发实验室PI的演讲,正好推送一波顾兄关于rMATS这款差异可变剪切分析软件的使用体验 PPT镇楼: rMATS是一款对RNA-Seq 数据进行差异可变剪切分析的软件。 rMATS可识别的可变剪切事件有5种,分别是skipped exon (SE)外显子跳跃,alternative 5' splice site (A5SS)第一个外显子可变剪切,alternative 3' splice site (A3SS)最后一个外显子可变剪切,mutually exclusive exons (MXE)外显子选择性跳跃和 retained intron (RI)内含子滞留,展现形式如下图 reads,而后者不仅考虑前者的reads还考虑到只比对到第一张图中条纹的区域(也就是说没有跨越剪切位点的reads),但是我们一般使用JC的结果就够了(如果只是单纯的比较两组样品间可变剪切的差异的话)
TNFSF15在染色体上的位置是9q32,包含4个外显子区域,按照剪切位点的不同可生成3种剪切体。 所以我就布置了一个学徒作业:是画出TNFSF15基因的的3个转录本:TNFSF15~174、TNFSF15~192及TNFSF15~251的结构示意图!
' splice site (A5SS) 5’端可变剪切 3)Alternative3' splice site (A3SS) 3’端可变剪切 4)Mutuallyexclusive exons (MXE ) 互斥可变外显子 5)Retainedintron (RI) 内含子保留 Figure 1:rMATS可识别的可变剪切类型 1.分析所需软件 1)Linux操作系统 2)rMATS 3)rmats2sashimiplot 软件运行后主要产生如下结果文件(Figure 3):rMATS的结果文件是以各个可变剪切事件的分布的,主要由以下几类构成,详细可参考http://rnaseq-mats.sourceforge.net/ (如果只是单纯的比较两组样品间可变剪切的差异的话) Figure 3:rMATS结果文件 这几类文件中我们需要重点关注的是AS_Event.MATS.JC.txt,因为其他文件的信息大多数都整合在该文件中 程序产生的图片如下所示(Figure 4,Figure5,Figure6): Figure 4:HRAS基因可变剪切 Figure 5:RPLP2基因可变剪切 Figure 6:RNH1基因可变剪切
featureCounts我们粉丝都耳熟能详了,我们转录组流程介绍的对比对后的bam文件基于基因注释文件定量的首选软件,用法非常简单,关键是速度飞快,吊打htseq-counts几条街,而用DEXSeq分析可变剪切 用DEXSeq分析可变剪切,外显子差异表达 回顾一下featureCounts的命令及表达矩阵结果 使用featurecounts时候,我们通常的命令及参数是: gtf="/home/yb77613/ 认识一下DEXSeq的输入表达矩阵 但是使用DEXSeq分析可变剪切,外显子差异表达,需要的不是基于基因的表达矩阵,而是基于exon的,比如官网例子: ?
关于可变剪切研究的数据库,尤其是在肿瘤当中研究可变剪切的数据库。 之前我们介绍过了[[tsvdb-可变剪切分析数据库]]以及[[TCGA Spliceseq-可变剪切相关数据库]] 这两个基于 TCGA 构建的数据库。 这两个数据库当中,一个用来可视化可变剪切的情况,另外一个则提供了可变剪切数据的整体分析。 对于利用 TCGA 数据来进行可变剪切预测而言,基于不同的算法可能得到的剪切变异体结果就不一样。 而可变剪切事件的分析还有另外一个算法 SplAdder 算法。 两个算法的可变剪切事件定义 至于说对于可变剪切事件定量 PSI 定义也是不同的 两个算法PSI的区别 数据库使用 在 OncoSplicing 当中 作者提供了四个用来分析可变剪切事件的选项。
′ splice site (A5SS)第一个外显子可变剪切,alternative 3′ splice site (A3SS)最后一个外显子可变剪切,mutually exclusive exons SplicSeq软件可以拿到7种可变剪切形式信息: 可变受体位点(AA) 可变供体位点(AD) 可变启动子(AP) 可变终止子(AT) 内含子保留(RI) 外显子跳跃(ES) 外显子互斥(ME) 如果你看 可变剪切在癌症领域研究例子 可变剪切在癌症领域研究不多,但重要性毋庸置疑,主要是因为技术手段限制,值得介绍的经典文章,比如邵志敏教授的题为“PHF5A Epigenetically Inhibits Apoptosis 生信技能树可变剪切相关教程节选 因为做目录确实很浪费时间,差不多就下面这些,大家先学习吧: 100篇泛癌研究文献解读之可变剪切事件大起底 rMATS这款差异可变剪切分析软件的使用体验 用LeafCutter 探索转录组数据的可变剪切 用Expedition来分析单细胞转录组数据的可变剪切 使用SGSeq探索可变剪切 用DEXSeq分析可变剪切,外显子差异表达 miRNA、LncRNA、CircRNA靠谱小结
Spladder可以识别5种可变剪切,包括(多个)外显子跳跃、3’端可变剪切、5‘端可变剪切、内含子保留和互斥外显子。 其中,build模式用于构建剪切图并识别可变剪切事件,test模式用于比较不同分组之间的可变剪切的差别,viz模式顾名思义用于可视化。 2、Spladder实际操作 对于实际数据,总的可变剪切事件的识别主要包括4个步骤。 单个剪切图 合并剪切图 图定量 可变剪接事件定量 cat .. 可变3’端/5‘端 对于这两种情况,除了染色体序号,所在基因和染色体+/-链信息以外,还有以下重要信息: valid: 剪切事件可信,则为1,不可信,则为0; e1_cov: 剪切事件中前一个外显子区域的平均覆盖度 ; e2_cov: 剪切事件中可变区域的平均覆盖度; e3_cov: 剪切事件中后一个外显子区域的平均覆盖度; e1e3_conf: 跨越长内含子的剪切事件的数目; e2_conf: 跨越短内含子的剪切事件的数目
在miso这款可变剪切分析软件中,提出了一种可变剪切事件的可视化方式, sashimiplot, 示意如下 ? 上述示意图表示的是一个外面子跳跃的可变剪切事件,最下方是可变剪切isofrom的示意图,分别对应inclusion isofrom 和 skipping isofrom; 采用RPKM值量化表示样本中对应的测序深度分布 图中曲线连接的地方代表剪切位点,对于inclusion isoform而言,有两处剪切位点,exon1-exon2, exon2-exon3 之间的内含子需要被剪切,对于skipping isoform ,-e参数指定rmats产生的可变剪切结果文件。 该软件本质上将rmats的输出结果整理成miso的输入结果,然后调用miso绘制sashimiplot, 在输出目录中,对于每个可变剪切事件,首先会整理出符合miso格式的GFF3文件,文件名称为tmp.gff3
可变剪切相比融合基因来说,可行度要高一点,期待大家的试用体验哈!
文献解读属于100篇泛癌研究文献系列,首发于:http://www.bio-info-trainee.com/4132.html 关于可变剪切 可变剪切是基因转录时,通过组合不同的外显子,形成不同转录本的过程 超过90%人类基因要通过可变剪切产生转录本,其中60%的剪切变体会编码出不同的蛋白质异构体。 本研究的重点是开发了一个可变剪切分析流程,并且应用到了TCGA数据库的fastq测序数据。 但是没有提供其流程源代码,也没有提供可变剪切分析结果,只是列出了自己的结论。 深入分析了与结肠癌预后相关的关键可变剪切事件! SplicSeq软件可以拿到7种可变剪切形式信息: 可变受体位点(AA) 可变供体位点(AD) 可变启动子(AP) 可变终止子(AT) 内含子保留(RI) 外显子跳跃(ES) 外显子互斥(ME)