今天我们继续介绍一款使用三代全长转录本数据进行转录本注释和定量的工具 - Bambu。 Bambu 保留了全长和独特的转录本序列,使其在存在非活跃转录本(isoforms) 的情况下能够进行准确的定量。与现有的转录本鉴定方法相比,Bambu 在不损失灵敏性的情况下实现了更高的精度。 #加载bambu软件包 library(bambu) #运行以下命令进行测序数据,参考基因组,参考基因组注释文件的导入,并进行全长转录组分析 test.bam <- system.file("extdata #根据三代测序平台和建库方法选择合适的运行命令,一步法 $ minimap2 -ax splice:hq -uf ref.fa iso-seq.fq | samtools sort -@ 12 -o align.bam assays(se)$fullLengthCounts - 每个转录本的全长序列count表达量。 assays(se)$uniqueCounts - 每个转录本唯一回贴序列的count表达量。
今天我们介绍一款使用三代全长转录本数据进行转录本校正,聚类,可变剪切分析,定量和差异分析为一体的工具 - FLAIR。 FLAIR通过算法设计能够从三代ONT数据中识别微小的剪切变化。 三代测序数据:reads.fq 或 reads.fa。 第一步提供的三代测序数据:reads.fq 或 reads.fa。。 #支持序列必须都是全长(80%的覆盖率,第一个和最后一个外显子至少有25个碱基)。
因此,确定其的全长序列,是进行circRNA功能研究的重要基础。 (Oxford Nanopore Technologies ,ONT)高效测定circRNA全长转录本的实验和计算方法:利用随机引物对circRNA进行的滚环反转录扩增后,使用三代纳米孔测序技术(ONT )对circRNA的全长序列进行直接测序,并开发了CIRI-long 算法,实现对长测序读段中的circRNA序列进行识别和全长重构。 赵方庆教授团队开发了一种利用三代纳米孔(ONT)测序技术进行circRNA及其相应的异构体(isoform)富集和全长测序的方案。 此方法利用了三代纳米孔测序的长读长优势,实现了对全长circRNA序列的无偏重建(图2)。
今天我们介绍一款使用三代全长转录本数据进行转录本注释和定量的工具 - IsoQuant。2023年1月2日,康奈尔大学医学院Hagen U. Tilgner团队和圣彼得堡国立大学Andrey D. 一、软件介绍 IsoQuant 是一款基于基因组的长RNA序列(全长RNA)分析软件,适用于长度长三代测序平台,比如PacBio和Oxford Nanopores. 通过yaml文件指定输入文件: 指定输入三代数据文件路径,名称和不同实验(批次),匹配的二代测序数据;可以通过编辑一个YAML文件,使用--yaml命令,例如: [ data format: "fastq ,PacBio可通过isoseq软件获得,具体参考全长转录组 | Iso-Seq 三代测序数据分析流程 (PacBio) ;ONT可通过pychopper软件获得,具体参考全长转录组 | Oxford Nanopore (ONT) 三代全长转录组分析流程 -- 数据质控和预处理。
在上一期《三代测序100问》中,我们深入探讨了三代长读长测序如何凭借其覆盖全长mRNA的独特优势,将转录组学研究的分辨率从基因水平提升至转录本(Isoform)水平。 全长转录本的分子标记:引物与Poly(A)尾 李老师首先回顾了全长转录组测序的建库基础:“无论是PacBio的Iso-Seq,还是ONT的cDNA-PCR建库流程,其核心都是利用真核生物成熟mRNA特有的 正是这些独特的分子标记——两端的引物序列和末端的poly(A)尾——成为了我们鉴定全长转录本的关键“身份证”。通过识别并利用这些特征,我们才能有效地筛选出完整的、高质量的全长转录本序列。 李老师着重指出,“在对ONT原始数据进行质控时,务必保留其双端引物序列,否则pychopper将无法识别全长转录本。有些同学在质控阶段就把引物过滤掉了,导致后续无法进行全长鉴定。” 这一点在实际操作中极易被忽视,却直接影响到全长信息的获取。 全长鉴定的意义:为后续分析奠基 “在我们获得真正意义上的全长序列后,就可以放心地进行下一步的转录本参考基因组比对和表达定量了。”
ONT全长转录组测序是指基于牛津纳米孔公司(Oxford Nanopore Technologies,ONT)三代测序平台进行的全长转录组测序。 利用三代测序平台长度长 (long-read)的特性,无需对转录本进行片段化,直接获取某一物种mRNA(或者有polyA尾的lncRNA)5'端到3'端的高质量全长转录组序列信息(图1),可准确识别可变剪接 基于ONT三代测序平台进行全长转录组测序,除了可准确鉴别上述转录本结构变异,由于现阶段测序成本和通量(相对于PacBio平台),还可实现转录本(mRNA或polyA+ lncRNA)表达水平准确定量和差异分析 一、ONT测序技术简介ONT测序是基于电信号识别碱基序列的三代测序技术。 参考文献:Nanopore三代全长转录组ONT全长转录组测序系列一:初识篇基因结构预测新利器-ONT全长转录组Park, Eddie et al.
在过去的系列文章中,我们从平台选择、数据质控等“硬件”层面深入探讨了三代测序的诸多细节。今天,我们将视角转向三代测序的应用领域——全长转录组测序。 今天,我们就继续跟随山东第一医科大学李冕博士的步伐,一同探索三代测序是如何在转录组学研究中大放异彩,特别是如何精准解析全长转录本(Isoform),从而将我们的研究分辨率提升到一个全新的维度。 三代全长转录组的优势: 三代测序技术,凭借其数千乃至数万碱基的超长读长,能够轻松地一次性完整读取整个mRNA分子的序列,从5’端到3’端,无需拼接。 技术原理浅析:如何捕获全长mRNA? 大家可能会好奇,三代测序是如何特异性地捕获这些全长转录本的呢? 结语:在转录本水平挖掘新的调控机制 三代全长转录组测序技术,为我们提供了一个前所未有的强大工具,去探索可变剪接、可变多聚腺苷酸化(APA)、融合基因以及等位基因特异性表达等复杂的转录调控事件。
然而,随着三代长读长测序技术的兴起,一个新的疑问摆在了我们面前:这个为短读长数据而生的经典工具,能否适应长读长、高复杂度的全长转录本数据呢? 正如李老师最近被问到的:“二代RNA-seq的经典工具StringTie,能否用于三代全长转录组的定量(有参模式)?” 今天,我们就围绕这个问题,深入探讨StringTie在长读长时代如何焕发新生。 StringTie的演进:从短读长到长读长的华丽升级 答案是肯定的:StringTie完全可以用于三代全长转录本的组装和定量,并且表现出色。 StringTie在三代全长转录本分析中的实战流程 既然StringTie的表现如此优秀,那么在实际操作中,我们该如何将其应用于三代全长转录本的组装和定量呢? 对于初次进行全长转录组分析的同学,直接使用Minimap2比对后,结合StringTie的长读长模式进行组装和定量,无疑是一个高效且可靠的选择。 好了,本期节目就到这里。
全长转录组(Full-length transcriptome)测序和分析是基于PacBio和Oxford Nanopore三代测序平台,利用其长读长的特性,建库测序时无需对RNA进行打断,如直接获得包含 Iso-seq基础概念 (1)ROI:reads of insertROI , 全称 reads of insert,可以理解为插入片段,首先看下三代测序文库构建阶段的reads示意图,如图3:对于上述的文库片段 三代测序的特点就是读长很长,可以达到十几kb, 对于短的插入片段而言,CCS这样定义当然没有问题,但是对于全长转录本而言,转录本长度很长,比如转录本长度1kb, 读长3kb, 此时在一个零模波导孔(ZMW clean reads 就已经是转录本的序列了,我们首先看一下clean reads 当中,哪些是全长转录本;哪些不是全长转录本。 参考文献Iso-seq 必备基础-blog.csdnpacbio 三代全长转录组数据分析流程PacBio Iso-Seq Workshop Online
在上一期《三代测序100问》中,我们详细探讨了经典工具StringTie如何在三代全长转录组分析中大展身手,特别是结合Minimap2进行比对后的组装和定量。 今天,我们就来介绍一款这样的“利器”,它以高效和用户友好著称,为三代全长转录组分析注入了更多便利。 更值得一提的是,IsoQuant兼容PacBio和ONT平台的原始数据,这使其在三代转录组研究中脱颖而出。 因此,在数据质控阶段,务必避免裁切掉Poly(A)尾序列,以确保工具能正确识别和处理全长信息。这一细节虽小,却直接影响分析的完整性。 结语:高效工具赋能科研 总之,IsoQuant以其一键操作的便捷性和顶尖的性能,为三代全长转录组分析提供了理想解决方案。它不仅简化了从比对到定量的全流程,还在权威评测中证明了其卓越价值。
一、Iso-Seq Collapse 在isoseq cluster完成以后,我们首先需要将高质量全长isoforms回贴到参考基因组上,然后进行isoseq collapse。 do-not-collapse-extra-5exons UHRR.mapped.bam UHRR.flnc.bam UHRR.collapsed.gff 二、Pigeon使用方法 Pigeon是一个PacBio转录工具包,包含了用于将全长转录本
使用三代长度长测序进行全长转录组高通量测序为数千种新转录本的发现铺平了道路,甚至在注释良好的哺乳动物物种中亦是如此;也为深入转录本水平表征基因的变化提供了强有力的技术手段。 Florida)Ana Conesa 教授团队(Genomics of Gene Expression Lab, ConesaLab)开发的在转录本isoform水平上进行生物信息学分析的流程,旨在提供一个全长转录组 因此,对全长转录组进行校正是进行FIT分析的前提,且对产生可靠的、在生物学上合理的结论/假设至关重要。 SQANTI 3 是SQANTI 工具(发布)的最新版本,该版本合并 SQANT 1 和 SQANTI 2 中的功能并加入了新的功能 ,更好的对全长转录本进行深度表征 。
全长转录组(Iso-Seq)是指利用三代单分子实时测序技术(SMRT),无需对RNA 进行打断和拼接,即可直接获得完整的全长转录本。 目前全长转录组主要应用在以下三个方面: 1、可变 polyA 检测 三代长读长技术的 Iso-Seq 技术,由于利用 OligodT 引物合成 cDNA,poly(A)会出现在测序结果中, APA 的四种类型 2、可变剪切分析 基于单分子实时测序技术(SMRT)的三代全长转录组,具有读长超长的优势,可以直接获取 mRNA 全长,因此可轻松判断 TSS 和 TTS 的位置、剪接位点的位置 可变剪切类型 注:ES:外显子跳跃、A3SS:3’端可变剪切、A5SS:5’端可变剪切、MEX:外显子选择性跳跃,IR:内含子保留 3、融合基因检测 三代全长转录组技术无需对 三代测序检测到的融合基因示意图 不过,由于 pacbio 测序数据量第,目前 Iso-seq 只能用于定性研究,还不适合用于大规模定量研究。
而三代测序可以获得全长转录组数据,对于挖掘新转录本以及isoform有着重要的意义。 三代测序是指单分子测序技术,在测序过程中,不需要经过PCR扩增,实现了对每一条DNA分子的单独测序。 同时,三代测序技术也存在一些缺点,比如三代测序依赖DNA聚合酶的活性;测序成本很高而且错误率较高(大约在15%-40%)。 三代测序与单细胞转录组结合会解决二代测序转录组读长较短和无法获取全长转录本数据的局限性,可以将单细胞水平的研究变得更加“精细”。 展望 三代检测的全长转录本有着比二代测序更多的应用场景:检测isoform在不同细胞中的差异;区分每个基因的所有不同可变剪接产物;检测全长转录本的SNV;发现更多转录本融合情况;检测全长BCR和TCR序列等 相信随着三代测序准确度的提高、成本的下降以及生信分析的越来越完善,三代测序将会有更多的有待开发的应用场景。 参考文献 1.
微生物研究新世代 -- 三代全长16S (Full-length 16S) 时至今日,微生物群落研究已全面进入测序分析阶段,当前研究主流处于二代扩增子与三代扩增子交接的时段。 三代16S扩增子测序,采用27F、1492R引物扩增全长片段(覆盖V1-V9区),则能够轻松覆盖16S总长约1500bp共9个可变区,最大程度保留了物种鉴定的可能性(图3)。 有了如此高的分辨率表现,菌种级别的研究自然成为了研究重点,不同于过往对于二代16S科、属水平的研究,三代全长16S能够提供更全面且细致的菌株级别分析结果,让整个研究结果更贴近生态学功能,对于多组学关联以及后续课题实验指导 四、PacBio三代全长16S分析流程 前提是需要安装SMRTlink。 1. 下载 Sequel II 16S barcode序列文件。 三代全长16s — 望向微生物世界的尽头。 Matsuo, Y., Komiya, S., Yasumizu, Y. et al.
至此,PacBio和ONT两大三代测序平台推动三代全长转录组进入了快速发展的时期。逐渐降低的测序价格,以及对转录本层面精细挖掘的需求,最终会使三代全长转录组测序逐步替代传统的二代RNA-seq。 DNA(cDNA)分子进行CCS测序会产生过多的循环,造成大量的测序浪费,导致其无法有效地利用三代测序平台的测序潜力,所以MAS-Seq(1)应运而生。 全长转录组 | Iso-Seq 三代测序数据分析流程 (PacBio) (3)-- SQANTI3 v5.2 全长转录组 | 三代全长转录组分析流程(PacBio & ONT )-- IsoQuant 其中三代测序得到4.8 M HiFi Reads,共计 87.6 Gb数据(表3),HiFi Reads N50长度达18.34 Kb (图8),平均质量值集中在Q33左右 (图9)。 安诺基因官方公众号:PacBio Kinnex全长转录组技术“靓相”科研圈,实测混样数据大公开 贝瑞基因Kinnex全长转录组解决方案
在前几期《三代测序100问》【三代测序100问:从“小白”到“大牛”,三代科研进程启动 、三代测序技术100问(1):NGS与第三代测序,如何做出明智选择? 三代测序的“特殊考量”:于细微处见真章 然而,当我们将目光转向三代测序,选择的复杂性便陡然增加。 敬请期待《三代测序100问》的后续精彩! 从平台选择到深度解析:开启您的全长转录组研究新篇章! 明智地选择了商业服务提供商,您已为揭示转录本的完整图景奠定了基础。 然而,真正的挑战往往在于如何驾驭这些信息丰富的长读长数据,将其转化为深刻的生物学洞见——特别是在复杂精妙的全长转录组分析领域。 面对数据处理的种种难点,从繁琐的流程到结果的精准解读,李博士将其多年实战精华,浓缩于一门专为攻克《三代全长转录组测序数据分析》难题而设的精品课程中。
前面我们介绍了Oxford Nanopore Technologies(牛津纳米孔技术)公司的一些测序仪,也看到了它产出的测序数据,详见:全长转录组分析之牛津纳米孔测序介绍 现在前面一起来详细认识这样的数据吧 混样主要是需要凑够样本数达到一个上机lane的测序量,目前三代全长转录组一个样本基本产出2G就可以满足下游分析,因此,多属于混样建库测序。 对于一次下机的数据,文件如下: ? fastq:由fast5文件转换而来,以.fastq或.fq结尾,与二代格式一样,四行为一个单位,只不过序列要长很多,这是三代的一个优势。 ? sequance_summary 此次专题主要学习和记录一些在分析ONT测序产品如ONT全长转录组,ONT甲基化以及ONT重测序中的所思所想所得。 个人所知有限,如有理解错误,还请批评指正。
三代测序技术以其直接读取长片段DNA或RNA的能力,在基因组从头组装和全长转录组分析等领域展现出无与伦比的优势。然而,在许多研究场景中,我们的兴趣并非遍布整个基因组,而是聚焦于特定的基因或功能区域。 最近,李老师就收到了许多老师的咨询:“如果我只对特定的基因或基因组区域感兴趣,适用于三代测序平台的靶向富集方案都有哪些?” 今天,我们就来系统地梳理一下当前主流的几种策略。 一个典型的应用便是利用通用引物对细菌的16S rRNA基因全长进行扩增,用于菌群分类研究。 优缺点分析: 优势: 灵敏度极高,能够从极微量的样本中富集目标;成本相对低廉;操作流程简单快捷。 如果判断这条序列不属于预设的目标区域,系统会立即施加一个反向电压,将其“弹出”纳米孔;而目标片段则被允许继续通过,完成全长测序。 希望这份梳理能帮助您在启动三代靶向测序项目时,做出最明智的决策。我们下期再见!
因此,基于三代长读长测序平台的全长转录组成为新的研究热潮。 全长转录组(Full-length transcriptome)是基于 PacBio(Pacific Biosciences) 或 ONT(Oxford Nanopore Technologies) 三代测序平台 在全长转录组基础之上,ONT - 三代测序平台的直接RNA测序(Direct RNA-seq),相对于传统的 反转录cDNA - PCR扩增(二代和三代RNA-seq测序都有相应的建库方案)流程,其能够保留并检测天然 PacBio Iso-Seq, 基于PacBio三代测序平台的mRNA Iso-Seq建库测序流程能够检测长达15 kb的全长转录本序列,有助于发现大量先前未注释到的转录本,并可通过全长序列确认早期基于跨物种同源序列的基因预测结果 ONT cDNA-PCR,基于ONT三代测序平台的cDNA-PCR建库测序流程也可以检测全长转录本,而且适用于单细胞全长转录组测序。同样使用模板置换反转录,PCR扩增来制备全长转录本文库(图5)。