一、纳米孔测序关键字 读长超长、速度快、准确性低、通量高、价格高、电信号、无GC偏向性、小的插入缺失错误、更新快 当前市场主流测序平台 纳米孔原理 之前的illumina测序是利用荧光信号的测序原理 ;(优点) 纳米孔是目前唯一使用电信号进行测序的设备,下面介绍纳米孔测序的原理 二、选择合适的纳米孔 所谓纳米孔测序,就是让一条 DNA 链穿过一个纳米孔,因为构成 DNA 的四种碱基 ATCG 当前纳米孔材料主要分为两种:生物纳米孔和固态纳米孔。 固态纳米孔有很多优点,首先它可以不是耗材,可以反复使用,而且性能更加稳定。 纳米孔技术三大难题 1、纳米孔材料 2、碱基识别精度 3、控制碱基流动速度 纳米孔测序是如何工作的? 碱基流过纳米孔引起电流变化 三、纳米孔测序发展阶段 纳米孔测序技术开始于 90 年代,经历了三个主要的技术革新:1、单分子 DNA 从纳米孔通过;2、纳米孔上的酶对于测序分子在单核苷酸精度的控制
sniffles 输入也是排序后的 bam 文件,不过 sniffles 一般与 NGMLR 一起组合使用,NGMLR 也是一款比对软件,将测序得到的数据比对到基因组上,与 minimap2 类似,能更准确地分辨长读长技术的测序错误 bcftools query -f '%SVTYPE\n' sniffles.vcf | sort | uniq -c 三、利用 cuteSV 检测 SV 3.1 软件介绍 cuteSV 是一款基于长测序片段比对的基因组 SV 检测工具,运行速度快,在准确度和灵敏度等指标上均有优异的表现,同时在低测序深度数据上仍保持着良好的结构变异检测率。 cuteSV 展现出了三大主要优势: 1、相较于其他工具,cuteSV 在不同测序深度数据中能够检测出更多的 SV。 测序数据:使用nglmr比对后排序数据 #cuteSV检测SV,软件暂时conda没装上 mkdir work_dir echo "cuteSV ngmlr.sorted.bam /share/home
ONT全称Oxford Nanopore Technologies,直译就是牛津纳米孔技术,是三代测序平台中一种。公司官网为https://nanoporetech.com/。 :纳米孔每次只通过一个碱基 2.测序读长长:相比于二代测序最常见的150bp,三代ONT全长转录组平均读长为1-1.5kb(分析项目经验值),最长读长约为10-20kb 3.测序速度快:不同系列时间有差异 一次可运行24 (PromethION 24) 到48 (PromethION 48) 个测序芯片,按照每张测序芯片包含3,000个纳米孔通道,所有芯片同时运行将可产出高达7.6Tb甚至是15Tb的数据 2.测序基本原理 简单概括:基于纳米孔的单分子实时电信号测序技术。 详细一点:DNA/RNA双链在马达蛋白的带领下与镶嵌在生物膜上的纳米孔蛋白结合并解螺旋,在生物膜两侧电压差的作用下,DNA/RNA链以一定的速率通过纳米孔通道蛋白。
identification of A-to-I editing sites with nanopore native RNA sequencing 今天给大家带来一篇新加坡南洋理工大学有关RNA修饰使用纳米孔测序进行检测的文章 作者使用了牛津纳米孔直接对RNA测序,用于鉴定天然转录组中含肌苷的位点,提出了Dinopore (Detection of inosine with nanopore sequencing)。 Illumina测序reads较短,可能导致错误定位,特别是在短外显子或重复区域,并产生错误位点。这种方法是间接的,因为RNA必须转化为DNA,才能在Illumina平台上进行测序。 4. 三代测序长度长且包含有位点信息,可以作为检测的输入。 图11 过滤器对最终结果的影响 图12 其他措施对结果的影响 三、总结 Dinopore是一个基于位点的肌苷位点检测工具,作者选择了CNN网络用来处理和分类信号读取,使用纳米孔测序技术从真实的转录组中生成电信号
使用酶促或化学探测以及高通量测序,可以在整个转录组中绘制二级结构。然而,一个限制因素是只能获得总体平均值,因为每次读取都是独立的测量值。 尽管最近使用长读长测序来确定 RNA 结构,但这些方法仍然使用跨链的聚合信号来检测结构。对总体进行平均还意味着只能获得有关分子间结构异质性或每个分子内依赖性的有限信息。 在这里,我们提出了单分子结构测序 (SMS-seq),它将结构探测与天然 RNA 测序相结合,通过新的分析方法提供单个分子的非扩增结构图谱。我们使用互信息的新方法支持单分子结构询问。
在上一期《三代测序100问》中,我们揭示了纳米孔测序平台自适应采样(Adaptive Sampling) 技术的革命性原理——它将靶向富集从繁琐的湿实验台,巧妙地转移到了测序仪内部的实时计算中。 重塑靶向测序:从临床检测到病原体追踪 理论上,任何需要进行靶向富集测序的应用,都可以通过自适应采样技术来实现,并且往往能带来更高的效率和灵活性。 它可以在测序过程中实时识别并“拒绝”宿主片段,让有限的测序通量优先流向我们真正关心的病原体或微生物基因组。 终极优势:序列与修饰的“双剑合璧” 上一期我们在讲解自适应采样原理时,也提到了它完美继承了纳米孔测序平台的另一大核心优势——保留天然的碱基修饰信息。 结语:从“测什么”到“分子状态如何”的认知飞跃 李老师最后为我们做了精辟的总结:自适应采样技术,解决的是“测什么”的问题,它让我们能够高效地聚焦于我们感兴趣的基因组区域;而纳米孔固有的修饰检测能力,回答的则是
背景 上周五我们介绍了纳米孔测序原理,作为唯一一个基于电信号的测序,它又是怎么识别碱基的呢?优缺点又在哪里。接下来进入我们的正文了解它吧。 能够做纳米孔碱基识别的软件有很多,也是目前纳米孔测序研究中非常重要的一个研究方向。 不同碱基识别算法及准确性比较 三、关于纳米孔测序错误 纳米孔官方对于测序错误的描述:https://nanoporetech.com/accuracy 3.1 测序错误来源 纳米孔测序的错误率到底有多高呢 ,其实前面的内容我们是有提到过,纳米孔测序错误率从最开始的 40%,已经下降到目前的 5%左右。 第一:提高纳米孔的性能,也就是寻找到更好的纳米孔,从 R6 到 R9,测序准确性从 60%多到 95%,提高了非常多。 第二:建库方法上使用 2D 或者 1D2 的方式。
接着,通过PCR对cDNA进行扩增,以获得足够的测序文库量。 最后,构建文库并上机测序。 02 直接RNA测序(DRS):直击RNA的“原始手稿” Direct RNA Sequencing(DRS),即直接RNA测序技术,其最大的不同点就在于——它彻底绕开PCR过程,直接将天然的RNA链送入纳米孔通道进行信号的采集和序列的测定 由于测序的是原始RNA分子,其上携带的各种化学修饰(如大家最熟悉的m6A、m5C等)会引起纳米孔电流信号产生特征性的微小变化。 04 平台现状 李老师指出:“现阶段,牛津纳米孔(ONT)是目前唯一能够商业化提供直接对天然RNA链进行测序的技术平台。 这项技术在国产的纳米孔测序平台上尚未商业化应用,因此各位老师和同学若想开展相应研究,暂时只能在ONT平台上进行。”
有同学和我交流离线的牛津纳米孔16S测序数据分析的问题,感慨的确这种方案还是少的,我想主要原因之前大家的印象还是相比Pacbio和短读长,成本高,准确性还是差了一点吧,16S对准确性要求还是相对高的。 从同学处得到了一个测试数据,先看看质量: 看起来R10版本的确比R9好很多啦,毕竟大的版本升级,因为由过一个孔变成了过两个嘛! : in situ analysis of 16S rRNA amplicons obtained by nanopore sequencing (github.com) Spaghetti 是用于纳米孔测序数据的自动生物信息学分析以及半自动探索性分析和数据可视化的定制管道 该管道专为原位分析MinION(牛津纳米孔技术公司,ONT)获得的16S rRNA基因序列而创建。出于这个原因,意大利面包括提供快速结果并且可以在笔记本电脑上运行的工具。 NanoRTax porefile,又一个Nextflow的流程 porefile包装了一堆第三方软件,以处理和分类使用牛津纳米孔测序生成的全长16S(SSU)长读段,而不是SILVAdb SSU NR99
在三代测序技术的璀璨星空中,纳米孔测序以其独特的“实时、长读长”特性而备受瞩目。一个常常萦绕在研究者,特别是初学者心头的问题便是:“纳米孔测序到底能测多长? 这个看似简单的问题,实则触及了纳米孔测序技术的核心原理与实践边界。今天,我们就跟随李冕老师的思路,一同探寻答案。 纳米孔测序的“无限”潜力:原理上的“无天花板” 首先,我们需要明确纳米孔测序的一个显著优势:其读长在理论上并不受仪器本身的限制。 从这个过程中我们可以看出,只要输入的核酸分子足够长且不发生断裂,马达蛋白和纳米孔蛋白的复合体能够持续工作,那么信号采集就能一直进行下去。因此,纳米孔测序的读长上限并没有一个固定的“天花板”。 实际数据表现:从常规到极限 综合以上因素,我们来看看纳米孔测序在实际应用中的读长表现: 常规读长分布:目前,在大多数应用中,纳米孔测序的平均读长通常控制在10kb到30kb之间,这与常规柱式法提取的DNA
而实现这一目标的“黑科技”,便是牛津纳米孔(ONT)测序平台独有的自适应采样(Adaptive Sampling)技术。 自适应采样:在测序中完成“实时富集” 纳米孔测序的自适应采样技术,则彻底颠覆了这一“先富集,后测序”的传统模式。它是一种在测序过程中(on-the-fly) 完成的计算驱动型富集方法。 常规测序模式:在传统的过孔测序中,测序仪像一个开放的通道,无差别地接受所有进入纳米孔的DNA片段。最终能读到什么序列,完全取决于该片段在文库中的相对丰度。 这个操作会瞬间改变孔内的电场方向,将这条正在进入的DNA分子“弹出”或“拒绝” ,让纳米孔迅速恢复空闲状态,准备迎接下一条分子的到来。 结语 这一期,我们一同了解了纳米孔自适应采样技术的基本原理。它将测序仪从一个被动的“记录者”变成了一个主动的“筛选者”,为靶向测序,特别是靶向表观遗传学研究,开辟了全新的道路。
自从牛津纳米孔技术公司(Oxford Nanopore Technologies, ONT)于2014年推出第一款商业化的纳米孔测序仪MinION以来,近几年纳米孔测序技术以及相关的应用都取得了实质的进步 ONT纳米孔测序技术的原理主要依赖于具有生物传感性、内部直径为纳米尺度的蛋白质(nanopore)。在电解质溶液中,通过施加电压,将带有负电荷的单链DNA或RNA分子驱动穿过纳米孔。 目前的纳米孔测序技术主要包括两个核心组分:纳米孔蛋白和分子马达蛋白。 第一个被用于纳米孔测序的纳米孔蛋白为alpha-hemolysin, 其内部直径为1.4至2.4纳米;随后,另外一个具有相似内部直径(1.2纳米)的蛋白MspA也被证实可以用于纳米孔测序。 纳米孔测序原理图 图2.
最近,李老师就被问及一个非常具体且前沿的问题:“我想做人体体液中cfDNA的测序,三代纳米孔测序是否适用于这类短片段DNA呢?” 今天,我们就来深入探讨纳米孔测序在片段大小“下限”上的表现。 纳米孔测序的“全覆盖读长”特性与物理限制 纳米孔测序的一个核心特性是“全覆盖读长” ——它既能测长片段,也能兼顾短片段。 因此,对于以167bp为峰值的cfDNA,纳米孔测序是可以进行的,但在分析结果时,需要对可能出现的效率和准确性相对偏低的情况有所预期。 应用前景:cfDNA与纳米孔测序的“黄金组合” cfDNA的微创获取方式,结合纳米孔测序仪便携、快速、实时输出的独特优势,正催生出一个充满想象力的“黄金组合”。 可以预见,随着建库化学、测序芯片和碱基识别算法的不断迭代更新,纳米孔测序在处理cfDNA等体液游离核酸方面的性能将持续提升。
李仲深 论文题目 Identifying and correcting repeat-calling errors in nanopore sequencing of telomeres 论文摘要 纳米孔长读长测序是研究基因组的一种新兴方法 作者发现了跨纳米孔数据集、测序平台、碱基识别器和碱基识别模型的端粒重复序列中广泛的碱基识别错误,包括许多生物体中的端粒经常被错误判别。 作者开发了纳米孔碱基识别模型可以改善端粒区域的恢复和分析,而对其他基因组区域的负面影响最小。作者认为工作中在长、重复和定义不明确的区域中验证纳米孔碱基调用是十分重要的。 论文同时展示如何通过改进纳米孔碱基调用模型来解决伪影。
在上一期节目中,我们一同梳理了纳米孔直接RNA测序(DRS)数据从原始信号到高质量碱基序列的预处理流程。今天,我们将接续上期内容,深入探讨如何从这些信息丰富的序列数据中,挖掘出有价值的生物学发现。 总结与展望 通过这两期节目,我们带领大家系统地梳理了纳米孔直接RNA测序从原始数据到生物学结论的完整分析内容和流程,并为每个关键步骤推荐了相应的常用软件工具。
在前面的系列文章中,我们一同领略了纳米孔直接RNA测序(Direct RNA Sequencing, DRS)技术如何为我们打开一扇直视RNA“原始手稿”的窗户。 正如我们所知,DRS技术能够在一个测序反应中,完整地记录RNA分子的多维度信息。 第一步:原始数据格式——从FAST5到POD5的演进 分析之旅的起点,是测序仪产生的最原始的电流信号数据。 在纳米孔测序的历史中,存储这些信号的格式经历了一次重要的演进: FAST5格式: 这是早期纳米孔测序平台采用的标准格式。 Quality Control, QC): 我们可以使用经典的NanoPlot工具,对basecalling后的数据进行全面的质量评估,包括但不限于reads的平均质量分数分布、长度分布、数据产量等,从而对测序运行的整体情况有一个清晰的认识
2016年,团队成功鉴定出具有测序潜力的新型纳米孔道蛋白OpX等,并与中国科学院生物物理研究所娄继忠研究员团队合作,开展纳米孔测序仪的原理验证和全流程单通道测序实验,并最终为普译生物的国产纳米孔技术奠定关键基础 ,确保公司在纳米孔测序精度提升的赛道上保持持续创新能力。 在国产纳米孔测序企业中,普译生物凭借其在测序准确度和芯片通量稳定性的双重优势脱颖而出。 对标ONT:打造国产纳米孔测序新高度 在纳米孔测序领域,用户的核心关注点集中于碱基识别质量、芯片通量和测序速度三大指标。 随着技术迭代,纳米孔测序正从“做二代测序不能做的事”逐步走向主流应用场景。国际巨头如罗氏等也正转向高效、快速的纳米孔路线,意图挑战现有市场格局。
这篇文章结合了两种测序方法,Direct RNA sequencing (DRS)和sequencing-by-synthesis (SBS),明确地绘制了SARS-CoV-2的亚基因组RNA(subgenomic SARS-CoV-2的转录组结构 用MinION纳米孔测序仪进行了DRS测序,获得了879,679个reads(1.9 Gb)(图1A)。 已知DRS无法对末端12 nt进行测序,因此序列的5’末端缺失了12 nt(图1B)。病毒基因组3’端的覆盖度明显高于5’端,这也反映了RNA直接测序从RNA3’端开始测序的特点。 SARS-CoV-2的poly(A)长度 由于纳米孔DRS基于RNA的单分子检测,因此它提供了独特的机会来检查单个RNA分子的多个转录组特征。 为了明确研究RNA修饰,作者通过体外转录病毒序列生成了阴性对照RNA,并对阴性对照进行了直接RNA测序。注意到阴性对照和病毒转录本之间的离子电流之间的差异非常有趣(图6A)。
小编重点提示: 1.纳米孔测序低价格,便携性和快速测序; 2.缺乏专门用于分析纳米孔16S序列的生物信息学工具和流程; 3.Centrifuge和Minimap2是处理纳米孔数据的最合适工具,并且可以认为它们是当前的最佳选择 近年来,已经开发出第三代测序技术,并已与前一种测序策略并行和互补地应用。尤其是,牛津纳米孔技术公司(ONT)推出了纳米孔测序技术,该技术已在分子生态学家中广为流行。 2011年,太平洋生物科学公司(Pacific Biosciences)引入了首个TSG技术,称为单分子实时测序。 2014年,牛津纳米孔技术(ONT)引入了纳米孔测序。 3 纳米孔测序技术在16S rRNA研究中的潜力 纳米孔测序为16S rRNADNA条形码研究带来了第一代和第二代测序的好处。 3.1 纳米孔16S宏基因组学研究 使用纳米孔测序来描述微生物多样性的研究通常采用与以前的研究类似的方法,这些研究大多基于Illumina,无论纳米孔产生全长16S序列的事实如何。
作者 | 尹成林 编辑 | 龙文韬 校对 | 李仲深 作者针对短串联重复序列这个生物学中的特殊motif和最新一代的纳米孔测序相结合,开发了DeepRepeat,讲纳米孔测序的电信号转化为RGB通道的图像 纳米孔测序的输出满足长度的需求,但是存在basecalling的较高的错误率,随着STR重复区域的长度增加,错误率也随之增加。 目前可以使用的工具使用的是合成信号而不是测序信号本身,有一定的误差可能。 二、总览 作者提出了一种深度学习工具DeepRepeat,可以直接从纳米孔电信号中准确检测STRs,而不使用合成信号。 作者使用了11HDce的HTT外显子-1区域的高覆盖率(~4000X)靶向纳米孔测序数据并进行了Sanger测序以确定重复计数。 图4 Deep Repeat和其他工具在九个任务上的测量结果 五、结论 在本研究中,作者使用深度卷积神经网络将纳米孔测序数据中的离子信号中检测STR,将STR检测问题转换为图像识别问题,利用了直接相邻的重复单元的自相似性