为了评估 DNAscope 在不同个体中的变异调用准确性,研究者使用 Sentieon 的 DNAscope 和 DNAseq(符合 GATK 种系最佳实践)管道,使用来自三个 GIAB 样本的公开数据来调用变异 结果显示,DNAscope在读数映射困难的区域,如低可映射性、分段重复和自链区域,均明显优于DNAseq。特别是在MHC区域的SNP检测和长同聚物区域的INDEL检测中,DNAscope表现更为出色。 这些优势共同导致DNAscope在复杂基因组区域的整体表现优于DNAseq。 这表明DNAscope在处理非标准样本时仍具有一定优势,尤其是在INDEL检测方面。 在标准化的AWS环境中,研究组对DNAscope进行了性能测试。 使用GA4GH分层区域进行的分层分析,能够确认DNAscope在大多数分层区域中都具有高准确性,并突显了DNAscope在插入缺失(indels)和包含变异检测较困难的基因组区域的分层中具有更高的准确性
因此,本文将介绍Sentieon 开发的DNAscope LongRead 。 接下来让我们一起了解一下DNAscope LongRead 所展现出的性能优势吧! Sentieon团队对获奖的变异检测工具DNAscope进行升级,开发了DNAscope LongRead流程。 为评估DNAscope LongRead在GIAB基准区域之外的性能,研究团队使用HG002样本与CMRG基准数据集进行比对。结果显示DNAscope LongRead产生了846个总错误。 ,展现出DNAscope LongRead良好的性价比和资源利用率。
在该研究中,研究者介绍了一种准确、高效的 DNAscope LongRead 管道,用于从 PacBio® HiFi 读数中调用胚系变异。 DNAscope LongRead 是对 Sentieon 的 DNAscope 工具的修改和扩展,该工具曾获美国食品药品管理局(FDA)精密变异调用奖。 文献讨论 DNAscope LongRead是一个高度准确、高效、稳健且可扩展的管道,用于从PacBio HiFi读取中进行胚系变异检测。 与Precision FDA Truth Challenge V2获胜的变异检测管道相比,DNAscope LongRead管道错误减少了15%。 结论 综上所述,研究表明,DNAscope LongRead 管道可从 PacBio® HiFi reads中提供可扩展的高效种系变异调用。
而DNAscope由于对算法架构进行了整体优化,同时引入了机器学习模型,以至于DNAscope下降的幅度相对较低,值得一提的是,DNAscope在20x的准确度表现已经优于与DNAseq流程在36x的表现 此外,测试结果显示,DNAscope分析速度几乎与使用线程数呈线性关系,由此说明DNAscope的可扩展性优异,可对运算资源进行有效利用。图片DNAscope并行计算扩展性评测。 Sentieon DNAscope评测结论总体而言,DNAscope在不同的样本和测序深度下,精准度高于DNAseq。 当测序深度降低时,DNAscope也可以保持相对较高的准确率,例如20x的DNAscope分析准确率已经超越了36x的GATK结果。 /manual/DNAscope_usage/dnascope/GIAB公共数据下载地址:ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/DNAscope Machine
Sentieon® DNAscope能利用PacBio® HiFi数据高质量、长读长的优势,使用经过校准的机器学习模型进行快速、精准的变异检测。 针对HiFi数据的DNAscope流程输入比对后的HiFi数据,并输出VCF格式变异检测结果。 PacBio® HiFi数据Sentieon® DNAscope流程流程概览本流程会进行两轮变异调用,然后将两轮结果合并到⼀起生成最终的结果。 运行流程通过⼀个包含多个单⼀Sentieon命令的脚本即可运行HiFi数据DNAscope流程。⼀行命令即可完成变异检测并运用机器学习模型。 -m MODEL:DNAscope HiFi模型⽂件。HiFi数据Sentieon® DNAscope流程可选参数如下:-d dbSNP:dbSNP数据库VCF文件路径。仅需⼀个文件。
Sentieon_Mannual_CN_V202503.pdfSentieon示例脚本:https://github.com/Sentieon/sentieon-scripts/ 适用于不同测序平台的 DNAscope 在稳定性提升方面,修复了多个关键问题,包括alignment @SQ记录不一致、consensus Dedup中的read名匹配、LongReadSV的罕见崩溃、DNAscope和Haplotyper的断言错误等
短读长测序技术在解析基因组“盲区”(如难以比对区域)及结构变异方面存在着局限性。尽管长读长测序凭借超过15kb的读段显著改善了SV检测,但仍面临高错误率(尤其是同聚物区域的插入/缺失,Indel)和高成本的挑战。
五、输出结果HG002样本的整体变异数量1.两种流程在检测变异范围和类型上的比较图9DNAscopeHybrid流程在10xPB+35xILMN数据上,以及DNAscope在35xILMN数据上识别的小型和结构变异的大小分布 七、计算资源基准测试1.三个流程在运行耗时和成本方面的评估为评估软件的运行耗时,Sentieon测试了DNAscopeHybrid、DNAscopeLongRead(PB)、DNAscope,使用120 图13DNAscope流程的计算资源基准测试基准测试环境为AzureStandardHB120rsv3(120vCPUs,456GiB内存,512GB高级SSD),显示运行时间和按需计算成本。
在分析部分,选择了两个管道:Sentieon DNAscope管道,基于机器学习(ML)的变体调用工作流(https://github.com/Sentieon/sentieon-dnascope-ml
Dedup 算法的支持,以执行涉及UMI barcode的重复数删除;更新了Dedup模块算法,以支持对UMI barcode的纠错功能;更新了GVCFtyper模块功能,用户可以将从多个测序平台获得的DNAscope
作业脚本使用Sentieon DNAscope流程处理一组双端Illumina fastq文件: BWA:将读段比对到参考基因组。 Metrics和LocusCollector:收集读段统计信息。 变异检测:DNAscope变异检测。 注意:DNAscope仅推荐用于二倍体生物的样本。对于其他样本,请使用DNAseq。 models: 包含DNAscope模型文件的目录。 FASTQ文件: 样本序列文件。 在运行脚本之前,您需要确保正确设置了上述环境变量,包括许可证和目录路径。 3.1 Sentieon模块列表 Sentieon®产品 Sentieon®工具 典型用途 等效GATK流程工具 Sentieon® BWA Sentieon® BWA 读段比对和映射 BWA DNAscope DNAscope 改进的生殖细胞SNV/Indel/SV检测 - DNAseq® Genotyper 生殖细胞SNV/Indel检测,非单倍型基础 UnifiedGenotyper DNAseq® Haplotyper
为了证明潜在的成本节约,Arm 对公开可用的 HG002 Illumina 短读长 30x WGS(全基因组测序)数据集进行了基准测试:使用Sentieon DNAscope流程比对至hg38参考基因组
作业脚本使用Sentieon DNAscope流程处理一组双端Illumina fastq文件:•BWA: 将读段比对到参考基因组。•Metrics和LocusCollector: 收集读段统计信息。 •变异检测: DNAscope变异检测。注意: DNAscope仅推荐用于二倍体生物的样本。对于其他样本,请使用DNAseq。 •models: 包含DNAscope模型文件的目录。•FASTQ文件: 样本序列文件。在运行脚本之前,您需要确保正确设置了上述环境变量,包括许可证和目录路径。
RNA变异检测可以使用Haplotyper算法或DNAscope算法。 qRECAL_DATA.TABLE]--algoHaplotyper--trim_soft_clip\--call_conf20--emit_conf20[-ddbSNP]VARIANT_VCF如果要使用DNAscope 3.用时统计SampleIDfastq文件质控时间(min)比对时间(min)去重时间(min)SplitNCigarReads时间(min)DNAscope变异检测时间(min)统计metrics质控信息时间
其核心优势在于集成了先进的机器学习模型(特别是DNAscope工具)和优化的变异检测算法,在复杂基因组区域的分析中展现出极高的准确性。
and High-Accuracy Variant Calling on Oxford Nanopore Technologies Sequencing Data with the Sentieon DNAscope
-m MODEL_BUNDLE:包含DNAscope和CNVscope模型的模型包的位置。--r1_fastq R1_FASTQ:R1输入的FASTQ文件。可指定多个文件。 小变异识别:Sentieon DNAscope识别小变异(SNV和indel)。倍性估计:估计样本性别和倍性,用于下游处理。HLA/KIR基因分型:T1K对HLA和KIR基因座进行分型(可选)。 输出文件列表:处理全基因组测序(WGS)FASTQ时,会输出以下文件:sample.vcf.gz:来自DNAscope的小变异识别结果(SNV和indel)。 该包包含机器学习模型(例如用于 DNAscope 小变异识别和 CNVscope 拷贝数变异识别),这些模型经过训练可以提升变异识别的准确性和稳健性。
目前,CNVscope正处于持续迭代阶段,当前主要聚焦于检测大于5kb的胚系WGS事件,而小于5kb的复制和缺失则由DNAscope的结构变异检测模块处理。
Germline variant calling and filtering from WGS 种系变异调用和过滤来自全基因组测序 Para_01 我们使用 DNAScope 对来自 CCRCC、GBM 接下来,我们使用 DNAScope Haplotyper 调用变异,每个样本生成一个 gVCF 文件,使用默认设置和 --emit_mode gvcf 参数。 我们使用 DNAScope 对来自 CCRCC、GBM、HNSCC、LSCC、LUAD、PDAC 和 UCEC 患者的血液衍生样本进行了种系变异调用。 接下来,我们使用 DNAScope Haplotyper 调用变异,每个样本生成一个 gVCF 文件,使用默认设置和 --emit_mode gvcf 参数。