首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏生信喵实验柴

    GATK变异检测

    merge.markdup_metrics.txt -O merge.sorted.markdup.bam samtools index merge.sorted.markdup.bam Duplication 对变异检测的影响 samtools flagstat merge.sorted.markdup.BQSR.bam #建立索引 time samtools index merge.sorted.markdup.BQSR.bam 五、变异检测 hg38/Homo_sapiens_assembly38.fasta -V merge.HC.g.vcf.gz -O merge.HC.vcf.gz 六、结果过滤 6.1 VQSR 准备的已知变异集作为训练集 3、1000G 千人基因组计划(1000 genomes project)质控后的变异数据,质控后,它包含的绝大部分都是真实的变异,但由于没办法做全面的实验验证,并不能排除含有少部分假阳性的结果。 dbSNP 收集的数据,实际都是研究者们发表了相关文章提交上来的变异,这些变异很多是没做过严格验证的。

    89910编辑于 2023-09-04
  • 来自专栏生信修炼手册

    breakdancer检测结构变异

    breakdancer 是一款结构变异检测软件, 专门针对双端测序数据进行开发,github地址如下 https://github.com/genome/breakdancer 分析原理图如下 ? 从原理图可以看出,breakdancer 会根据双端reads的比对情况,检测以下5种类型的结构变异 insertions deletions inversions inter-chromosomal 鉴定结构变异 用法如下 breakdancer_max -t -q 10 -d sv.reads config.txt > sv.out 结构变异检测计算量较大,所以需要的时间也很久。 each map file Estimated allele frequency Software version The run parameters 1到6列描述的是断裂点的位置信息;第7列描述结构变异的类型 ,DEL代表缺失,INS代表插入,INV代表倒位,ITX代表同一染色体上的易位,CTX代表不同染色体之间的易位;第8列代表结构变异的长度,对于染色体间的易位,这个数值没有含义;第9列代表该结构变异可信度的打分值

    1.5K20发布于 2020-05-11
  • 来自专栏简说基因

    DeepVariant:引领变异检测新时代

    生物信息学数据分析过程中,变异检测一直是一个备受瞩目的领域。随着基因测序技术的飞速发展,如何从海量的测序数据中准确、高效地检测变异成为了研究者们亟待解决的问题。 在这样的背景下,DeepVariant——一款基于深度学习的变异检测软件应运而生,为变异检测领域带来了新的曙光。 一、变异检测软件的现状与不足 在DeepVariant出现之前,GATK等传统变异检测软件一直是市场的主力军。 通过借鉴这些成功经验,谷歌的研究者们将深度学习技术引入到变异检测领域,成功开发出DeepVariant这款全新的变异检测软件。 它充分利用了深度学习技术的优势,能够自动从复杂的基因组数据中学习和识别出变异位点,大大提高了变异检测的准确性和效率。

    49410编辑于 2024-07-09
  • 来自专栏简说基因

    基准测试:DeepVariant进行WES变异检测

    本文以人 WES 测序数据为例,演示 DeepVariant 软件进行变异检测的基准测试过程。 工具地址: usegalaxy.cn 网站,搜索工具:DeepVariant 数据下载 瓶中基因组基准数据 我们将使用瓶中基因组小变异基准数据集 v4.2.1 对 HG003 样本进行基准测试。

    43510编辑于 2025-04-02
  • 来自专栏Sentieon

    Sentieon实战:NGS肿瘤变异检测流程

    肿瘤基因突变检测是NGS的一个重要应用,其分析难点主要在于低频变异的准确性。不同于遗传病检测,肿瘤样本类型多样,测序方法和参数复杂,且缺乏对应各种场景的公共标准真集。 图片文中作者使用细胞系真集合成不同肿瘤纯度的真集数据,来评估不同的肿瘤变异检测流程。 在这里,作者将HG001和HG002 两个标准品原始reads按不同稀释比例(10%-60%)混合,合成了4套100x深度的模拟数据,经过比对,去重,重比对,BQSR等步骤后,用6款变异检测软件进行变异检测 作者首先使用每个软件检测新鲜冷冻样本FF的变异,作为比较的基准,然后检测FFPE样本的变异,并和FF的结果进行比较。 图片要想准确的鉴定MNV复杂变异,Haplotype的识别是第一步,这就要求变异检测软件必须进行局部组装(local denovo assembly),利用reads的信息拼接出不同的haplotype

    86410编辑于 2023-07-27
  • 课后补充----单细胞数据检测变异

    今日参考文献全是中国人,但是从单细胞测序数据中检测单核苷酸变异(snv)知识积累确定风险相关变异影响细胞过程的精确细胞背景将有助于更好地理解疾病风险的分子机制,并为治疗策略提供信息。 单细胞检测突变的缺点1、单细胞RNA测序(scRNA-seq) reads通常富集于特定的基因组区域,如基因的5′或3′端2、基因通常以细胞类型/状态特异性模式表达,因此在基因组区域之间具有高度可变性, 覆盖范围可能受到RNA谱中固有的等位基因失衡的影响4、sequencing reads tend to have many errors due to technological infidelity.结果1、检测 结果2、Benchmarking on germline SNV calling结果3、从单细胞数据中获取准确的突变数据结果4、单细胞测序推断体细胞SNV检测示例代码在GitHub - KChen-lab

    24420编辑于 2024-09-25
  • 来自专栏Sentieon

    Sentieon | RNA-seq 变异检测全流程详解

    在本次的流程搭建中,我们利用Sentieon最新开发的STAR加速模块,与其他可用加速模块一起,完成了全流程的RNA变异检测流程的搭建工作。 该输出为可选,因为Sentieon®变体呼叫器可使用校准前的BAM和重新校准表实时进行重新校准5.RNA变异检测此步骤识别您的数据相对于参考基因组显示变异的位点,并计算该位点上每个样本的基因型。 只需运行一条命令即可进行变异检测,并应用之前计算的BQSR。RNA变异检测可以使用Haplotyper算法或DNAscope算法。 VARIANT_VCF:变异检测输出文件的位置和文件名。系统将创建一个相应的索引文件。该工具将输出一个扩展名为.gz的压缩文件。 GC含量(~46.7%)与插入片段分布表现出高度的样本间一致性,唯一比对率稳定在90%左右,证明文库质量优异,完全符合差异表达或变异检测等高标准下游分析要求。

    12910编辑于 2026-02-06
  • 来自专栏小明的数据分析笔记本

    大肠杆菌全基因组重测序变异检测小实例(侧重变异过滤)

    reads_R1.fastq sim_3_reads_R2.fastq -N指定生成reads的条数 -1 -2生成reads的长度 接下来是参考序列 接下来是fastq文件的名字 使用samtools变异检测获取 vcf文件 这一部分参考文章 GATK4.0和全基因组数据分析实践(上) Variant calling tutorial 基本流程: bwa比对 samtools变异检测 完整代码 ###构建索引 bwa 这里遇到的问题:samtools加上bcftools检测变异的各个参数的含义还不太明白! 接下来重复原文内容 查看vcf文件中检测到多少没有经过过滤的变异 bcftools view -H sim_variants_3sample.vcf | wc -l 6918 通常获得的vcf文件都比较大 image.png 从上图可以看出我们的位点质量值是偏低的,因为数据量比较小,位点质量值30代表检测出来的变异有千分之一的可能是错误的,推荐过滤变异的时候设置位点质量值大于30。

    2K10发布于 2020-03-03
  • 来自专栏生信技能树

    RNA-seq 检测变异之 GATK 最佳实践流程

    RNA-seq 序列比对 对 RNA-seq 产出的数据进行变异检测分析,与常规重测序的主要区别就在序列比对这一步,因为 RNA-seq 的数据是来自转录本的,比对到参考基因组需要跨越转录剪切位点,所以 RNA-seq 进行变异检测的重点就在于跨剪切位点的精确序列比对。 使用 GATK 进行变异检测 感觉 GATK 里面的工具都很慢(相对于其他的软件特别慢!) 现在终于可以进行变异检测了,GATK 官网说 HC 表现比 UC 好,所以这里用 HC 进行变异检测: java -jar GenomeAnalysisTK.jar -T HaplotypeCaller /star_2pass/ERR188044_filtered.vcf 然后就拿到变异检测结果了,可以用 ANNOVAR 或 SnpEff 或 VEP 进行注释,根据自己的需要进行筛选了。

    3.4K60发布于 2018-03-08
  • 来自专栏生信菜鸟团

    群体遗传学习笔记:NGS结构变异检测原理

    结构变异检测原理 目前经典的结构变异检测方法包括: Read Pair,一般称为Pair-End Mapping,简称RP; Split Read,分裂read,简称SR; Read Depth,简称RD 其能够检测的结构变异类型包括: ? Read Depth方法 Read Depth方法,主要通过在指定区域内(根据滑动窗口)的序列read的横纵覆盖情况来检测变异是否存在的方法。该方法目前普遍被使用于基因组拷贝数变异检测(CNV)。 在最理想的情况下,基于三代测序的从头组装应该是基因组结构性变异检测上最有效的方法,它能够检测并且覆盖所有类型的结构性变异。 下表是不同结构变异检测所推荐使用的工具: ?

    2.6K00发布于 2020-06-02
  • 来自专栏生信修炼手册

    Control-Freec:检测拷贝数变异的神器

    Control-Freec 既可以检测拷贝数变异CNV,还可以分析杂合性缺失LOH。 官网如下 http://boevalab.com/FREEC/ 在检测拷贝数变异时,支持全基因组测序,全外显子测序,目标区域捕获测序等多种测序方案,对于全基因组数据,分析是不需要提供对照样本;对于全外显子测序和目标区域捕获测序

    2.6K30发布于 2020-05-11
  • Sentieon | 泛基因组相比传统变异检测的优势

    即便2022年T2T-CHM13实现了首个端粒到端粒(T2T)无缺口单倍体组装,它仍是单一单倍型,无法代表结构变异(SVs)的群体多样性。 泛基因组图谱能容纳SNV、Indel、CNV、倒位等各类变异,能覆盖节段重复序列(SDs)这一传统“盲区。 二、显著提升变异检出能力与准确性23年的一篇综述[1]明确指出,以泛基因组替代GRCh38作为比对参考后,变异检测性能获得飞跃式提升:小变异(SNV/Indel)检测错误率降低34%:因图结构可将 reads 每单倍型检出的结构变异数量增加104%:即翻倍!这意味着大量以往“不可见”的SVs(尤其是复杂SVs,如嵌套插入、倒位伴随缺失)被系统性揭示。 Sentieon软件介绍Sentieon为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型

    22310编辑于 2025-11-24
  • 来自专栏啄木鸟软件测试

    变异测试

    变异测试在1970年被一个学生DickLipton提出,首次发现和公之于众。变异测试最初是为了定位揭示测试单元的弱点。 2. 6个概念 在变异测试中需要关注以下六点 1)变异算子 1987年,针对Fortran 77语言定义了22个变异算子,而在下面我们介绍的Mutpy中定义了以下27个变异体。 3)高阶变异体 看下面代码 [A] z = x * y [B] z = x / y [C] z = x/y*2 [D] z =4x/y*2 B是A的一阶变异,C是B的一阶变异,D是A的高阶变异 4)可删除变异体 如果测试用例测试源代码和测试编译代码不一致,则这个测试用例可以删除 5)可存活变异体 如果测试用例测试源代码和测试编译代码不一致,则这个测试用例不可以删除 6)等价变异变异体与源代码语法不同,语义相同 在测试用例中x=2,y=2 ,测试结果为4 返回 True; 在变异x / y,测试结果为1 返回 False; 在变异x // y,测试结果为1 返回 False; 在变异x ** y,测试结果为2

    1.1K30编辑于 2022-05-22
  • 来自专栏简说基因

    WES变异检测流程上线:GATK最佳实践 & DeepVariant

    ATK 最佳实践 关键词:WES 胚系变异检测流程。 GATK 最佳实践,GRCh37,二代 Paired-End 数据(Illumina / BGI) DeepVariant 关键词:WES 胚系变异检测流程。

    19910编辑于 2025-04-09
  • 来自专栏InvQ的专栏

    变异测试

    什么是变异测试? 变异测试,英文Mutation Testing,是使用变异器 (切换数学运算符,更改返回类型,删除调用等)将代码修改为不同的变异(基于变异器创建新代码),并检查单元测试是否失败。 所以,变异测试的有效性可以衡量杀死了多少个突变。 变异测试是覆盖率的一个很好的补充。相比覆盖率,它能够使单元测试更加健壮。 执行变异测试 在执行变异测试前需要先执行单元测试,不然变异测试有可能找不到单元测试类。 找到对应模块下的pitest插件: ? 运行完成后,会自动生成变异测试报告,报告位置一般在对应模块的target/pit-reports目录下: 报告会详细列出每个包、每个类的覆盖率,变异通过率等。 ? 从上面很明显可以看到我的单元测试其实并没有写得完整,我们看看里面哪些变异详细报告: ? ? ? 如果我的单元测试加上边界测试: ? 再次执行,变异测试全覆盖了! ?

    2K20发布于 2021-03-04
  • 来自专栏智能生信

    使用弱监督深度学习进行准确的体细胞变异检测

    在这里,作者开发了 VarNet,这是一种端到端的深度学习方法,用于从对齐的肿瘤和匹配的正常 DNA 读数中识别体细胞变异。 VarNet 使用在 356 个肿瘤全基因组中注释的 460 万个高置信度体细胞变异的图像表示进行训练。 总体而言,作者的结果展示了可扩展的深度学习方法如何在体细胞变异调用中增强并可能取代人类工程特征和启发式过滤器。

    40710编辑于 2022-12-29
  • 来自专栏简说基因

    GATK最佳实践变异检测过程中的GVCF和VCF

    在GATK最佳实践检测变异过程当中,当我们在调用 HaplotypeCaller 时,可以选择输出 GVCF 文件,或者 VCF 文件,这两者有什么区别呢? 通常,GVCF经过FilterMutectCalls 相同的过滤条件过滤后,其结果与VCF的PASS的变异相同。 为什么要使用GVCF 为什么要使用GVCF文件而不是VCF文件呢? VCF文件的FORMAT内容详解 QUAL: 指的是caller正确地识别该变异位点的可能性,属于phred-scale quality score的一个应用。 所以,当有多样本时,官方建议使用HaplotypeCaller对单bam文件分别进行变异检测,生成GVCF文件之后在下一步对GVCF文件进行合并。

    2.7K11编辑于 2024-03-12
  • 来自专栏新智元

    谷歌开源DeepVariant,之前的经典检测基因变异法将被颠覆

    当一个read包含一个与参考碱基不同的碱基时,它可能表示一个变异(真实序列的差异),也可能是一个错误。 DeepVariant将识别变异(variant calling)任务,即基因组中的重构问题转化为适合谷歌现有技术和专业知识的图像分类问题。 ? 一个关键的问题是如何使用这些reads来确定在两条染色体上存在变异,还是仅存在一条染色体上,还是在两条染色体上都不存在变异。 有不止一种类型的变异,其中SNP和插入/缺失变异(insertion/deletion )是最常见的。 A:一对染色体上真正的SNP;B:一条染色体上的缺失;C:两条染色体上的缺失;D:由于错误引起的变异。用这种方式进行可视化时,很容易看出这些变异的差别。

    1.5K60发布于 2018-03-21
  • 来自专栏生信菜鸟团

    基因组研究和变异检测领域的重要工具—GATK初识

    GATK的主要功能包括针对单核苷酸多态性(SNPs)和小型插入删除(indels)的变异检测,质量控制,以及数据处理和分析。 GATK以其强大的变异发现管道而闻名,特别是在人类基因组研究中。 其流程通常包括几个步骤:原始数据的预处理,比对到参考基因组,变异检测,以及变异质量的校准和过滤。GATK还提供了一系列工具用于特定分析,如拷贝数变异(CNVs)分析和联合基因分型。 DePristo DOI:10.1002/0471250953.bi1110s43 简述:详细描述了GATK最佳实践工作流,为用户提供了一套标准的分析步骤,以确保高质量的变异检测 3如何安装 GATK是用 Quality Score Recalibration, VQSR) 硬过滤(Hard filtering)用于变异质量控制 变异注释: 注释变异的影响和功能 识别已知的变异位点 基因分型和样本相关分析 遗传连锁不平衡分析 结构变异检测 5资源准备 在使用GATK进行全外显子测序(Whole Exome Sequencing, WES)分析之前,通常进行一系列准备工作以确保分析的顺利进行和结果的准确性,

    1.9K10编辑于 2024-01-06
  • 提升基因变异检测准确性的GPU加速技术与pangenome方法

    使用DeepVariant和DeepSomatic 1.9改进变异检测变异检测是基因组分析的关键步骤。它能识别样本基因组(例如个体或群体)与参考基因组之间的差异。 除了GATK的行业标准工具外,基于深度学习的变异检测工具也已得到广泛应用。由某机构开发的DeepVariant和DeepSomatic使用深度学习来支持变异识别。 对于种系数据,DeepVariant确定遗传性变异。而DeepSomatic则显示了体细胞变异如何影响非遗传性突变,包括在肿瘤细胞中发现的突变。提高变异检测的准确性至关重要,尤其是在考虑遗传多样性时。 这可能会给后续分析带来偏差,例如读段比对和变异检测,可能会遗漏或错误解释与祖先或疾病相关的重要遗传差异。 Giraffe将基因组序列比对到参考pangenome,而不是传统的线性参考,从而提高了跨不同人群的变异检测准确性。

    17810编辑于 2025-12-25
领券