首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏生信喵实验柴

    GATK变异检测

    merge.markdup_metrics.txt -O merge.sorted.markdup.bam samtools index merge.sorted.markdup.bam Duplication 对变异检测的影响 samtools flagstat merge.sorted.markdup.BQSR.bam #建立索引 time samtools index merge.sorted.markdup.BQSR.bam 五、变异检测 hg38/Homo_sapiens_assembly38.fasta -V merge.HC.g.vcf.gz -O merge.HC.vcf.gz 六、结果过滤 6.1 VQSR 准备的已知变异集作为训练集 3、1000G 千人基因组计划(1000 genomes project)质控后的变异数据,质控后,它包含的绝大部分都是真实的变异,但由于没办法做全面的实验验证,并不能排除含有少部分假阳性的结果。 dbSNP 收集的数据,实际都是研究者们发表了相关文章提交上来的变异,这些变异很多是没做过严格验证的。

    91810编辑于 2023-09-04
  • 来自专栏生信修炼手册

    breakdancer检测结构变异

    breakdancer 是一款结构变异检测软件, 专门针对双端测序数据进行开发,github地址如下 https://github.com/genome/breakdancer 分析原理图如下 ? 从原理图可以看出,breakdancer 会根据双端reads的比对情况,检测以下5种类型的结构变异 insertions deletions inversions inter-chromosomal 鉴定结构变异 用法如下 breakdancer_max -t -q 10 -d sv.reads config.txt > sv.out 结构变异检测计算量较大,所以需要的时间也很久。 每一列的含义如下 Chromosome 1 Position 1 Orientation 1 Chromosome 2 Position 2 Orientation 2 Type of a SV Size ,DEL代表缺失,INS代表插入,INV代表倒位,ITX代表同一染色体上的易位,CTX代表不同染色体之间的易位;第8列代表结构变异的长度,对于染色体间的易位,这个数值没有含义;第9列代表该结构变异可信度的打分值

    1.5K20发布于 2020-05-11
  • 来自专栏简说基因

    DeepVariant:引领变异检测新时代

    生物信息学数据分析过程中,变异检测一直是一个备受瞩目的领域。随着基因测序技术的飞速发展,如何从海量的测序数据中准确、高效地检测变异成为了研究者们亟待解决的问题。 在这样的背景下,DeepVariant——一款基于深度学习的变异检测软件应运而生,为变异检测领域带来了新的曙光。 一、变异检测软件的现状与不足 在DeepVariant出现之前,GATK等传统变异检测软件一直是市场的主力军。 通过借鉴这些成功经验,谷歌的研究者们将深度学习技术引入到变异检测领域,成功开发出DeepVariant这款全新的变异检测软件。 它充分利用了深度学习技术的优势,能够自动从复杂的基因组数据中学习和识别出变异位点,大大提高了变异检测的准确性和效率。

    51410编辑于 2024-07-09
  • 来自专栏简说基因

    基准测试:DeepVariant进行WES变异检测

    本文以人 WES 测序数据为例,演示 DeepVariant 软件进行变异检测的基准测试过程。 工具地址: usegalaxy.cn 网站,搜索工具:DeepVariant 数据下载 瓶中基因组基准数据 我们将使用瓶中基因组小变异基准数据集 v4.2.1 对 HG003 样本进行基准测试。

    45910编辑于 2025-04-02
  • 来自专栏Sentieon

    Sentieon实战:NGS肿瘤变异检测流程

    肿瘤基因突变检测是NGS的一个重要应用,其分析难点主要在于低频变异的准确性。不同于遗传病检测,肿瘤样本类型多样,测序方法和参数复杂,且缺乏对应各种场景的公共标准真集。 在这里,作者将HG001和HG002 两个标准品原始reads按不同稀释比例(10%-60%)混合,合成了4套100x深度的模拟数据,经过比对,去重,重比对,BQSR等步骤后,用6款变异检测软件进行变异检测 在区分度较大的5%变异丰度数据集中,我们可以看到, TNscope和Mutect2 (和TNhaplotyper2结果一致) 在SNP和Indel检测上都大幅度领先其他软件,尤其是TNscope能够在基本杜绝假阳性的基础上达到较高的灵敏度 进入GATK4时代以来,Mutect2进入了技术尝试期,在子版本更新中,频繁更新算法,大量引入新参数,相邻子版本的变异检测结果差异有时会高达50%。 作者首先使用每个软件检测新鲜冷冻样本FF的变异,作为比较的基准,然后检测FFPE样本的变异,并和FF的结果进行比较。

    88310编辑于 2023-07-27
  • 课后补充----单细胞数据检测变异

    今日参考文献全是中国人,但是从单细胞测序数据中检测单核苷酸变异(snv)知识积累确定风险相关变异影响细胞过程的精确细胞背景将有助于更好地理解疾病风险的分子机制,并为治疗策略提供信息。 单细胞检测突变的缺点1、单细胞RNA测序(scRNA-seq) reads通常富集于特定的基因组区域,如基因的5′或3′端2、基因通常以细胞类型/状态特异性模式表达,因此在基因组区域之间具有高度可变性, 覆盖范围可能受到RNA谱中固有的等位基因失衡的影响4、sequencing reads tend to have many errors due to technological infidelity.结果1、检测 结果2、Benchmarking on germline SNV calling结果3、从单细胞数据中获取准确的突变数据结果4、单细胞测序推断体细胞SNV检测示例代码在GitHub - KChen-lab

    24620编辑于 2024-09-25
  • 来自专栏Sentieon

    Sentieon | RNA-seq 变异检测全流程详解

    在本次的流程搭建中,我们利用Sentieon最新开发的STAR加速模块,与其他可用加速模块一起,完成了全流程的RNA变异检测流程的搭建工作。 该输出为可选,因为Sentieon®变体呼叫器可使用校准前的BAM和重新校准表实时进行重新校准5.RNA变异检测此步骤识别您的数据相对于参考基因组显示变异的位点,并计算该位点上每个样本的基因型。 只需运行一条命令即可进行变异检测,并应用之前计算的BQSR。RNA变异检测可以使用Haplotyper算法或DNAscope算法。 VARIANT_VCF:变异检测输出文件的位置和文件名。系统将创建一个相应的索引文件。该工具将输出一个扩展名为.gz的压缩文件。 GC含量(~46.7%)与插入片段分布表现出高度的样本间一致性,唯一比对率稳定在90%左右,证明文库质量优异,完全符合差异表达或变异检测等高标准下游分析要求。

    13610编辑于 2026-02-06
  • 来自专栏小明的数据分析笔记本

    minimap2+svim-asm+SURVIVOR流程基于基因组组装做结构变异检测

    前面的步骤是基于组装好的基因组进行比对检测结构变异。我们把这部分代码拆出来学习一下。 使用拟南芥的数据集做测试 minimap2比对 minimap2 -ax asm5 --cs -r2k -t 16 ../Cvi.chr.all.v2.0.fasta .. /Kyo.chr.all.v2.0.fasta | samtools sort -@ 8 -O BAM -o Kyo.sorted.bam minimap2 -ax asm5 --cs -r2k -t /Ler.chr.all.v2.0.fasta | samtools sort -@ 8 -O BAM -o Ler.sorted.bam minimap2 -ax asm5 --cs -r2k -t Sha.sorted.bam samtools index Kyo.sorted.bam samtools index Ler.sorted.bam samtools index Sha.sorted.bam 检测结构变异

    67910编辑于 2024-06-07
  • 来自专栏小明的数据分析笔记本

    大肠杆菌全基因组重测序变异检测小实例(侧重变异过滤)

    接下来是参考序列 接下来是fastq文件的名字 使用samtools变异检测获取vcf文件 这一部分参考文章 GATK4.0和全基因组数据分析实践(上) Variant calling tutorial 基本流程: bwa比对 samtools变异检测 完整代码 ###构建索引 bwa index Reference_genome/ecoli.fa bwa mem -t 4 -R '@RG\tID:foo aligned.sorted.bam samtools index sim_3_aligned.sorted.bam #变异检测 time samtools mpileup -g -t DP,AD - 这里遇到的问题:samtools加上bcftools检测变异的各个参数的含义还不太明白! image.png 从上图可以看出我们的位点质量值是偏低的,因为数据量比较小,位点质量值30代表检测出来的变异有千分之一的可能是错误的,推荐过滤变异的时候设置位点质量值大于30。

    2.1K10发布于 2020-03-03
  • 来自专栏生信技能树

    RNA-seq 检测变异之 GATK 最佳实践流程

    RNA-seq 进行变异检测的重点就在于跨剪切位点的精确序列比对。 pass,而 GATK 对 RNA-seq 数据变异检测的最佳实践流程中选用了 STAR 2-pass 这一方法进行比对,STAR 发表的文章至今已被引用 1900 余次,这款软件的比对速度很快,也是 /star_2pass/ERR188044_dedup.metrics 到此序列比对就完成了。 使用 GATK 进行变异检测 感觉 GATK 里面的工具都很慢(相对于其他的软件特别慢!) 现在终于可以进行变异检测了,GATK 官网说 HC 表现比 UC 好,所以这里用 HC 进行变异检测: java -jar GenomeAnalysisTK.jar -T HaplotypeCaller /star_2pass/ERR188044_filtered.vcf 然后就拿到变异检测结果了,可以用 ANNOVAR 或 SnpEff 或 VEP 进行注释,根据自己的需要进行筛选了。

    3.4K60发布于 2018-03-08
  • 来自专栏生信菜鸟团

    群体遗传学习笔记:NGS结构变异检测原理

    (我想不出我还能比他解析得更好): 如果插入片段长度有异常,它实际上包含的意思是,组成read1和read2的这个序列片段和参考基因组相比存在着序列上的变异。 RP除了可以利用异常插入片段长度的信息进行线性变异(特指Deletion和Insertion)的发现之外,通过比对read1和read2之间的序列位置关系,还能够发现更多非线性的序列变异。 比如,序列倒置(Inversion),因为,按照PE的测序原理,read1和read2与参考基因组相比对,正好是一正一负,要么是read1比上正链,read2比上负链,要么是反过来,而且read1和read2 Pindel,Delly,lumpy和SVseq2都是使用SR方法检测结构变异的经典工具。 在最理想的情况下,基于三代测序的从头组装应该是基因组结构性变异检测上最有效的方法,它能够检测并且覆盖所有类型的结构性变异

    2.7K00发布于 2020-06-02
  • 来自专栏生信修炼手册

    Control-Freec:检测拷贝数变异的神器

    Control-Freec 既可以检测拷贝数变异CNV,还可以分析杂合性缺失LOH。 官网如下 http://boevalab.com/FREEC/ 在检测拷贝数变异时,支持全基因组测序,全外显子测序,目标区域捕获测序等多种测序方案,对于全基因组数据,分析是不需要提供对照样本;对于全外显子测序和目标区域捕获测序 = path/hg19/ GCcontentProfile = GC_profile_50kb.cnp chrLenFile指定参考物种染色体长度的文件,示例如下 1 chr1 247249719 2 chr2 242951149 3 chr3 199501827 共三列,第一列为编号,第二列为染色体名字,第四列为染色体长度。 ploidy指定参考物种染色体组的个数,通常我们都是分析人的CNV,人是二倍体生物,这个参数的值就是2

    2.6K30发布于 2020-05-11
  • Sentieon | 泛基因组相比传统变异检测的优势

    即便2022年T2T-CHM13实现了首个端粒到端粒(T2T)无缺口单倍体组装,它仍是单一单倍型,无法代表结构变异(SVs)的群体多样性。 泛基因组图谱能容纳SNV、Indel、CNV、倒位等各类变异,能覆盖节段重复序列(SDs)这一传统“盲区。 二、显著提升变异检出能力与准确性23年的一篇综述[1]明确指出,以泛基因组替代GRCh38作为比对参考后,变异检测性能获得飞跃式提升:小变异(SNV/Indel)检测错误率降低34%:因图结构可将 reads 2.   Sentieon软件介绍Sentieon为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型

    23010编辑于 2025-11-24
  • 来自专栏简说基因

    WES变异检测流程上线:GATK最佳实践 & DeepVariant

    ATK 最佳实践 关键词:WES 胚系变异检测流程。 GATK 最佳实践,GRCh37,二代 Paired-End 数据(Illumina / BGI) DeepVariant 关键词:WES 胚系变异检测流程。

    20610编辑于 2025-04-09
  • 来自专栏啄木鸟软件测试

    变异测试

    变异测试在1970年被一个学生DickLipton提出,首次发现和公之于众。变异测试最初是为了定位揭示测试单元的弱点。 2. 6个概念 在变异测试中需要关注以下六点 1)变异算子 1987年,针对Fortran 77语言定义了22个变异算子,而在下面我们介绍的Mutpy中定义了以下27个变异体。 一阶变异体 3)高阶变异体 看下面代码 [A] z = x * y [B] z = x / y [C] z = x/y*2 [D] z =4x/y*2 B是A的一阶变异,C是B的一阶变异,D是A的高阶变异 在测试用例中x=2,y=2 ,测试结果为4 返回 True; 在变异x / y,测试结果为1 返回 False; 在变异x // y,测试结果为1 返回 False; 在变异x ** y,测试结果为2 所以当x=2,y=2变异x ** y是与源代码等价的。我们修改一下测试代码。

    1.1K30编辑于 2022-05-22
  • 来自专栏InvQ的专栏

    变异测试

    什么是变异测试? 变异测试,英文Mutation Testing,是使用变异器 (切换数学运算符,更改返回类型,删除调用等)将代码修改为不同的变异(基于变异器创建新代码),并检查单元测试是否失败。 所以,变异测试的有效性可以衡量杀死了多少个突变。 变异测试是覆盖率的一个很好的补充。相比覆盖率,它能够使单元测试更加健壮。 执行变异测试 在执行变异测试前需要先执行单元测试,不然变异测试有可能找不到单元测试类。 找到对应模块下的pitest插件: ? 运行完成后,会自动生成变异测试报告,报告位置一般在对应模块的target/pit-reports目录下: 报告会详细列出每个包、每个类的覆盖率,变异通过率等。 ? 从上面很明显可以看到我的单元测试其实并没有写得完整,我们看看里面哪些变异详细报告: ? ? ? 如果我的单元测试加上边界测试: ? 再次执行,变异测试全覆盖了! ?

    2K20发布于 2021-03-04
  • 来自专栏智能生信

    使用弱监督深度学习进行准确的体细胞变异检测

    在这里,作者开发了 VarNet,这是一种端到端的深度学习方法,用于从对齐的肿瘤和匹配的正常 DNA 读数中识别体细胞变异。 VarNet 使用在 356 个肿瘤全基因组中注释的 460 万个高置信度体细胞变异的图像表示进行训练。 总体而言,作者的结果展示了可扩展的深度学习方法如何在体细胞变异调用中增强并可能取代人类工程特征和启发式过滤器。

    40910编辑于 2022-12-29
  • 来自专栏简说基因

    GATK最佳实践变异检测过程中的GVCF和VCF

    在GATK最佳实践检测变异过程当中,当我们在调用 HaplotypeCaller 时,可以选择输出 GVCF 文件,或者 VCF 文件,这两者有什么区别呢? 通常,GVCF经过FilterMutectCalls 相同的过滤条件过滤后,其结果与VCF的PASS的变异相同。 为什么要使用GVCF 为什么要使用GVCF文件而不是VCF文件呢? VCF文件的FORMAT内容详解 QUAL: 指的是caller正确地识别该变异位点的可能性,属于phred-scale quality score的一个应用。 所以,当有多样本时,官方建议使用HaplotypeCaller对单bam文件分别进行变异检测,生成GVCF文件之后在下一步对GVCF文件进行合并。

    2.7K11编辑于 2024-03-12
  • 来自专栏新智元

    谷歌开源DeepVariant,之前的经典检测基因变异法将被颠覆

    当一个read包含一个与参考碱基不同的碱基时,它可能表示一个变异(真实序列的差异),也可能是一个错误。 DeepVariant将识别变异(variant calling)任务,即基因组中的重构问题转化为适合谷歌现有技术和专业知识的图像分类问题。 ? 一个关键的问题是如何使用这些reads来确定在两条染色体上存在变异,还是仅存在一条染色体上,还是在两条染色体上都不存在变异。 有不止一种类型的变异,其中SNP和插入/缺失变异(insertion/deletion )是最常见的。 A:一对染色体上真正的SNP;B:一条染色体上的缺失;C:两条染色体上的缺失;D:由于错误引起的变异。用这种方式进行可视化时,很容易看出这些变异的差别。

    1.5K60发布于 2018-03-21
  • 来自专栏生信菜鸟团

    基因组研究和变异检测领域的重要工具—GATK初识

    GATK的主要功能包括针对单核苷酸多态性(SNPs)和小型插入删除(indels)的变异检测,质量控制,以及数据处理和分析。 GATK以其强大的变异发现管道而闻名,特别是在人类基因组研究中。 其流程通常包括几个步骤:原始数据的预处理,比对到参考基因组,变异检测,以及变异质量的校准和过滤。GATK还提供了一系列工具用于特定分析,如拷贝数变异(CNVs)分析和联合基因分型。 2发表文章 题目:The Genome Analysis Toolkit: A MapReduce framework for analyzing next-generation DNA sequencing DePristo DOI:10.1002/0471250953.bi1110s43 简述:详细描述了GATK最佳实践工作流,为用户提供了一套标准的分析步骤,以确保高质量的变异检测 3如何安装 GATK是用 遗传连锁不平衡分析 结构变异检测 5资源准备 在使用GATK进行全外显子测序(Whole Exome Sequencing, WES)分析之前,通常进行一系列准备工作以确保分析的顺利进行和结果的准确性,

    1.9K10编辑于 2024-01-06
领券