首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏生信喵实验柴

    GATK简介

    GATK 设计之初是用于分析人类的全外显子和全基因组数据,随着不断发展,现在也可以用于其他的物种,还支持 CNV 和 SV 变异信息的检测。 在官网上,提供了完整的分析流程,叫做 GATK Best Practices。 GATK 变异检测,从 fastq 到 vcf 目前最新版本文为 4.0.4.0, 叫做 GATK4。 和之前的版本相比,GATK4 在算法上进行了优化,运行速率有所提高,而且整合了 picard 软件的功能。GATK4 基于 java 语言开发的,需要 java1.8 版本。 下载链接如下 https://github.com/broadinstitute/gatk GATK4 的最佳实践给出了 5 套 pipeline 1、Germline SNPs + Indels

    1.6K30编辑于 2023-09-04
  • 来自专栏生信喵实验柴

    GATK变异检测

    >bqsr.log #应用模型 time gatk ApplyBQSR --bqsr-recal-file merge.sorted.markdup.recal_data.table -R /share .fasta -I merge.sorted.markdup.BQSR.bam -O merge.HC.g.vcf.gz #合并gvcf time gatk GenotypeGVCFs -R / share/home/xiehs/data/GATK/hg38/Homo_sapiens_assembly38.fasta -V merge.HC.g.vcf.gz -O merge.HC.vcf.gz 处理 InDel #处理InDel gatk VariantRecalibrator -R /share/home/xiehs/data/GATK/hg38/Homo_sapiens_assembly38 # 为SNP作硬过滤 time gatk VariantFiltration -V merge.HC.vcf.snp.gz --filter-expression "QD < 2.0 ||

    93510编辑于 2023-09-04
  • 来自专栏全栈程序员必看

    GATK流程_diskeeper怎么用

    一、使用GATK前须知事项: (1)对GATK的测试主要使用的是人类全基因组和外显子组的测序数据,而且全部是基于illumina数据格式,目前还没有提供其他格式文件(如Ion Torrent)或者实验设计 (2)GATK是一个应用于前沿科学研究的软件,不断在更新和修正,因此,在使用GATK进行变异检测时,最好是下载最新的版本,目前的版本是2.8.1(2014-02-25)。 (3)在GATK使用过程中(见下面图),有些步骤需要用到已知变异信息,对于这些已知变异,GATK只提供了人类的已知变异信息,可以在GATK的FTP站点下载(GATK resource bundle)。 二、GATK的使用流程 GATK最佳使用方案:共3大步骤。原始数据的处理—变异检测—初步分析。 第一大步:原始数据的处理 1. 这一步可以有两种方法,一种是通过GATK的VariantFiltration,另一种是通过GATK的VQSR(变异位点质量值重新校正)进行过滤。

    1.4K20编辑于 2022-11-01
  • 来自专栏生信菜鸟团

    如何下载GATK resource bundle

    根据GATK官网有关于Resource bundle的说明https://gatk.broadinstitute.org/hc/en-us/articles/360035890811-Resource-bundle ) 由于众所周知的原因Google Buckets的资源并不好下载,这里也不讨论这种下载方式,而根据官网的说明,FTP下载方式从2020年开始已经关闭了(实测现在的GATK resource bundle Azure中的GATK Resource Bundle资源地址 Azure的资源信息在GATK Resource Bundle(https://learn.microsoft.com/en-us/azure /open-datasets/dataset-gatk-resource-bundle)中, 重点关注的是各种Resource bundle的Data Access地址: datasetgatkbestpractices -04-08&si=prod&sr=c&sig=u%2Bg2Ab7WKZEGiAkwlj6nKiEeZ5wdoJb10Az7uUwis%2Fg%3D 可以看到共有5种资源可供下载,他们的具体解释参见GATK

    1.4K50编辑于 2023-08-23
  • 来自专栏Y大宽

    GATK4完整流程

    0定义变量 source activate wes #GATK=~/biosoft/gatk/gatk-4.1.2.0/gatk ref=/mnt/f/kelly/bioTree/server/wesproject hg38/Mills_and_1000G_gold_standard.indels.hg38.vcf.gz 1 标记PCR重复reads sample=SRR7696207 echo $sample gatk SRR7696207.bam ├── [5.0G] SRR7696207_marked.bam ├── [3.3K] SRR7696207.metrics 2 FixMateInformation gatk 接着进行index samtools index ${sample}_marked_fixed.bam 3 BaseRecalibrator 碱基矫正 gatk --java-options "-Xmx20G 加到了环境变量 就直接按下面走,否则 #gatk=~/biosoft/gatk/gatk-4.1.2.0/gatk #下面gatk改为$gatk #下面都设置为你自己的路径 ref=/mnt/f/kelly

    7K22发布于 2019-06-13
  • 来自专栏生信修炼手册

    GATK BQSR的意义与作用

    在测序的原始数据中,本身就提供了每个碱基对应的质量值,但是GATK官方认为测序仪提供的碱基质量值,是不准确的,存在误差的。 某个位点前后的碱基的种类,称之为上下文环境,会对这个碱基的质量值产生影响。 根据原始bam文件中的碱基质量值计算出系统误差的分布 命令如下 gatk BaseRecalibrator \ -R ${ref_fasta} \ -I ${input_bam} \ 综合多个样本的模型,生成一个总的模型 命令如下 gatk GatherBQSRReports \ -I ${sep=' -I ' input_bqsr_reports} \ -O ${output_report_filename 根据之前计算的模型对碱基质量进行校正 命令如下: gatk ApplyBQSR \ -R ${ref_fasta} \ -I ${input_bam} \ -O ${output_bam_basename

    4.6K30发布于 2020-05-10
  • 来自专栏生信技能树

    GATK4的gvcf流程

    得到了它们的bam文件,也是走的GATK流程,这里就不多说了。 本教程首发于生信技能树VIP论坛:https://vip.biotrainee.com/d/423-gatk4-gvcf 配置GATK运行环境 参考我前面在生信菜鸟团博客分享的: https://vip.biotrainee.com /d/384-gatk4 GATK=/home/jianmingzeng/biosoft/GATK/gatk-4.0.3.0/gatk bed=/home/jianmingzeng/annotation bundle/hg38/bwa_index/gatk_hg38 DBSNP=/home/jianmingzeng/biosoft/GATK/resources/bundle/hg38/dbsnp_146 生信技能树GATK4系列教程 你以为的可能不是你以为的 新鲜出炉的GATK4培训教材全套PPT,赶快下载学习吧 曾老湿最新私已:GATK4实战教程

    3.9K30发布于 2018-07-27
  • 来自专栏生信修炼手册

    GATK4基本概念整理

    在官网上,提供了完整的分析流程,叫做GATK Best Practices。 ? 目前最新版本文为4.0.4.0, 叫做GATK4。 和之前的版本相比,GATK4在算法上进行了优化,运行速率有所提高,而且整合了picard 软件的功能。GATK4基于java 语言开发的,需要java 1.8 版本。 /gatk/releases/download/4.0.4.0/gatk-4.0.4.0.zip unzip gatk-4.0.4.0.zip tree -L 1 gatk-4.0.4.0/ gatk- 实际使用时,直接用gatk这个可执行文件就行了。 通过一个简单的命令,查看程序是否正确安装 gatk —list 这个命令能够打印出所有的子命令,如果打印出来结果,说明程序安装正确。 总结 GATK4整合了picard软件,在算法上进行了优化,新增了许多新的功能。 官网给出了基于GATK4的pipeline, 以WDL这种workflow 流程管理语言编写。

    1.3K40发布于 2020-05-11
  • 来自专栏生信修炼手册

    GATK官方推荐的workflow语言-WDL

    GATK4的best practice中,不再像以前那样给出每个步骤对应的代码,而是直接给出了官方使用的pipeline。这些pipeline采用WDL进行编写。 command中对应的就是执行的命令,比如一条具体的gatk的命令,output 指定task的输出值。

    1.8K30发布于 2020-05-10
  • 来自专栏图形化开放式生信分析系统开发

    GATK RNA-Seq Snps Indel 分析

    这是GATK Best Practice系列学习文章中的一篇,本文尝试使用: Gatk RNA -Seq Germline spns-indels Pipeline 来分析鼻咽癌(NPT) 分析流程如下 GATK版本的是这样的 ? 数据 从NCBI上下载转录组数据,访问链接为: https://trace.ncbi.nlm.nih.gov/Traces/study/? /opt/ref/gatk-4.1.4.1/gatk 程序 envis.read_length 100 (测序读长) 数值 envis.threads 32 (并发线程数) 04-Mark duplicatate:使用了sambamba替换了gatk picard,重命名创建的索引与gatk命名一致。 ? mkdir -p ${result}/${sn} #使用Gatk IntervalListTools拆分interval,拆分数量为${envis.scatter} ${tools.gatk} IntervalListTools

    2K01发布于 2020-09-21
  • 来自专栏生信菜鸟团

    融合基因鉴定以及GATK寻找突变

    ,这里下载的版本为最新版本 4.1.4.1(截止时间 2019年 12月 31日),方法是: 先进入 gatk 的官网 https://software.broadinstitute.org/gatk/ /gatk --version Using GATK jar /home/data/t120455/gatk-4.3.0.0/gatk-package-4.3.0.0-local.jar Running /envs/lncRNA/bin/gatk (lncRNA) t120455 00:42:17 ~ $gatk --version Using GATK jar /home/data/t120455/ 相较于gatk已经整合了Picard工具包,所以这里我们直接用gatk4创建: gatk CreateSequenceDictionary -R Homo_sapiens.GRCh38.dna_sm.primary_assembly.fa 我可是从star比对开始就用的从ENSEMBL下载的参考基因组,其实理论上一开始就用的gatk提供的参考基因组,后续使用gatk做其他分析就不会出现这些情况 能不能手动修改从gatk下载的数据库vcf文件的

    3K50编辑于 2023-09-08
  • 来自专栏生信技能树

    GATK best practice每个步骤耗时如何?

    上次我们介绍了完整的 GATK best practice(请点击) 在我的基因组重测续数据分析流程,详细讲解了每个步骤的代码,输入输出文件,准备文件,以及耗时。 然后是GATK对bam文件的一些预处理,步骤是: RealignerTargetCreator --> IndelRealigner --> BaseRecalibrator --> PrintReads illumina RGPU=x10 RGSM=jmzengmv ${sample}_tmp.bam ${sample}.bamsamtools index ${sample}.bam 这个代码需要结合前面的GATK

    2.1K70发布于 2018-03-08
  • 来自专栏生信技能树

    GATK的FilterMutectCalls如何才能成功呢

    因为有粉丝求助,他学习前面我分享的GATK的Mutect2流程都快奔溃了,总是各种报错。 .fasta GATK=$HOME/biosoft/GATK/gatk-4.1.8.1/gatk GATK=$HOME/biosoft/GATK/gatk-4.0.3.0/gatk GATK=$HOME /biosoft/GATK/gatk-4.0.2.1/gatk ls $reference $GATK ls *_mutect2.vcf |while read id do sample=$(basename 但是,我记得我以前写这个软件教程的时候,明明没有出现问题啊,所以就去检查了我的脚本,发现居然是 gatk-4.0.2.1 版本。 .fasta GATK=$HOME/biosoft/GATK/gatk-4.0.2.1/gatk ls $reference $GATK ls *_mutect2.vcf |while read

    2.1K71发布于 2020-10-26
  • 来自专栏生信开发者

    variant calling还在用GATK?deepvariant又快又准

    为谷哥开源的基于机器学习的变异分析工具,今年年初有篇scientific report上的文献( https://www.nature.com/articles/s41598-022-05833-4 ),对GATK 最终得出的结论是:Compared to GATK, DeepVariant had a shorter execution time and higher accuracy for clinical 个人的直观感受就是deepvariant假阳性明显要比GATK少很多、假阴性比GATK也要少。 下面举两个例子: 下面是处在non-uniqueness mappability边缘的一个变异,GATK haplotypecaller没有call出来proband的变异(GATK出了假阴性),只call 另一个是位于参考基因组为n-polymer(polyA)附近的序列,GATK报了一个低VAF的indel,但deepvariant认为此处是refCall,不是变异 deepvariant最好采用docker

    1.7K10编辑于 2023-03-06
  • 来自专栏生信修炼手册

    GATK推荐的序列存储格式-uBAM

    GATK4中,数据预处理部分的示意图如下 ? 可以看到,对于原始数据,有两种格式,一种就是我们常见的FASTQ; 另外一种就是uBAM。官方更加推荐使用uBAM格式。

    1.7K20发布于 2020-05-10
  • 来自专栏生信技能树

    GATK4的CNV流程-hg38

    /home/jianmingzeng/biosoft/GATK/resources/bundle/hg38/bwa_index/gatk_hg38 GATK=/home/jianmingzeng/biosoft /GATK/gatk-4.0.2.1/gatk GATK=/home/jianmingzeng/biosoft/GATK/gatk-4.0.3.0/gatk DBSNP=/home/jianmingzeng /counts 接着合并所有的normal样本的数据创建 cnvponM.pon.hdf5 GATK=/home/jianmingzeng/biosoft/GATK/gatk-4.0.3.0/gatk =/home/jianmingzeng/biosoft/GATK/gatk-4.0.3.0/gatk for i in . GATK4培训教材全套PPT,赶快下载学习吧 曾老湿最新私已:GATK4实战教程 值得一提的是,对肿瘤外显子来分析CNV, 我测试过很多工具了,这个GATK的值得一试!

    5.8K61发布于 2018-07-27
  • 来自专栏生信技能树

    GATK4的mutect2流程

    首先看看GATK4的mutect2和GATK3的相比有哪些改动,图片来源:https://gatkforums.broadinstitute.org/gatk/discussion/10911/differences-between-gatk3 -mutect2-and-gatk4-mutect2 ? 往期GATK4教程目录: GATK4的gvcf流程 你以为的可能不是你以为的 新鲜出炉的GATK4培训教材全套PPT,赶快下载学习吧 曾老湿最新私已:GATK4实战教程 GATK4的CNV流程-hg38 .fasta GATK=/home/jianmingzeng/biosoft/GATK/gatk-4.0.3.0/gatk DBSNP=/home/jianmingzeng/biosoft/GATK/resources 提醒 GATK4目前主流分析选择的人不多,大部分公司或者科研院所仍然是以成熟版本的GATK4系列为流程!

    3.2K31发布于 2018-07-27
  • 来自专栏生信修炼手册

    GATK4最佳实践-数据预处理篇

    的代码,但是GATK4 给出的是用wdl这种workflow 语言编写的流程。 对于预处理部分,对应的链接如下: https://github.com/gatk-workflows/gatk4-data-processing 共给出了3套流程用于参考: ? 当然你也可以直接运行别人的写好的wdl文件,以下面的这个预处理流程为例 https://github.com/gatk-workflows/gatk4-data-processing 首先得到整个脚本所有的参数列表 :2.3.0-1501082129", "PreProcessingForVariantDiscovery_GATK4.gatk_docker": "broadinstitute/gatk:4.0.0.0 .picard_path": "/usr/gitc/", "PreProcessingForVariantDiscovery_GATK4.gatk_path": "/gatk/gatk", "##_

    2.3K40发布于 2020-05-11
  • 来自专栏生信技能树

    RNA-seq 检测变异之 GATK 最佳实践流程

    evaluation of spliced alignment programs for RNA-seq data 中对 RNA-seq 数据常用的 11 款比对软件进行了详细测试,包括 STAR 2-pass,而 GATK /star_2pass/ERR188044 由于后面要用 GATK 进行 call 变异,还需要对比对结果 SAM 文件进行一些处理,这些都可以用 picard 来做,包括 SAM 头文件添加 @RG 使用 GATK 进行变异检测 感觉 GATK 里面的工具都很慢(相对于其他的软件特别慢!) MAPQ 同步和 reads 剪切,使用 GATK 专为 RNA-seq 应用开发的工具 SplitNCigarReads 进行操作,它会将落在内含子区间的 reads 片段直接切除,并对 MAPQ DNA 测序的重测序应用中也有序列比对软件的 MAPQ 与 GATK 无法直接对接的情况,需要进行调整。

    3.4K60发布于 2018-03-08
  • 来自专栏Y大宽

    2 下载GATK需要的参考基因组文件

    参考基因组及必备的数据库 参考基因组下载 我是从服务器上下载下来放本地电脑了 下载方式1: 直接去gatk官网下载,下载链接为ftp://ftp.broadinstitute.org/bundle/ ├── [2.0M] 1000G_phase1.snps.high_confidence.hg38.vcf.gz.tbi ├── [4.0K] bwa_index │ ├── [ 20K] gatk_hg38 .amb │ ├── [445K] gatk_hg38.ann │ ├── [3.0G] gatk_hg38.bwt │ ├── [767M] gatk_hg38.pac │ ├─ ─ [1.5G] gatk_hg38.sa │ ├── [6.2K] hg38.bwa_index.log │ ├── [ 0] index.129248.err │ ├── [

    4.3K20发布于 2019-06-04
领券