首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >GRCh37 WGS上的谷歌DeepVariant流水线,exome模型未完成

GRCh37 WGS上的谷歌DeepVariant流水线,exome模型未完成
EN

Stack Overflow用户
提问于 2019-06-28 11:33:32
回答 1查看 66关注 0票数 0

我有一个HG19对齐的BAM,我希望为它生成一个DeepVariant VCF。我使用samtools来提取报头,并确保hg19引用的FASTA索引包含相同的重叠群和位置。我最初的目标是使用以下模型和区域在此WGS BAM上仅运行一个exome模型:

MODEL=gs://deepvariant/models/DeepVariant/0.7.2/DeepVariant-inception_v3-0.7.2+data-wes_standard

--regions gs://deepvariant/exome-case-study-testdata/refseq.coding_exons.b37.extended50.bed

不幸的是,脚本抗议说在BED和BAM / FASTA引用之间有0个匹配。我决定运行相同的exome模型,但没有指定区域。下面是我的脚本:

代码语言:javascript
复制
#!/bin/bash
set -euo pipefail
# Set common settings.
PROJECT_ID=<MY PROJECT>
OUTPUT_BUCKET=gs://<MY BUCKET>
STAGING_FOLDER_NAME=staging
OUTPUT_FILE_NAME=output.vcf
# Model for calling whole genome sequencing data.
MODEL=gs://deepvariant/models/DeepVariant/0.7.2/DeepVariant-inception_v3-0.7.2+data-wes_standard
IMAGE_VERSION=0.7.2
DOCKER_IMAGE=gcr.io/deepvariant-docker/deepvariant:"${IMAGE_VERSION}"
COMMAND="/opt/deepvariant_runner/bin/gcp_deepvariant_runner \
  --project ${PROJECT_ID} \
  --zones us-west1-* \
  --docker_image ${DOCKER_IMAGE} \
  --outfile ${OUTPUT_BUCKET}/${OUTPUT_FILE_NAME} \
  --staging ${OUTPUT_BUCKET}/${STAGING_FOLDER_NAME} \
  --model ${MODEL} \
  --bam gs://my-bucket/wgs_data.bam \
  --ref gs://my-bucket/human_g1k_v37.fa \
  --shards 512 \
  --make_examples_workers 32 \
  --make_examples_cores_per_worker 16 \
  --make_examples_ram_per_worker_gb 60 \
  --make_examples_disk_per_worker_gb 200 \
  --call_variants_workers 32 \
  --call_variants_cores_per_worker 32 \
  --call_variants_ram_per_worker_gb 60 \
  --call_variants_disk_per_worker_gb 50 \
  --gcsfuse"
# Run the pipeline.
gcloud alpha genomics pipelines run \
    --project "${PROJECT_ID}" \
    --service-account-scopes="https://www.googleapis.com/auth/cloud-platform" \
    --logging "${OUTPUT_BUCKET}/${STAGING_FOLDER_NAME}/runner_logs_$(date +%Y%m%d_%H%M%S).log" \
    --regions us-west1 \
    --docker-image gcr.io/cloud-genomics-pipelines/gcp-deepvariant-runner \
    --command-line "${COMMAND}"

BAM具有对应的BAI,FA具有FAI文件。DeepVariant QuickStart指示这些设置将在1-2小时内产生VCF,但我的流水线已经运行了超过7个小时。临时文件夹现在有一个call_variants,其中似乎是32个GZ文件中的31个。基因组学管道视图显示了11个运行call_variant的管道,所以我怀疑它正在处理最后一个文件,准备将所有文件合并到一个VCF中。

我就是不明白为什么花了这么长时间。我故意排除了抢占式实例,文档中说exome管道应该只需要20分钟( WGS需要1-2个小时)。为什么这可能会这么慢?

EN

回答 1

Stack Overflow用户

发布于 2019-06-28 23:55:49

您看到的运行时肯定比DeepVariant预期的要慢。

开始时的一项观察-外显子捕获床(refseq.coding_exons.b37.extended50.bed)和参照(human_g1k_v37.fa)的坐标应该匹配。你知道你的BAM被映射到哪个参考基因组上吗?为了确认一下,在你的FASTA文件中,第一行应该是:>1,没有"chr“。

使用地域文件时,预期时间应小于1小时。

其次,我可以请您尝试在一台机器上运行exome案例研究,按照本页中的说明进行操作:

https://github.com/google/deepvariant/blob/r0.8/docs/deepvariant-exome-case-study.md

运行此命令将有助于确定您所看到的问题是否与DeepVariant本身有关,或者是否与独立于程序的GCP云实现有关。

谢谢你,安德鲁

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56800586

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档