文章/答案/技术大牛

发布

社区首页 >问答首页 >GRCh37 WGS上的谷歌DeepVariant流水线，exome模型未完成

问GRCh37 WGS上的谷歌DeepVariant流水线，exome模型未完成
EN

Stack Overflow用户

提问于 2019-06-28 11:33:32

回答 1查看 66关注 0票数 0

我有一个HG19对齐的BAM，我希望为它生成一个DeepVariant VCF。我使用samtools来提取报头，并确保hg19引用的FASTA索引包含相同的重叠群和位置。我最初的目标是使用以下模型和区域在此WGS BAM上仅运行一个exome模型：

MODEL=gs://deepvariant/models/DeepVariant/0.7.2/DeepVariant-inception_v3-0.7.2+data-wes_standard

--regions gs://deepvariant/exome-case-study-testdata/refseq.coding_exons.b37.extended50.bed

不幸的是，脚本抗议说在BED和BAM / FASTA引用之间有0个匹配。我决定运行相同的exome模型，但没有指定区域。下面是我的脚本：

#!/bin/bash
set -euo pipefail
# Set common settings.
PROJECT_ID=<MY PROJECT>
OUTPUT_BUCKET=gs://<MY BUCKET>
STAGING_FOLDER_NAME=staging
OUTPUT_FILE_NAME=output.vcf
# Model for calling whole genome sequencing data.
MODEL=gs://deepvariant/models/DeepVariant/0.7.2/DeepVariant-inception_v3-0.7.2+data-wes_standard
IMAGE_VERSION=0.7.2
DOCKER_IMAGE=gcr.io/deepvariant-docker/deepvariant:"${IMAGE_VERSION}"
COMMAND="/opt/deepvariant_runner/bin/gcp_deepvariant_runner \
  --project ${PROJECT_ID} \
  --zones us-west1-* \
  --docker_image ${DOCKER_IMAGE} \
  --outfile ${OUTPUT_BUCKET}/${OUTPUT_FILE_NAME} \
  --staging ${OUTPUT_BUCKET}/${STAGING_FOLDER_NAME} \
  --model ${MODEL} \
  --bam gs://my-bucket/wgs_data.bam \
  --ref gs://my-bucket/human_g1k_v37.fa \
  --shards 512 \
  --make_examples_workers 32 \
  --make_examples_cores_per_worker 16 \
  --make_examples_ram_per_worker_gb 60 \
  --make_examples_disk_per_worker_gb 200 \
  --call_variants_workers 32 \
  --call_variants_cores_per_worker 32 \
  --call_variants_ram_per_worker_gb 60 \
  --call_variants_disk_per_worker_gb 50 \
  --gcsfuse"
# Run the pipeline.
gcloud alpha genomics pipelines run \
    --project "${PROJECT_ID}" \
    --service-account-scopes="https://www.googleapis.com/auth/cloud-platform" \
    --logging "${OUTPUT_BUCKET}/${STAGING_FOLDER_NAME}/runner_logs_$(date +%Y%m%d_%H%M%S).log" \
    --regions us-west1 \
    --docker-image gcr.io/cloud-genomics-pipelines/gcp-deepvariant-runner \
    --command-line "${COMMAND}"

BAM具有对应的BAI，FA具有FAI文件。DeepVariant QuickStart指示这些设置将在1-2小时内产生VCF，但我的流水线已经运行了超过7个小时。临时文件夹现在有一个call_variants，其中似乎是32个GZ文件中的31个。基因组学管道视图显示了11个运行call_variant的管道，所以我怀疑它正在处理最后一个文件，准备将所有文件合并到一个VCF中。

我就是不明白为什么花了这么长时间。我故意排除了抢占式实例，文档中说exome管道应该只需要20分钟( WGS需要1-2个小时)。为什么这可能会这么慢？

vcf-variant-call-format

google-genomics

google-cloud-platform

回答 1

Stack Overflow用户

发布于 2019-06-28 23:55:49

您看到的运行时肯定比DeepVariant预期的要慢。

开始时的一项观察-外显子捕获床(refseq.coding_exons.b37.extended50.bed)和参照(human_g1k_v37.fa)的坐标应该匹配。你知道你的BAM被映射到哪个参考基因组上吗？为了确认一下，在你的FASTA文件中，第一行应该是：>1，没有"chr“。

使用地域文件时，预期时间应小于1小时。

其次，我可以请您尝试在一台机器上运行exome案例研究，按照本页中的说明进行操作：

https://github.com/google/deepvariant/blob/r0.8/docs/deepvariant-exome-case-study.md

运行此命令将有助于确定您所看到的问题是否与DeepVariant本身有关，或者是否与独立于程序的GCP云实现有关。

谢谢你，安德鲁

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56800586

复制

相似问题

问GRCh37 WGS上的谷歌DeepVariant流水线，exome模型未完成
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问GRCh37 WGS上的谷歌DeepVariant流水线，exome模型未完成EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问GRCh37 WGS上的谷歌DeepVariant流水线，exome模型未完成
EN