我有一个HG19对齐的BAM,我希望为它生成一个DeepVariant VCF。我使用samtools来提取报头,并确保hg19引用的FASTA索引包含相同的重叠群和位置。我最初的目标是使用以下模型和区域在此WGS BAM上仅运行一个exome模型:
MODEL=gs://deepvariant/models/DeepVariant/0.7.2/DeepVariant-inception_v3-0.7.2+data-wes_standard
--regions gs://deepvariant/exome-case-study-testdata/refseq.coding_exons.b37.extended50.bed
不幸的是,脚本抗议说在BED和BAM / FASTA引用之间有0个匹配。我决定运行相同的exome模型,但没有指定区域。下面是我的脚本:
#!/bin/bash
set -euo pipefail
# Set common settings.
PROJECT_ID=<MY PROJECT>
OUTPUT_BUCKET=gs://<MY BUCKET>
STAGING_FOLDER_NAME=staging
OUTPUT_FILE_NAME=output.vcf
# Model for calling whole genome sequencing data.
MODEL=gs://deepvariant/models/DeepVariant/0.7.2/DeepVariant-inception_v3-0.7.2+data-wes_standard
IMAGE_VERSION=0.7.2
DOCKER_IMAGE=gcr.io/deepvariant-docker/deepvariant:"${IMAGE_VERSION}"
COMMAND="/opt/deepvariant_runner/bin/gcp_deepvariant_runner \
--project ${PROJECT_ID} \
--zones us-west1-* \
--docker_image ${DOCKER_IMAGE} \
--outfile ${OUTPUT_BUCKET}/${OUTPUT_FILE_NAME} \
--staging ${OUTPUT_BUCKET}/${STAGING_FOLDER_NAME} \
--model ${MODEL} \
--bam gs://my-bucket/wgs_data.bam \
--ref gs://my-bucket/human_g1k_v37.fa \
--shards 512 \
--make_examples_workers 32 \
--make_examples_cores_per_worker 16 \
--make_examples_ram_per_worker_gb 60 \
--make_examples_disk_per_worker_gb 200 \
--call_variants_workers 32 \
--call_variants_cores_per_worker 32 \
--call_variants_ram_per_worker_gb 60 \
--call_variants_disk_per_worker_gb 50 \
--gcsfuse"
# Run the pipeline.
gcloud alpha genomics pipelines run \
--project "${PROJECT_ID}" \
--service-account-scopes="https://www.googleapis.com/auth/cloud-platform" \
--logging "${OUTPUT_BUCKET}/${STAGING_FOLDER_NAME}/runner_logs_$(date +%Y%m%d_%H%M%S).log" \
--regions us-west1 \
--docker-image gcr.io/cloud-genomics-pipelines/gcp-deepvariant-runner \
--command-line "${COMMAND}"BAM具有对应的BAI,FA具有FAI文件。DeepVariant QuickStart指示这些设置将在1-2小时内产生VCF,但我的流水线已经运行了超过7个小时。临时文件夹现在有一个call_variants,其中似乎是32个GZ文件中的31个。基因组学管道视图显示了11个运行call_variant的管道,所以我怀疑它正在处理最后一个文件,准备将所有文件合并到一个VCF中。
我就是不明白为什么花了这么长时间。我故意排除了抢占式实例,文档中说exome管道应该只需要20分钟( WGS需要1-2个小时)。为什么这可能会这么慢?
发布于 2019-06-28 23:55:49
您看到的运行时肯定比DeepVariant预期的要慢。
开始时的一项观察-外显子捕获床(refseq.coding_exons.b37.extended50.bed)和参照(human_g1k_v37.fa)的坐标应该匹配。你知道你的BAM被映射到哪个参考基因组上吗?为了确认一下,在你的FASTA文件中,第一行应该是:>1,没有"chr“。
使用地域文件时,预期时间应小于1小时。
其次,我可以请您尝试在一台机器上运行exome案例研究,按照本页中的说明进行操作:
https://github.com/google/deepvariant/blob/r0.8/docs/deepvariant-exome-case-study.md
运行此命令将有助于确定您所看到的问题是否与DeepVariant本身有关,或者是否与独立于程序的GCP云实现有关。
谢谢你,安德鲁
https://stackoverflow.com/questions/56800586
复制相似问题