我正尝试在我的BAM文件上运行DeepVariant来生成一个VCF。我有以下问题:
1-对齐在GRCh38中,我应该使用哪个模型。我可以使用标准的完整外显子序列模型吗?('gs://deepvariant/models/DeepVariant/0.7.0/DeepVariant-inception_v3-0.7.0+data-wes_standard')
2-使用哪个BED文件来指定exome区域?有没有标准的?我在这里找到了一个我现在正在使用的(“CDS-canonical.bed”):https://github.com/AstraZeneca-NGS/reference_data/tree/master/hg38/bed
3-我使用的是真实的GRCh38基因组,谷歌基因组学上有标准的GRCh38比对吗?这是我有的:--ref gs://genomics-public-data/references/GRCh38_Verily/GRCh38_Verily_v1.genome.fa \
我已经将我的脚本设置如下,请告诉我它是否有意义:
#!/bin/bash
set -euo pipefail
# Set common settings.
PROJECT_ID=valis-194104
OUTPUT_BUCKET=gs://canis/CNR-data
STAGING_FOLDER_NAME=deep_variant_files
OUTPUT_FILE_NAME=TLE_a_001.vcf
# Model for calling whole exome sequencing data.
MODEL=gs://deepvariant/models/DeepVariant/0.7.0/DeepVariant-inception_v3-0.7.0+data-wes_standard
IMAGE_VERSION=0.7.0
DOCKER_IMAGE=gcr.io/deepvariant-docker/deepvariant:"${IMAGE_VERSION}"
COMMAND="/opt/deepvariant_runner/bin/gcp_deepvariant_runner \
--project ${PROJECT_ID} \
--zones us-west1-b \
--docker_image ${DOCKER_IMAGE} \
--outfile ${OUTPUT_BUCKET}/${OUTPUT_FILE_NAME} \
--staging ${OUTPUT_BUCKET}/${STAGING_FOLDER_NAME} \
--model ${MODEL} \
--regions gs://canis/CNR-data/CDS-canonical.bed \
--bam gs://canis/CNR-data/TLE_a_001_R_2014_09_17_16_35_30_user_WAL-19-TLE_17_09_2014_Auto_user_WAL-19-TLE_17_09_2014_57.bam \
--ref gs://genomics-public-data/references/GRCh38_Verily/GRCh38_Verily_v1.genome.fa \
--gcsfuse"
# Run the pipeline.
gcloud alpha genomics pipelines run \
--project "${PROJECT_ID}" \
--service-account-scopes="https://www.googleapis.com/auth/cloud-platform" \
--logging "${OUTPUT_BUCKET}/${STAGING_FOLDER_NAME}/runner_logs_$(date +%Y%m%d_%H%M%S).log" \
--zones us-west1-b \
--docker-image gcr.io/deepvariant-docker/deepvariant_runner:"${IMAGE_VERSION}" \
--command-line "${COMMAND}"编辑:
我试图添加一个用samtools生成的.bam.bai文件(bam index)
我仍然得到一个错误:
Traceback (most recent call last):
File "/opt/deepvariant_runner/src/gcp_deepvariant_runner.py", line 862, in <module>
run()
File "/opt/deepvariant_runner/src/gcp_deepvariant_runner.py", line 845, in run
_run_make_examples(pipeline_args)
File "/opt/deepvariant_runner/src/gcp_deepvariant_runner.py", line 340, in _run_make_examples
_wait_for_results(threads, results)
File "/opt/deepvariant_runner/src/gcp_deepvariant_runner.py", line 352, in _wait_for_results
result.get()
File "/usr/lib/python2.7/multiprocessing/pool.py", line 572, in get
raise self._value
RuntimeError: Job failed with error "run": operation "projects/valis-194104/operations/13939489157244551677" failed: executing pipeline: Execution failed: action 5: unexpected exit status 1 was not ignored (reason: FAILED_PRECONDITION)
details:发布于 2018-11-07 03:28:17
1-该模型适用于参考基因组的任何版本。您需要确保您的BAM文件与您提供的参考基因组相匹配。
2-这取决于你的exome BAM文件来自哪里,以及相应的捕获区域床是什么。有时,在BAM文件上运行samtools view -H会告诉您使用哪个捕获区域来生成它。
3-我只是快速浏览了一下:它应该可以工作。有一些常见的失败模式,我们希望在未来变得更加健壮:例如,我认为目前有一个假设,即您需要在同一目录下有一个名为*.bam.bai的相应索引BAI文件。最安全的做法是提供一个指向BAI文件的--bai标志(就像https://cloud.google.com/genomics/docs/tutorials/deepvariant中的示例一样)。类似地,如果找不到FASTA文件的索引文件,则此管道将失败。看起来gs://genomics-public-data/references/GRCh38_Verily/GRCh38_Verily_v1.genome.fa.fai是存在的,所以应该覆盖其中的一个。
如果您最终遇到任何问题,请让我们知道。我们希望提高DeepVariant和Google Cloud runner的可用性,因此您的反馈对我们非常有价值。
将来,也可以使用我们的GitHub问题来提出任何问题或进行讨论。我们的团队密切关注那里的所有问题:https://github.com/google/deepvariant/issues
https://stackoverflow.com/questions/53173589
复制相似问题