首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >由于输入无效,无法使用bcftools对VCF进行排序。

由于输入无效,无法使用bcftools对VCF进行排序。
EN

Stack Overflow用户
提问于 2020-12-08 22:42:21
回答 1查看 1.5K关注 0票数 1

我试图压缩和索引一个VCF文件,并面临几个问题。

  1. 当我使用bgzip/tabix时,它会抛出一个错误,说明由于一些未排序的值,不能对其进行索引。

代码语言:javascript
复制
# code used to bgzip and tabix
bgzip -c fn.vcf > fn.vcf.gz
tabix -p vcf fn.vcf.gz

# below is the error returnd
[E::hts_idx_push] Unsorted positions on sequence #1: 115352924 followed by 115352606
tbx_index_build failed: fn.vcf.gz

  1. 当我使用bcftools sort对这个VCF进行排序以处理#1时,它会引发一个错误,原因是条目无效.

代码语言:javascript
复制
# code used to sort 
bcftools sort -O z --output-file fn.vcf.gz fn.vcf

# below is the error returned
Writing to /tmp/bcftools-sort.YSrhjT
[W::vcf_parse_format] Extreme FORMAT/AD value encountered and set to missing at chr12:115350908
[E::vcf_parse_format] Invalid character '\x0F' in 'GT' FORMAT field at chr12:115352482
Error encountered while parsing the input
Cleaning

  1. 我尝试使用linux命令进行排序以绕过#2。然而,当我运行下面的代码时,fout.vcf的大小几乎是fin.vcf的一半,这表明可能出了什么问题。

代码语言:javascript
复制
grep "^#" fin.vcf > fout.vcf
grep -v "^#" fin.vcf | sort -k1,1V -k2,2n >> fout.vcf

请让我知道你是否有任何建议:

  • 如何以一种安全和可行的方式对VCF中的问题输入进行排序/修复。(文件为340 g,所以我不能简单地打开文件并编辑。)
  • 为什么我的linux sort可能会以一种奇怪的方式运行。(即返回比原始文件小得多的文件)

如有任何意见或建议,敬请见谅!

EN

回答 1

Stack Overflow用户

发布于 2021-03-09 16:55:16

尝尝这个

代码语言:javascript
复制
mkdir tmp ##1 create a tmp folder in your working directory
tmp=/yourpath/ ##2 assign the tmp folder
bcftools sort file.vcf -T ./tmp -Oz -o file.vcf.gz

在对文件进行排序之后,可以对文件进行索引。

代码语言:javascript
复制
bcftools index file.vcf.gz
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65207990

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档