文章/答案/技术大牛

发布

问Bcbio-gff文件创建问题
EN

Stack Overflow用户

提问于 2020-04-23 11:12:45

回答 1查看 137关注 0票数 1

在使用GFF.write()创建文件时，我将得到一条新行，以“注释备注”作为源，然后是序列区域的ASCII编码：

##gff-version 3
##sequence-region NC_011594.1 1 16779
NC_011594.1 annotation  remark  1   16779   .   .   .   gff-version=3;sequence-region=%28%27NC_011594.1%27%2C 0%2C 16971%29,%28%27NC_042493.1%27%2C 0%2C 132544852%29, (continues on and on)
NC_011594.1 RefSeq  gene    1   1531    .   +   .   Dbxref=GeneID:7055888;ID=gene-COX1;Name=COX1;gbkey=Gene;gene=COX1;gene_biotype=protein_coding

你知道它为什么在这里，它是为了什么，我怎么能避免它吗？我担心在第三方软件中使用它可能会成为一个问题。

我只导入了bcbio包，但我相信它是Biopython：https://biopython.org/wiki/GFF_Parsing的一部分

python

bioinformatics

biopython

gff

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-04-24 14:13:06

关于你的第一个问题--“它为什么在那里？”

I只是假定，在默认情况下，包作者希望导出尽可能多的信息。

你的下一个问题--“我怎样才能避免它？”

不幸的是，

没有关闭开关。对我来说，解决方案是从导出的序列中删除任何注释。(即在调用GFF.write().

之前将annotations属性设置为空字典)

示例：

from Bio import SeqIO
from BCBio import GFF

g = SeqIO.read('NC_003888.3.gb','gb')

g.annotations = {}

with open('t2.gff', 'w') as f:
    GFF.write([g], f)

输出文件头-没有# annotation remark

head t2.gff 
##gff-version 3
##sequence-region NC_003888.3 1 8667507
NC_003888.3 feature source  1   8667507 ... removed for clarity ....

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61385854

复制

相似问题

问Bcbio-gff文件创建问题
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Bcbio-gff文件创建问题EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Bcbio-gff文件创建问题
EN