在使用GFF.write()创建文件时,我将得到一条新行,以“注释备注”作为源,然后是序列区域的ASCII编码:
##gff-version 3
##sequence-region NC_011594.1 1 16779
NC_011594.1 annotation remark 1 16779 . . . gff-version=3;sequence-region=%28%27NC_011594.1%27%2C 0%2C 16971%29,%28%27NC_042493.1%27%2C 0%2C 132544852%29, (continues on and on)
NC_011594.1 RefSeq gene 1 1531 . + . Dbxref=GeneID:7055888;ID=gene-COX1;Name=COX1;gbkey=Gene;gene=COX1;gene_biotype=protein_coding你知道它为什么在这里,它是为了什么,我怎么能避免它吗?我担心在第三方软件中使用它可能会成为一个问题。
我只导入了bcbio包,但我相信它是Biopython:https://biopython.org/wiki/GFF_Parsing的一部分
发布于 2020-04-24 14:13:06
关于你的第一个问题--“它为什么在那里?”
你的下一个问题--“我怎样才能避免它?”
不幸的是,
GFF.write().之前将annotations属性设置为空字典)
示例:
from Bio import SeqIO
from BCBio import GFF
g = SeqIO.read('NC_003888.3.gb','gb')
g.annotations = {}
with open('t2.gff', 'w') as f:
GFF.write([g], f)输出文件头-没有# annotation remark
head t2.gff
##gff-version 3
##sequence-region NC_003888.3 1 8667507
NC_003888.3 feature source 1 8667507 ... removed for clarity ....https://stackoverflow.com/questions/61385854
复制相似问题