我已经生成了已被放入fastq格式的contigs。我在想,是否有人知道我怎样才能抓住两个字符之间的核苷酸序列,产生一个长的连体?我正在使用Python2.6.6。我还增加了一个我想要的例子:
当前文件布局:
>DHWCT801:455:H5HHJBCXX:1:2109:10376:67348/1
GACTCCTCGCCCAACTACGACGGCCAGGAGCAGGAACCCGACGTCCTGCCCGCCGCCTACCCGAACCTGCTGGTCAACGGCTCGTCCGGGATCGCGGTCGG
>DHWCT801:455:H5HHJBCXX:2:1105:15915:79934/2
ACTCGGTGTAACGCATGGCGGCGGCACCGTCGTTGCCGCGGGAGCCGAAGTTACCCTGGCCCTGCACCATCGGGTAGCGCATGGCCCACGGCTGCGCGAGG
>DHWCT801:455:H5HHJBCXX:2:1114:17610:55148/2
AAGCGCTCCTACCTCGATTACGCCATGAGCGTGATCGTGTCCCGTGCGCTGCCGGATGCGCGCGACGGTTTGAAGCCGGTGCACCGGCGCATTTTG我想要的:
GACTCCTCGCCCAACTACGACGGCCAGGAGCAGGAACCCGACGTCCTGCCCGCCGCCTACCCGAACCTGCTGGTCAACGGCTCGTCCGGGATCGCGGTCGGACTCGGTGTAACGCATGGCGGCGGCACCGTCGTTGCCGCGGGAGCCGAAGTTACCCTGGCCCTGCACCATCGGGTAGCGCATGGCCCACGGCTGCGCGAGGAAGCGCTCCTACCTCGATTACGCCATGAGCGTGATCGTGTCCCGTGCGCTGCCGGATGCGCGCGACGGTTTGAAGCCGGTGCACCGGCGCATTTTGP.S.:我有多个文件,所以如果有一种方法可以通过将其提交到我的集群并保存每个单独的文件,并将原来的名称+连接添加到末尾,那么我将非常感激。不过,我相信我能搞清楚的。
发布于 2017-07-10 00:49:23
grep -ve '^>' source.fastaq结果:
GACTCCTCGCCCAACTACGACGGCCAGGAGCAGGAACCCGACGTCCTGCCCGCCGCCTACCCGAACCTGCTGGTCAACGGCTCGTCCGGGATCGCGGTCGG
ACTCGGTGTAACGCATGGCGGCGGCACCGTCGTTGCCGCGGGAGCCGAAGTTACCCTGGCCCTGCACCATCGGGTAGCGCATGGCCCACGGCTGCGCGAGG
AAGCGCTCCTACCTCGATTACGCCATGAGCGTGATCGTGTCCCGTGCGCTGCCGGATGCGCGCGACGGTTTGAAGCCGGTGCACCGGCGCATTTTG我相信,在FASTA及其变体中,断线被忽略了。如果您想要消除它们,请将结果通过tr -d '\n'进行管道传输。
这种方法使用Python作为文本处理器。根据您在Python程序中生成或读取FASTA数据的方式,可能有更好的方法。
import sys
sys.stdout.writelines(s for s in sys.stdin if not s.startswith('>'))如果要将所有内容都放在单行上,请将最后一行更改为:
[…]writelines(s.rstrip() for […])两者的使用情况:
python select-contigs.py < source.fastaqhttps://askubuntu.com/questions/934616
复制相似问题