首页
学习
活动
专区
圈层
工具
发布

Fastq级联
EN

Ask Ubuntu用户
提问于 2017-07-09 23:52:20
回答 1查看 112关注 0票数 0

我已经生成了已被放入fastq格式的contigs。我在想,是否有人知道我怎样才能抓住两个字符之间的核苷酸序列,产生一个长的连体?我正在使用Python2.6.6。我还增加了一个我想要的例子:

当前文件布局:

代码语言:javascript
复制
>DHWCT801:455:H5HHJBCXX:1:2109:10376:67348/1
GACTCCTCGCCCAACTACGACGGCCAGGAGCAGGAACCCGACGTCCTGCCCGCCGCCTACCCGAACCTGCTGGTCAACGGCTCGTCCGGGATCGCGGTCGG
>DHWCT801:455:H5HHJBCXX:2:1105:15915:79934/2
ACTCGGTGTAACGCATGGCGGCGGCACCGTCGTTGCCGCGGGAGCCGAAGTTACCCTGGCCCTGCACCATCGGGTAGCGCATGGCCCACGGCTGCGCGAGG
>DHWCT801:455:H5HHJBCXX:2:1114:17610:55148/2
AAGCGCTCCTACCTCGATTACGCCATGAGCGTGATCGTGTCCCGTGCGCTGCCGGATGCGCGCGACGGTTTGAAGCCGGTGCACCGGCGCATTTTG

我想要的:

代码语言:javascript
复制
GACTCCTCGCCCAACTACGACGGCCAGGAGCAGGAACCCGACGTCCTGCCCGCCGCCTACCCGAACCTGCTGGTCAACGGCTCGTCCGGGATCGCGGTCGGACTCGGTGTAACGCATGGCGGCGGCACCGTCGTTGCCGCGGGAGCCGAAGTTACCCTGGCCCTGCACCATCGGGTAGCGCATGGCCCACGGCTGCGCGAGGAAGCGCTCCTACCTCGATTACGCCATGAGCGTGATCGTGTCCCGTGCGCTGCCGGATGCGCGCGACGGTTTGAAGCCGGTGCACCGGCGCATTTTG

P.S.:我有多个文件,所以如果有一种方法可以通过将其提交到我的集群并保存每个单独的文件,并将原来的名称+连接添加到末尾,那么我将非常感激。不过,我相信我能搞清楚的。

EN

回答 1

Ask Ubuntu用户

发布于 2017-07-10 00:49:23

与Grep

代码语言:javascript
复制
grep -ve '^>' source.fastaq

结果:

代码语言:javascript
复制
GACTCCTCGCCCAACTACGACGGCCAGGAGCAGGAACCCGACGTCCTGCCCGCCGCCTACCCGAACCTGCTGGTCAACGGCTCGTCCGGGATCGCGGTCGG
ACTCGGTGTAACGCATGGCGGCGGCACCGTCGTTGCCGCGGGAGCCGAAGTTACCCTGGCCCTGCACCATCGGGTAGCGCATGGCCCACGGCTGCGCGAGG
AAGCGCTCCTACCTCGATTACGCCATGAGCGTGATCGTGTCCCGTGCGCTGCCGGATGCGCGCGACGGTTTGAAGCCGGTGCACCGGCGCATTTTG

我相信,在FASTA及其变体中,断线被忽略了。如果您想要消除它们,请将结果通过tr -d '\n'进行管道传输。

与Python2和3

这种方法使用Python作为文本处理器。根据您在Python程序中生成或读取FASTA数据的方式,可能有更好的方法。

代码语言:javascript
复制
import sys
sys.stdout.writelines(s for s in sys.stdin if not s.startswith('>'))

如果要将所有内容都放在单行上,请将最后一行更改为:

代码语言:javascript
复制
[…]writelines(s.rstrip() for […])

两者的使用情况:

代码语言:javascript
复制
python select-contigs.py < source.fastaq
票数 2
EN
页面原文内容由Ask Ubuntu提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://askubuntu.com/questions/934616

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档