首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何切取特定数目的fasta序列并生成ORFs

如何切取特定数目的fasta序列并生成ORFs
EN

Unix & Linux用户
提问于 2016-06-23 09:48:27
回答 1查看 2.2K关注 0票数 0

我有如下所示的文件:

代码语言:javascript
复制
 CDS             join(36..56,37..67)
 CDS             36..183
 CDS             457..565
 CDS             join(505..519,521..596)
 CDS             join(577..591,725..770)
 CDS             join(516..591,725..899)
 CDS             508..556
 CDS             571..841
 CDS             complement(619..788)
 CDS             843..863

我想打印特定数量的核苷酸范围,如文件(序列是从另一个文件“sequence.fasta”读取)。例如,对于sequence.fasta文件,如:

代码语言:javascript
复制
>gi1234 HIVgenome|NC_909999.1
AACTGCGTGTGTGTCCACACAACACTGGGGGACACACAACAACAACACTGGGGGACACACTGGGACAACACTGGGGGACAGGACACTGTACAACACTGGGTGTGTCGGGACAGTACACATGTTGGGGGGGTGTGTCGGACAACACTGGGGGACATGTGTGTACAACACTGGGGGACAGTGACGACGACAACACTGGGGGACACGAGCGTTGTGAGCAGGTGACAACACTGGGGGACAGTGTTTTTACAACACTGGGGGACATTTTTGAGCAGCGACGCAGCGTTGTGGGGTGTGTCGGAAGGTGTGTCGTGTGTCGTGTGTC

输出应该是

代码语言:javascript
复制
36  -  56   ACAACAACAACACTGGGGGAC 

37  -  67   CAACAACAACACTGGGGGACAACACTGGGAC

等等.

直到

代码语言:javascript
复制
843 - 863   GTGT....

通过shell脚本最简单的方法是什么?

EN

回答 1

Unix & Linux用户

发布于 2016-06-25 09:58:52

这个问题需要比这个论坛可能提供的更大的编程努力(我是以这种编程为生)。

DDBJ/ENA/GenBank文件格式 (问题中的第一个文件)是复杂的,它允许CDS(基因组序列的编码部分)不仅是简单的或连接的,而且可以补充和组合它们。此外,位置坐标可能有修饰符,对于一般的解决方案,它需要处理。

最好是询问当地的生物信息专家(或程序员)或生物信息学论坛,如StackExchange 生物信息学站点。他们将为您指出现有的工具来完成这类事情,或者,了解生物信息人员,给您一些古怪的BioPerl/BioPython脚本,这些脚本可能会更经常地工作;-)

一种可能的方法是使用GenBank特征抽取器,但是在线使用它很可能是除了小数据集以外的最佳选择。

票数 1
EN
页面原文内容由Unix & Linux提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://unix.stackexchange.com/questions/291591

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档