首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用Biopython定位蛋白质序列中的模式

用Biopython定位蛋白质序列中的模式
EN

Stack Overflow用户
提问于 2017-06-21 13:16:39
回答 1查看 766关注 0票数 1

我正在寻找含有三肽的序列。除'P‘之外,该三肽还可以含有任何其他氨基酸。我用以下方法提取它们。

代码语言:javascript
复制
from Bio import SeqIO
RGD = [] 
for record in SeqIO.parse("input.fasta", "fasta"):
    rgd_count = record.seq.count('RGD')
    if rgd_count >= 1:
        RGD.append(record) 
SeqIO.write(RGD, "RGD_Proteins.fasta", "fasta")

在这种情况下,RGD(N)是很好的,除了RGDP之外,我如何引入regex呢?

提前谢谢。

接入点

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-06-22 12:51:12

您可以使用re.findall查找str(record.seq)中所有不重叠的正则表达式匹配项。替换record.seq.count('RGD')

代码语言:javascript
复制
len(re.findall(r"RGD(?!P)", str(record.seq)))

另外,确保添加了import re

RGD(?!P)模式匹配没有跟随PRGD子字符串。如果在当前位置的右侧立即找到(?!P)的模式,则称为负前瞻性,这会使匹配失败。

常规-Expressions.info“查找周遭”部分

regex演示

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44677271

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档