文章/答案/技术大牛

发布

社区首页 >问答首页 >计数碱基DNA链序列

问计数碱基DNA链序列
EN

Stack Overflow用户

提问于 2021-01-15 16:36:17

回答 2查看 89关注 0票数 0

如何在python中编写代码，读取DNA序列链，并返回它描述这三种情况的重复碱基列表:基础(AGTC)，它在链中的位置以及重复了多少次。例如：

ACTTTTGTCTAAACCCCCCGTCCTATATATAACT

这个输出是: list_bases =('T',3,4)，('A',11,3)，('C',14,6)

python

count

sequence

回答 2

Stack Overflow用户

回答已采纳

发布于 2021-01-15 17:39:56

这就是你要找的吗？

DNA_seq = 'ACTTTTGTCTAAACCCCCCGTCCTATATATAACT'
count_dic = {'A': [0,0], "G": [0,0], "C": [0,0], "T": [0,0]}
for i in range(len(DNA_seq)-1):
    j=i
    seq_count = 1
    while DNA_seq[j] == DNA_seq[j+1]:
        seq_count +=1 
        j +=1
        if seq_count > count_dic[DNA_seq[i]][1]:
            count_dic[DNA_seq[i]][1] = seq_count
            count_dic[DNA_seq[i]][0] = i + 1

count_dic的含量是

{'A': [11, 3], 'G': [0, 0], 'C': [14, 6], 'T': [3, 4]}

票数 1

Stack Overflow用户

发布于 2021-01-15 18:18:34

我做了以下工作：

import re
from collections import defaultdict

seq = "ACTTTTGTCTAAACCCCCCGTCCTATATATAACT"
bases = ['A','G','C','T']

indexes = defaultdict(list)
counts = dict()

for base in bases:
    comSeq = re.compile(base)
    matches = comSeq.findall(seq)
    count = len(matches)
    counts[base] = count

    start = 0

    for match in matches:
        index = seq.find(base, start)
        indexes[base].append(index)
        start = index +1

print(indexes)
print(counts)

dict索引给出了链中基的每个位置：

{'A': [0, 10, 11, 12, 24, 26, 28, 30, 31], 'G': [6, 19], 'C': [1, 8, 13, 14,
 15, 16, 17, 18, 21, 22, 32], 'T': [2, 3, 4, 5, 7, 9, 20, 23, 25, 27, 29, 33]}

dict计数给出了在链中基发生多少次的计数：

{'A': 9, 'G': 2, 'C': 11, 'T': 12}

这可能不是最好和有效的代码，我也不知道你想要什么，希望这能帮上忙。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65739965

复制

相似问题

问计数碱基DNA链序列
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问计数碱基DNA链序列EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问计数碱基DNA链序列
EN