首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在给定结构中寻找RNA碱基配对

在给定结构中寻找RNA碱基配对
EN

Stack Overflow用户
提问于 2016-12-09 18:11:57
回答 2查看 394关注 0票数 2

我有一个RNA序列,看起来像这样。每个字符代表一个核苷酸(程序员可以忽略这一点,您可以将它们视为元素):

代码语言:javascript
复制
         (((((((..((((.....(..)))).((((.........)))).....(((((..)....))))))))))))....

我会用这个名称来回答这个问题:

代码语言:javascript
复制
          ( = lhb
          ) = rhb 
          . = dot

因此,本质上,具有lhb的元素与具有rhb的元素相连接,而所有的点都是自由的,它们的连接方式是复杂的。很难用文字表达,所以为了方便起见,我会把数字放在下面一些元素的下面,这些元素是相连的:

代码语言:javascript
复制
   (((((((..((((.....(..)))).((((.........)))).....(((((..)....))))))))))))....
   1                 2  2       3         3           45  5    4          1   

我想这会给你一个关于它们是如何联系的概念。我有兴趣找出连接的元素和免费的区域的位置。

(例如,要素1与要素72连接,要素8至9是自由的)。

我选择了C来编写代码,但我并不接近逻辑。

而且,用C编写程序变得越来越困难,我觉得在python中使用正则表达式可以很容易地做到这一点,或者可能是perl,但我对这些语言没有多少经验。所以,如果有人能提供一个更简单的方法,那将是一个巨大的帮助。改进C代码的想法也受到欢迎。这是我的C代码:-

代码语言:javascript
复制
#include <stdio.h>

int main() {

char dot[500];
int i = 0, j = 0;
int count = 0, count1 = 0, count2 = 0;
int lhb[100];
int rhb[100];
int dots[100];
int pair_1[100];
int pair_2[100];
int pair_3[100];
FILE * fp;

fp = fopen("structure.txt", "r");

while (fscanf(fp, "%c", & dot[i]) != EOF) {

  i++;
}

fclose(fp);

for (i = 0; dot[i] != '\0'; i++) {

  if (dot[i] == '(') {
    lhb[count] = dot[i];
    pair_1[count] = i;
    count++;
    } 
  else if (dot[i] == '.') {
    rhb[count1] = dot[i];
    pair_2[count1] = i;
    count1++;
    }
  else {
    dots[count2] = dot[i];
    pair_3[count2] = i;
    count2++;
    }
}


printf("Base-pair details :\n");

for (j = 0; j < count; j++)

  printf("%d--%d\n", pair_1[j] + 1, pair_3[count - j - 1] + 1);

printf("Loop details :\n");

// for(j=0;j<=count;j++)

// printf("--%d-",pair_2[j]+1);

return 0;

}
EN

回答 2

Stack Overflow用户

发布于 2016-12-09 18:42:02

这是一个潜在的解决方案。Free包含一个对每个点进行索引的列表,而对包含一个包含每对索引的元组的列表。这是假设您的数据是完美的(即相同数量的左对和右对,在左对之前没有右对)。然而,这可以修改,以检查边缘的情况。根据你的问题,我从1开始索引,而不是0。

代码语言:javascript
复制
data = '(((((((..((((.....(..)))).((((.........)))).....(((((..)....))))))))))))....'

left = []
group = []
prev = ''

free = []
pairs = []

for index, elem in enumerate(data, 1):
    if elem == '.' and prev == '.':
        group.append(index)
    elif elem == '.':
        group = [index]
    else:
        if len(group) >= 1:
            free.append(group)
            group = []
        if elem == '(':
            left.append(index)
        elif elem == ')':
            pairs.append([left.pop(), index])
    prev = elem
if len(group) > 0:
    free.append(group)
pairs.sort()

输出:

代码语言:javascript
复制
[[1, 72], [2, 71], [3, 70], [4, 69], [5, 68], [6, 67], [7, 66], [10, 65], [11, 25], [12, 24], [13, 23], [19, 22], [27, 43], [28, 42], [29, 41], [30, 40], [49, 64], [50, 63], [51, 62], [52, 61], [53, 56]]
[[8, 9], [14, 15, 16, 17, 18], [20, 21], [26], [31, 32, 33, 34, 35, 36, 37, 38, 39], [44, 45, 46, 47, 48], [54, 55], [57, 58, 59, 60]]

代码的工作方式是在每个元素上迭代一次。如果遇到左paren,它会将索引追加到列表中。当它遇到一个右paren时,它会弹出最后一次看到的左paren的索引,创建一个对。对于自由点,跟踪前一个元素将告诉您如何处理每个点。如果已经看到一个列表,则继续添加到当前列表中,否则启动一个新列表。

票数 1
EN

Stack Overflow用户

发布于 2016-12-09 19:06:34

真正解决这个问题的最好方法是维护一个堆栈。对于遇到的每个(,您都可以将索引值推到堆栈中,对于每个),您需要用插入上一个(索引的数字来弹出堆栈。这意味着(的索引和)的索引形成一对。

这可以通过做这样的事情来实现

代码语言:javascript
复制
seq = '(((((((..((((.....(..)))).((((.........)))).....(((((..)....))))))))))))....'
xStack = []
for i, x in enumerate(seq):
    if x == '(':
        xStack.append(i)
    if x == ')':
        o = xStack.pop()

现在已经完成了基本步骤,除了维护括号的索引之外,还需要一些其他的东西。在pop操作之后,您需要存储匹配的对,为此,让我们引入另一个变量,在遇到.时基本上什么也不做

代码语言:javascript
复制
seq = '(((((((..((((.....(..)))).((((.........)))).....(((((..)....))))))))))))....'

xStack = []

resultingPairs = []

for i, x in enumerate(seq):
    if x == '(':
        xStack.append(i)
    if x == ')':
        o = xStack.pop()
        tempPair = [o, i]
        resultingPairs.append(tempPair)
    if x == '.':
        pass

现在,我们有了如下所示的结果对

代码语言:javascript
复制
[[18, 21], [12, 22], [11, 23], [10, 24], [29, 39], [28, 40], [27, 41], [26, 42], [52, 55], [51, 60], [50, 61], [49, 62], [48, 63], [9, 64], [6, 65], [5, 66], [4, 67], [3, 68], [2, 69], [1, 70], [0, 71]]

我们需要找出所有的空闲空间,这可以很容易地做一些事情,如下所示

代码语言:javascript
复制
spacesList = [i for i in range(len(seq)) if seq.startswith('.', i)]

这会导致

代码语言:javascript
复制
[7, 8, 13, 14, 15, 16, 17, 19, 20, 25, 30, 31, 32, 33, 34, 35, 36, 37, 38, 43, 44, 45, 46, 47, 53, 54, 56, 57, 58, 59, 72, 73, 74, 75]

现在,您可以轻松地编写一个函数,在其中传递spacesListresultingPairs,并获得每个可能的对之间的空闲空格数。有很多可能的优化,但这应该能够使您开始朝着正确的方向。

代码语言:javascript
复制
def getSpacesCount(spacesList, resultingPairs):
    for pair in resultingPairs:
        a = pair[0]
        b = pair[1]
        spacesCount = 0
        for val in spacesList:
            if a < val < b:
                spacesCount+=1
        print a,b,spacesCount

seq = '(((((((..((((.....(..)))).((((.........)))).....(((((..)....))))))))))))....'
xStack = []
resultingPairs = []
for i, x in enumerate(seq):
    if x == '(':
        xStack.append(i)
    if x == ')':
        o = xStack.pop()
        tempPair = [o, i]
        resultingPairs.append(tempPair)
    if x == '.':
        pass

spacesList = [i for i in range(len(seq)) if seq.startswith('.', i)]

getSpacesCount(spacesList, resultingPairs)

你有开始括号的位置,结束括号的位置,以及它们之间的自由空格数。

代码语言:javascript
复制
>>> getSpacesCount(spacesList, resultingPairs)
18 21 2
12 22 7
11 23 7
10 24 7
29 39 9
28 40 9
27 41 9
26 42 9
52 55 2
51 60 6
50 61 6
49 62 6
48 63 6
9 64 28
6 65 30
5 66 30
4 67 30
3 68 30
2 69 30
1 70 30
0 71 30

编辑似乎无法理解如何编辑堆栈溢出的注释,将函数更新为

代码语言:javascript
复制
def getSpacesCount(spacesList, resultingPairs):
    for pair in resultingPairs:
        a = pair[0]
        b = pair[1]
        spacesCount = 0
        spaces = []
        for val in spacesList:
            if a < val < b:
                spaces.append(val)
                spacesCount+=1
        print a,b,spacesCount,spaces

这会给你数量和位置。你可以留着你真正喜欢的任何一个。

代码语言:javascript
复制
>>> getSpacesCount(spacesList, resultingPairs)
18 21 2 [19, 20]
12 22 7 [13, 14, 15, 16, 17, 19, 20]
11 23 7 [13, 14, 15, 16, 17, 19, 20]
10 24 7 [13, 14, 15, 16, 17, 19, 20]
29 39 9 [30, 31, 32, 33, 34, 35, 36, 37, 38]
28 40 9 [30, 31, 32, 33, 34, 35, 36, 37, 38]
27 41 9 [30, 31, 32, 33, 34, 35, 36, 37, 38]
26 42 9 [30, 31, 32, 33, 34, 35, 36, 37, 38]
52 55 2 [53, 54]
51 60 6 [53, 54, 56, 57, 58, 59]
50 61 6 [53, 54, 56, 57, 58, 59]
49 62 6 [53, 54, 56, 57, 58, 59]
48 63 6 [53, 54, 56, 57, 58, 59]
9 64 28 [13, 14, 15, 16, 17, 19, 20, 25, 30, 31, 32, 33, 34, 35, 36, 37, 38, 43, 44, 45, 46, 47, 53, 54, 56, 57, 58, 59]
6 65 30 [7, 8, 13, 14, 15, 16, 17, 19, 20, 25, 30, 31, 32, 33, 34, 35, 36, 37, 38, 43, 44, 45, 46, 47, 53, 54, 56, 57, 58, 59]
5 66 30 [7, 8, 13, 14, 15, 16, 17, 19, 20, 25, 30, 31, 32, 33, 34, 35, 36, 37, 38, 43, 44, 45, 46, 47, 53, 54, 56, 57, 58, 59]
4 67 30 [7, 8, 13, 14, 15, 16, 17, 19, 20, 25, 30, 31, 32, 33, 34, 35, 36, 37, 38, 43, 44, 45, 46, 47, 53, 54, 56, 57, 58, 59]
3 68 30 [7, 8, 13, 14, 15, 16, 17, 19, 20, 25, 30, 31, 32, 33, 34, 35, 36, 37, 38, 43, 44, 45, 46, 47, 53, 54, 56, 57, 58, 59]
2 69 30 [7, 8, 13, 14, 15, 16, 17, 19, 20, 25, 30, 31, 32, 33, 34, 35, 36, 37, 38, 43, 44, 45, 46, 47, 53, 54, 56, 57, 58, 59]
1 70 30 [7, 8, 13, 14, 15, 16, 17, 19, 20, 25, 30, 31, 32, 33, 34, 35, 36, 37, 38, 43, 44, 45, 46, 47, 53, 54, 56, 57, 58, 59]
0 71 30 [7, 8, 13, 14, 15, 16, 17, 19, 20, 25, 30, 31, 32, 33, 34, 35, 36, 37, 38, 43, 44, 45, 46, 47, 53, 54, 56, 57, 58, 59]
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41066448

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档