也许这个问题太笼统了,但我完全被困在了这个问题上。对任何类型的帮助都表示感谢:
我有一个蛋白质fasta文件(protein.txt),类似于:
>a
mnspq
>b
rstuvw
>c
mnqa请注意,a、b和c蛋白的长度分别为5、6和4(总长度= 15)。
现在,我提取了一些随机范围(计算基于总长度),并将其保存为(file1.txt)如下:
2-3
4-10
11-14在蛋白质文件中看到的每个蛋白质的长度(在总长度内)保存在另一个文件(file2.txt)中:
a 1-5
b 6-11
c 12-15现在,从file1值中,我希望修改file2值,并尝试计算每个蛋白质序列的单个范围,对于上面的输入,输出将是:
a 2-3,4-5
b 1-5, 6
c 2-5换句话说,如果我首先连接我的所有序列和去雷明的一些范围从级联文件,我如何才能找到在每个蛋白质序列的个别范围的位置。
谢谢
发布于 2016-08-18 20:40:43
我想答案的最后一行应该是c 1-3
|---a---| |---b-----| |--c--|
1 2 3 4 5 6 7 8 9 0 1 2 3 4 5
|-| |-----------| |-----|
1 2 3 4 5 1 2 3 4 5 6 1 2 3 4Perl来救我!首先,将从file1到数组的范围读取。然后,从file2中读取蛋白质,对于与范围重叠的每个范围,计算和打印“开始”和“结束”。
#!/usr/bin/perl
use warnings;
use strict;
my @ranges;
open my $f1, '<', 'file1.txt' or die $!;
while (<$f1>) {
chomp;
push @ranges, [ split /-/ ];
}
open my $f2, '<', 'file2.txt' or die $!;
while (<$f2>) {
my ($protein, $range) = split;
print "$protein";
my $separator = ' ';
my ($from, $to) = split /-/, $range;
shift @ranges while @ranges && $ranges[0][1] < $from;
last unless @ranges;
while (@ranges && $ranges[0][0] <= $to) {
my $start = $ranges[0][0];
$start = $from if $from > $start;
my $end = $ranges[0][1];
$end = $to if $end > $to;
$_ -= $from - 1 for $start, $end;
print $separator, $start == $end ? $start : "$start-$end";
$separator = ',';
if ($ranges[0][1] < $to) {
shift @ranges;
} else {
$ranges[0][0] = $to + 1;
}
}
print "\n";
}https://stackoverflow.com/questions/39026294
复制相似问题