文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在bed文件中对同名序列进行编号

问如何在bed文件中对同名序列进行编号
EN

Stack Overflow用户

提问于 2019-05-30 17:45:02

回答 2查看 35关注 0票数 0

我有一张这样的档案床。

    KQ4156  0       34      Simple_repeat   .   +
    KQ4156  35      64      Simple_repeat   .   +
    KQ4156  1759    1822    Simple_repeat   .   +
    KQ4156  1901    2059    Simple_repeat   .   -
    KQ4156  2112    2258    DNA/hAT-Charlie .   +
    KQ4156  2890    2964    Simple_repeat   .   +
    KQ4156  4085    4130    DNA/hAT-Charlie .   +
    KQ4156  5587    5619    Simple_repeat   .   +
    KQ4156  5931    5995    SINE/tRNA-Deu   .   -

对于后续的分析，我需要区分相同的元素。埃斯卡。simple_repeats_1, simple_repeats_2,等和DNA/hAT-Charlie_1, DNA/hAT-Charlie_2,等。所有的元素。使用的脚本如下：

awk 'BEGIN{OFS="\t"}{if(NR>3) {if($9=="C"){strand="-"}else{strand="+"};print $5,$6-1,$7,$11,".",strand}}' file.fa.out > file.bed

我如何修改它才能得到我想要的东西？我想过要应用paste，但我不知道如何将它应用于所有的序列

shell

awk

paste

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-05-30 18:12:36

使用表格的awk解决方案是最简单的：

awk -vOFS='\t' '{ seen[$4]++; $4=$4"_"seen[$4]; print; }' file

将输出：

KQ4156  0   34  Simple_repeat_1 .   +
KQ4156  35  64  Simple_repeat_2 .   +
KQ4156  1759    1822    Simple_repeat_3 .   +
KQ4156  1901    2059    Simple_repeat_4 .   -
KQ4156  2112    2258    DNA/hAT-Charlie_1   .   +
KQ4156  2890    2964    Simple_repeat_5 .   +
KQ4156  4085    4130    DNA/hAT-Charlie_2   .   +
KQ4156  5587    5619    Simple_repeat_6 .   +
KQ4156  5931    5995    SINE/tRNA-Deu_1 .   -

票数 2

Stack Overflow用户

发布于 2019-05-30 18:23:12

你能不能试着跟上。

awk 'BEGIN{OFS="\t"} {$4=$4"_"++count[$4]} 1'  Input_file

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56375689

复制

相似问题

问如何在bed文件中对同名序列进行编号
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在bed文件中对同名序列进行编号EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在bed文件中对同名序列进行编号
EN