所有人!当我读到这个讨论"Count number of occurrences of a pattern in a file (even on same line)“时,我想知道是否可以在count值旁边添加包含模式的行。
不知怎么的,我无法在讨论中添加任何评论,所以我发布了一个新的问题。有人能给我点电吗?
这里一定有误会,所以我举了一个例子。比方说,我的DNA序列如下所示,我想找出每一行中有多少个'CG‘。
ACAAAGAACTCAAGAAGTTGGACCCCAGAGAACCAAATAACCCTATTAAA
AATTCGGAACAGAGATAAACAAAGAATTCTCAACTGAGGAAACTTGAATG
GGATTTTTTTTTAAGATTCACTTATTTTTATTTTCTGCATGAGTGTTTGC
CTCGATGTATGTACATATACGACATGTGTACGTGGTGCGCAAGTAAGCAG另外,我想打印每一行(而不是图案)和模式计数。
0 ACAAAGAACTCAAGAAGTTGGACCCCAGAGAACCAAATAACCCTATTAAA
1 AATTCGGAACAGAGATAAACAAAGAATTCTCAACTGAGGAAACTTGAATG
0 GGATTTTTTTTTAAGATTCACTTATTTTTATTTTCTGCATGAGTGTTTGC
4 CTCGATGTATGTACATATACGACATGTGTACGTGGTGCGCAAGTAAGCAG我希望上面的例子有助于更好地理解这个问题。
谢谢!
发布于 2015-11-17 07:43:04
我刚刚发现了一个非常简单和优雅的解决方案使用EXCEL。公式如下..。
=(LEN(B2)-LEN(SUBSTITUTE(B2,"CG","")))/2这个公式基本上是计算单元格中字符串的总长度和删除模式后的长度(本例中为“CG”),然后减去它们。由于每个"CG“被空格替换,替换后缺少两个字符串,您可以通过将模式的长度除以模式的长度(在本例中为2)来获得模式的数目。
例如,下面的序列包含50个字符串和13个CG字符串。
CAGTGCACACAACACATGTACGCGCGCGCGCGCGCGCGCGCGCGCGTGTG 50将"CG“替换为空白后,您将得到24个字符串。
CAGTGCACACAACACATGTATGTG 24算上"CG“的发生,
(50-24)/2 = 13如果您正在寻找"CAG",请输入"CAG“而不是"CG”,然后除以3,这是多么简单!
您可以在下面的链接中看到原始帖子。
http://fiveminutelessons.com/learn-microsoft-excel/count-occurrences-single-character-cell-excel#sthash.H4VfOkGB.dpbs
英语不是我的主要语言,所以请理解我写作中的错误。
人都是天才!
发布于 2015-11-16 06:27:27
你可以:
printf 'pattern' | tee >(sed 's/$/ : /') | grep -cf - input.txt借助tee和进程替代技术。
示例:
% cat file.txt
foobar
spamegg
foo
% printf 'foo' | tee >(sed 's/$/ : /') | grep -cf - file.txt
foo : 2发布于 2015-11-16 06:50:57
cat fileName | grep pattern | uniq -chttps://stackoverflow.com/questions/33729124
复制相似问题