文章/答案/技术大牛

发布

社区首页 >问答首页 >字符-来自一个文本文件的频率？

问字符-来自一个文本文件的频率？
EN

Stack Overflow用户

提问于 2013-03-24 17:57:51

回答 1查看 814关注 0票数 1

给出了一个多语言.txt文件，如：

But where is Esope the holly Bastard
But where is 생 지 옥 이 군
지 옥 이
지 옥
지
我 是 你 的 爸 爸 ！
爸 爸 ！ ！ ！
你 不 會 的 ！

I使用这个Awk函数计算空格分隔的单词的词频：

$ awk '{a[$1]++}END{for(k in a)print a[k],k}' RS=" |\n" myfile.txt | sort

获得优雅：

1 생
1 군
1 Bastard
1 Esope
1 holly
1 the
1 不
1 我
1 是
1 會
2 이
2 But
2 is
2 where
2 你
2 的
3 옥
4 지
4 爸
5 ！

如何将其更改为计数字符-频率?

编辑：表示字符-频率， i使用(@Sudo_O的答案)：

$ grep -o '\S' myfile.txt | awk '{a[$1]++}END{for(k in a)print a[k],k}' | sort > myoutput.txt

对于word-frequency，的使用：

$ grep -o '\w*' myfile.txt | awk '{a[$1]++}END{for(k in a)print a[k],k}' | sort > myoutput.txt

character

cjk

frequency-analysis

word-frequency

awk

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-03-24 18:03:04

一种方法是：

$ grep -o '\S' file | awk '{a[$1]++}END{for(k in a)print a[k],k}' 
3 옥
4 h
2 u
2 i
3 B
5 ！
2 w
4 爸
1 군
4 지
1 y
2 l
1 E
1 會
2 你
1 是
2 a
1 不
2 이
2 o
1 p
2 的
1 d
1 생
3 r
6 e
4 s
1 我
4 t

使用重定向将输出保存到文件：

$ grep -o '\S' file | awk '{a[$1]++}END{for(k in a)print a[k],k}' > output

对于排序输出：

$ grep -o '\S' file | awk '{a[$1]++}END{for(k in a)print a[k],k}' | sort > output

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/15601997

复制

相似问题

问字符-来自一个文本文件的频率？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问字符-来自一个文本文件的频率？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问字符-来自一个文本文件的频率？
EN