我有一个纯文本文件。
> Input: इंजेक्शन इंटरनॅशनल इंटिग्रेटेड इंटिरिअर इंडस्ट्री所有单词都由一个或多个空格分隔。我想从文本文件中收集所有唯一的字符。我正在寻找unix命令;结果字符的顺序并不重要。
> Expected result: इं जे क्श न ट र नॅ श ल इ्रे टे ड टि रिअ र ड स्ट्री克劳斯提供的命令
cat <file>|sed -e 's/\(.\)/\1\n/g'|sort -u|tr -d '\n'结果如下:
ंअइकगजटडनरलशसिीॅे्
我不想把水平的或垂直的连词或依赖元音与它的基本字符分开。
我只想把完整的字符从一个词中分离出来。
我们能用UNIX命令实现这一点吗?
“基字符”+“相关元音”=“完整字符”
- क ा का
- क ि कि克劳斯的命令只适用于英文文本。但是,它不适用于印地语等印度语。
输入: hi1 hello-2 how!3 "are4 ?you5 结果:1,2,3,4,5-!
注意:-您必须在您的操作系统中安装Indic支持。另外,从http://hindi-fonts.com/fonts/Mangal下载Mangal字体
发布于 2014-08-12 10:45:09
试试这个:
cat <file>|sed -e 's/\(.\)/\1\n/g'|sort -u|tr -d '\n'或简化(失窃从fedorqui评论,谢谢!在替换部分从未见过&。很高兴学到新东西!)
sed 's/./&\n/g' <file> | sort -u | tr -d '\n'https://stackoverflow.com/questions/25261376
复制相似问题