文章/答案/技术大牛

发布

社区首页 >问答首页 >如何从一个"indic“文本文件中的几个单词中分离出唯一的字符？

问如何从一个"indic“文本文件中的几个单词中分离出唯一的字符？
EN

Stack Overflow用户

提问于 2014-08-12 09:56:51

回答 1查看 136关注 0票数 0

我有一个纯文本文件。

> Input: इंजेक्शन इंटरनॅशनल इंटिग्रेटेड इंटिरिअर इंडस्ट्री

所有单词都由一个或多个空格分隔。我想从文本文件中收集所有唯一的字符。我正在寻找unix命令；结果字符的顺序并不重要。

> Expected result: इं जे क्श न ट र नॅ श ल इ्रे टे ड टि रिअ र ड स्ट्री

克劳斯提供的命令

cat <file>|sed -e 's/\(.\)/\1\n/g'|sort -u|tr -d '\n'

结果如下：

ंअइकगजटडनरलशसिीॅे्

我不想把水平的或垂直的连词或依赖元音与它的基本字符分开。

我只想把完整的字符从一个词中分离出来。

我们能用UNIX命令实现这一点吗？

“基字符”+“相关元音”=“完整字符”

 -  क                   ा                        का 
 -  क                   ि                        कि

克劳斯的命令只适用于英文文本。但是，它不适用于印地语等印度语。

输入: hi1 hello-2 how!3 "are4 ?you5 结果:1，2，3，4，5-！

注意：-您必须在您的操作系统中安装Indic支持。另外，从http://hindi-fonts.com/fonts/Mangal下载Mangal字体

unix

chars

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-08-12 10:45:09

试试这个：

cat <file>|sed -e 's/\(.\)/\1\n/g'|sort -u|tr -d '\n'

或简化(失窃从fedorqui评论，谢谢！在替换部分从未见过&。很高兴学到新东西！)

sed 's/./&\n/g' <file> | sort -u | tr -d '\n'

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/25261376

复制

相似问题

问如何从一个"indic“文本文件中的几个单词中分离出唯一的字符？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从一个"indic“文本文件中的几个单词中分离出唯一的字符？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从一个"indic“文本文件中的几个单词中分离出唯一的字符？
EN