首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何从一个"indic“文本文件中的几个单词中分离出唯一的字符?

如何从一个"indic“文本文件中的几个单词中分离出唯一的字符?
EN

Stack Overflow用户
提问于 2014-08-12 09:56:51
回答 1查看 136关注 0票数 0

我有一个纯文本文件。

代码语言:javascript
复制
> Input: इंजेक्शन इंटरनॅशनल इंटिग्रेटेड इंटिरिअर इंडस्ट्री

所有单词都由一个或多个空格分隔。我想从文本文件中收集所有唯一的字符。我正在寻找unix命令;结果字符的顺序并不重要。

代码语言:javascript
复制
> Expected result: इं जे क्श न ट र नॅ श ल इ्रे टे ड टि रिअ र ड स्ट्री

克劳斯提供的命令

代码语言:javascript
复制
cat <file>|sed -e 's/\(.\)/\1\n/g'|sort -u|tr -d '\n'

结果如下:

ंअइकगजटडनरलशसिीॅे्

我不想把水平的或垂直的连词或依赖元音与它的基本字符分开。

我只想把完整的字符从一个词中分离出来。

我们能用UNIX命令实现这一点吗?

“基字符”+“相关元音”=“完整字符”

代码语言:javascript
复制
 -  क                   ा                        का 
 -  क                   ि                        कि

克劳斯的命令只适用于英文文本。但是,它不适用于印地语等印度语。

输入: hi1 hello-2 how!3 "are4 ?you5 结果:1,2,3,4,5-!

注意:-您必须在您的操作系统中安装Indic支持。另外,从http://hindi-fonts.com/fonts/Mangal下载Mangal字体

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-08-12 10:45:09

试试这个:

代码语言:javascript
复制
cat <file>|sed -e 's/\(.\)/\1\n/g'|sort -u|tr -d '\n'

或简化(失窃从fedorqui评论,谢谢!在替换部分从未见过&。很高兴学到新东西!)

代码语言:javascript
复制
sed 's/./&\n/g' <file> | sort -u | tr -d '\n'
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/25261376

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档