首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在Perl或任何其他编程语言中对CJK (亚洲)字符进行排序?

如何在Perl或任何其他编程语言中对CJK (亚洲)字符进行排序?
EN

Stack Overflow用户
提问于 2010-10-08 14:28:13
回答 3查看 2.6K关注 0票数 11

如何在Perl?中对汉字、日文和韩文字符进行排序

据我所知,按照笔画计数对CJK字符进行排序,然后再按自由基排序,似乎就是对这些语言进行排序的方式。也有一些按声音排序的方法,但这似乎不太常见。

我试过用:

代码语言:javascript
复制
perl -e 'print join(" ", sort qw(工 然 一 人 三 古 二 )), "\n";'
# Prints: 一 三 二 人 古 工 然 which is incorrect

我试过使用CPAN中的Unicode::Collate,但是它说:

默认情况下,CJK统一表意文字按Unicode码点顺序排序.

如果我能够获得每个字符的笔划计数数据库,我可以轻松地对所有字符进行排序,但这似乎没有随Perl一起出现,也没有封装在我能找到的任何模块中。

如果您知道如何在其他语言中对CJK进行排序,在回答这个问题时提及它将是有帮助的。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2010-10-08 19:34:57

有关肮脏的细节和角落案例,请参见TR38。这并不像您想的那么简单,就像下面的代码示例所显示的那样。

代码语言:javascript
复制
use 5.010;
use utf8;
use Encode;
use Unicode::Unihan;
my $u = Unicode::Unihan->new;

say encode_utf8 sprintf "Character $_ has the radical #%s and %d residual strokes." , split /[.]/, $u->RSUnicode($_) for qw(工 然 一 人 三 古 二);
__END__
Character 工 has the radical #48 and 0 residual strokes.
Character 然 has the radical #86 and 8 residual strokes.
Character 一 has the radical #1 and 0 residual strokes.
Character 人 has the radical #9 and 0 residual strokes.
Character 三 has the radical #1 and 2 residual strokes.
Character 古 has the radical #30 and 2 residual strokes.
Character 二 has the radical #7 and 0 residual strokes.

有关从基数序数到笔画计数的映射,请参见根部

票数 4
EN

Stack Overflow用户

发布于 2010-10-09 06:56:55

一本日文电话本是按语音分类的(日本政府关于校对)。然而,汉字顺序不是基于语音学的,无论是在Unicode,JIS,kanji还是EUC中。只有kana是基于语音顺序的。这意味着如果没有语音转换,你就无法进行有意义的校对!

例如:

代码语言:javascript
复制
a) kanji:           東京駅
b) kana converted:  とうきょうえき
c) romanisation:    tôkyô eki

使用b)或c),您可以做出有意义的排序。但你不能只用a)。当然,您可以运行普通的排序函数,但是它对日语没有意义。

票数 2
EN

Stack Overflow用户

发布于 2011-07-06 08:38:37

看看我的rubygem toPinyin,它将把UTF-8编码的汉字转换成他们的PinYin (发音)。然后,可以很容易地对拼音进行排序。

简单地说,gem install toPinyin

代码语言:javascript
复制
require 'toPinyin'

words = "
人
没有
理想
跟
咸鱼
有
什么
区别
".split("\n")

words.sort! {|a ,b|   a.pinyin.join <=> b.pinyin.join }

https://github.com/pierrchen/toPinyin

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3891556

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档