如何在Perl?中对汉字、日文和韩文字符进行排序
据我所知,按照笔画计数对CJK字符进行排序,然后再按自由基排序,似乎就是对这些语言进行排序的方式。也有一些按声音排序的方法,但这似乎不太常见。
我试过用:
perl -e 'print join(" ", sort qw(工 然 一 人 三 古 二 )), "\n";'
# Prints: 一 三 二 人 古 工 然 which is incorrect我试过使用CPAN中的Unicode::Collate,但是它说:
默认情况下,CJK统一表意文字按Unicode码点顺序排序.
如果我能够获得每个字符的笔划计数数据库,我可以轻松地对所有字符进行排序,但这似乎没有随Perl一起出现,也没有封装在我能找到的任何模块中。
如果您知道如何在其他语言中对CJK进行排序,在回答这个问题时提及它将是有帮助的。
发布于 2010-10-08 19:34:57
有关肮脏的细节和角落案例,请参见TR38。这并不像您想的那么简单,就像下面的代码示例所显示的那样。
use 5.010;
use utf8;
use Encode;
use Unicode::Unihan;
my $u = Unicode::Unihan->new;
say encode_utf8 sprintf "Character $_ has the radical #%s and %d residual strokes." , split /[.]/, $u->RSUnicode($_) for qw(工 然 一 人 三 古 二);
__END__
Character 工 has the radical #48 and 0 residual strokes.
Character 然 has the radical #86 and 8 residual strokes.
Character 一 has the radical #1 and 0 residual strokes.
Character 人 has the radical #9 and 0 residual strokes.
Character 三 has the radical #1 and 2 residual strokes.
Character 古 has the radical #30 and 2 residual strokes.
Character 二 has the radical #7 and 0 residual strokes.有关从基数序数到笔画计数的映射,请参见根部。
发布于 2010-10-09 06:56:55
一本日文电话本是按语音分类的(日本政府关于校对)。然而,汉字顺序不是基于语音学的,无论是在Unicode,JIS,kanji还是EUC中。只有kana是基于语音顺序的。这意味着如果没有语音转换,你就无法进行有意义的校对!
例如:
a) kanji: 東京駅
b) kana converted: とうきょうえき
c) romanisation: tôkyô eki使用b)或c),您可以做出有意义的排序。但你不能只用a)。当然,您可以运行普通的排序函数,但是它对日语没有意义。
发布于 2011-07-06 08:38:37
看看我的rubygem toPinyin,它将把UTF-8编码的汉字转换成他们的PinYin (发音)。然后,可以很容易地对拼音进行排序。
简单地说,gem install toPinyin
require 'toPinyin'
words = "
人
没有
理想
跟
咸鱼
有
什么
区别
".split("\n")
words.sort! {|a ,b| a.pinyin.join <=> b.pinyin.join }https://stackoverflow.com/questions/3891556
复制相似问题