文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在Perl或任何其他编程语言中对CJK (亚洲)字符进行排序？

问如何在Perl或任何其他编程语言中对CJK (亚洲)字符进行排序？
EN

Stack Overflow用户

提问于 2010-10-08 14:28:13

回答 3查看 2.6K关注 0票数 11

如何在Perl?中对汉字、日文和韩文字符进行排序

据我所知，按照笔画计数对CJK字符进行排序，然后再按自由基排序，似乎就是对这些语言进行排序的方式。也有一些按声音排序的方法，但这似乎不太常见。

我试过用：

perl -e 'print join(" ", sort qw(工 然 一 人 三 古 二 )), "\n";'
# Prints: 一 三 二 人 古 工 然 which is incorrect

我试过使用CPAN中的Unicode::Collate，但是它说：

默认情况下，CJK统一表意文字按Unicode码点顺序排序.

如果我能够获得每个字符的笔划计数数据库，我可以轻松地对所有字符进行排序，但这似乎没有随Perl一起出现，也没有封装在我能找到的任何模块中。

如果您知道如何在其他语言中对CJK进行排序，在回答这个问题时提及它将是有帮助的。

sorting

unicode

collation

cjk

perl

回答 3

Stack Overflow用户

回答已采纳

发布于 2010-10-08 19:34:57

有关肮脏的细节和角落案例，请参见TR38。这并不像您想的那么简单，就像下面的代码示例所显示的那样。

use 5.010;
use utf8;
use Encode;
use Unicode::Unihan;
my $u = Unicode::Unihan->new;

say encode_utf8 sprintf "Character $_ has the radical #%s and %d residual strokes." , split /[.]/, $u->RSUnicode($_) for qw(工 然 一 人 三 古 二);
__END__
Character 工 has the radical #48 and 0 residual strokes.
Character 然 has the radical #86 and 8 residual strokes.
Character 一 has the radical #1 and 0 residual strokes.
Character 人 has the radical #9 and 0 residual strokes.
Character 三 has the radical #1 and 2 residual strokes.
Character 古 has the radical #30 and 2 residual strokes.
Character 二 has the radical #7 and 0 residual strokes.

有关从基数序数到笔画计数的映射，请参见根部。

票数 4

Stack Overflow用户

发布于 2010-10-09 06:56:55

一本日文电话本是按语音分类的(日本政府关于校对)。然而，汉字顺序不是基于语音学的，无论是在Unicode，JIS，kanji还是EUC中。只有kana是基于语音顺序的。这意味着如果没有语音转换，你就无法进行有意义的校对！

例如：

a) kanji:           東京駅
b) kana converted:  とうきょうえき
c) romanisation:    tôkyô eki

使用b)或c)，您可以做出有意义的排序。但你不能只用a)。当然，您可以运行普通的排序函数，但是它对日语没有意义。

票数 2

Stack Overflow用户

发布于 2011-07-06 08:38:37

看看我的rubygem toPinyin，它将把UTF-8编码的汉字转换成他们的PinYin (发音)。然后，可以很容易地对拼音进行排序。

简单地说，gem install toPinyin

require 'toPinyin'

words = "
人
没有
理想
跟
咸鱼
有
什么
区别
".split("\n")

words.sort! {|a ,b|   a.pinyin.join <=> b.pinyin.join }

https://github.com/pierrchen/toPinyin

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/3891556

复制

相似问题

问如何在Perl或任何其他编程语言中对CJK (亚洲)字符进行排序？
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在Perl或任何其他编程语言中对CJK (亚洲)字符进行排序？EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在Perl或任何其他编程语言中对CJK (亚洲)字符进行排序？
EN