文章/答案/技术大牛

发布

社区首页 >问答首页 >有没有比kakasi库更好的gojüon校对工具呢？

问有没有比kakasi库更好的gojüon校对工具呢？
EN

Stack Overflow用户

提问于 2010-10-10 00:41:47

回答 3查看 645关注 0票数 9

“更好”主要意味着准确性，但我也对其他系统优于的任何其他标准感兴趣。我以一种公认的有限的方式对Perl绑定Text::Kakasi进行了正确性测试，它可以很好地满足我们的需要。

use utf8;
use Encode;
use Text::Kakasi;
use Unicode::Collate;

my $k = Text::Kakasi->new(qw(-iutf8 -outf8 -JH));
my $c = Unicode::Collate->new;

print encode_utf8 $_ for
    map  { $_->[0] }
    sort { $c->cmp($a->[1], $b->[1]) }
    map  { [$_, $k->get($_)] }
    <DATA>;

__DATA__
アメリカ合衆国
アラブ首長国連邦
ロシア連邦
中国
南アフリカ共和国
日本
北京（ペキン）
大阪
東京

cjk

perl

unicode

collation

回答 3

Stack Overflow用户

发布于 2012-05-27 19:12:29

我所知道的唯一另一个(严肃的)开源转换工具是N-gram，而不是最明确的名字……它有很大的字典，而且可能比Kakasi更好。但我还没有看到任何比较。

编辑：

在这种情况下，我考虑了一个图书馆比其他图书馆“更好”的概念。可以做的一件事是获取N-gram的字典，并将它们与kakasi进行比较。如果kakasi无法转换N-gram的一些条目，那么可以说N-gram更好，因为它的词典更丰富--提高了校对的准确性。

然而，由于基于汉字的单词(需要转换为假名才能正确地进行整理)的语料库不是有限的-姓氏等是一个大问题，因为它们几乎可以以任何你能想象的方式阅读-不可能有一个解决方案提供100%的覆盖率。但行动要求的是一个“更好”的解决方案，而不是一个完美的.

票数 5

Stack Overflow用户

发布于 2010-10-10 15:02:02

我不确定“权威”的意思是什么。

但我可以说Kakashi是众所周知的免费软件库，至今仍未过时。

如果您可以通过Kakashi将汉字字符串转换为平假名(或片假名)字符串，那么得到的排序顺序就会很好。

http://www.utf8-chartable.de/unicode-utf8-table.pl

票数 2

Stack Overflow用户

发布于 2012-05-22 20:40:31

考虑到Kakasi所做的一切只是从提供的特定日语字符串的字典中提取kana/romaji，您几乎没有比这更精确的了。精确度取决于所用词典的质量。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/3896935

复制

相似问题

问有没有比kakasi库更好的gojüon校对工具呢？
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问有没有比kakasi库更好的gojüon校对工具呢？EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问有没有比kakasi库更好的gojüon校对工具呢？
EN