我正在编写一个程序,可以将CJK音译为拉丁语(即拼音、罗马语等)。例如,您将中文、日文或韩文文档作为输入,然后将音译版本作为输出输入到拉丁文中。
我是这个领域的新手,所以请容忍我在这里。
显然,首先我需要检测语言的类型(汉语、日语或韩语),然后再做进一步的研究。然后,据我所知,为了完成音译,我需要把文本分成单词,因为在这些语言中,单词之间没有空格。这叫做分词。最后,在找出单词后,我需要将它们音译为拉丁语。
所以我的问题是:
发布于 2012-11-20 05:16:01
ICU:有例子在http://userguide.icu-project.org/transforms/general和ICU 50现在有CJK分词。uconv示例可以与类似于uconv -f utf-8 -t utf-8 -x 'Any-Latin'的内容一起使用,以进行任何拉丁转换。不过,这并没有考虑到语言。
https://stackoverflow.com/questions/13455282
复制相似问题