首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >将CJK音译为拉丁文--最好用C++。

将CJK音译为拉丁文--最好用C++。
EN

Stack Overflow用户
提问于 2012-11-19 13:55:43
回答 1查看 1.2K关注 0票数 0

我正在编写一个程序,可以将CJK音译为拉丁语(即拼音、罗马语等)。例如,您将中文、日文或韩文文档作为输入,然后将音译版本作为输出输入到拉丁文中。

我是这个领域的新手,所以请容忍我在这里。

显然,首先我需要检测语言的类型(汉语、日语或韩语),然后再做进一步的研究。然后,据我所知,为了完成音译,我需要把文本分成单词,因为在这些语言中,单词之间没有空格。这叫做分词。最后,在找出单词后,我需要将它们音译为拉丁语。

所以我的问题是:

  1. 有很多(嗯,不是真的!)最好是一些)库来完成音译工作,因为我正在寻找C/C++中的开源库,所以我找到了Adson (只用于中文)和ICU4C。从Adson 不编译克隆Git。我也找不到简单、直接的ICU4C教程。如何才能找到一些关于ICU4C使用的教程?你知道还有其他图书馆可以把CJK音译为拉丁语吗?如果准确率较高(~90%),我可以忘记它是用C++编写的。
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-11-20 05:16:01

ICU:有例子在http://userguide.icu-project.org/transforms/general和ICU 50现在有CJK分词。uconv示例可以与类似于uconv -f utf-8 -t utf-8 -x 'Any-Latin'的内容一起使用,以进行任何拉丁转换。不过,这并没有考虑到语言。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/13455282

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档