我的目标是为金融领域创建一个自定义翻译引擎,语言对CHT - EN和CHS - EN。我已经准备好了各自的字典和对齐的片段,可以导入到自定义引擎并训练引擎。
如果我正确理解了文档(https://www.ibm.com/watson/developercloud/doc/language-translation/),我只能在现有域和语言对的基础上进行构建。因此,对于汉英翻译,我只能选择专利领域,导入自己的词典和语料库,然后重新训练。虽然不确定这是否有意义,但也不清楚我们谈论的是繁体中文还是简体中文。我首先需要繁体中文服务,然后才是简体中文服务。
另一种选择是建立在财经新闻域的基础上,但中文-英文的新闻不可用。
我正在尝试找出如何继续下去的最佳实践,并感谢任何指导。
谢谢!
发布于 2018-02-18 08:22:51
要创建模型,您可以使用具有高频率或高置信度短语翻译的词汇表或并行语料库(TMX文件)。
正如@Nathan所说,如果你使用zh-en-patent作为base_model_id,你将同时支持使用unihan的繁体和简体中文。zh-en-patent是目前唯一可以使用将中文翻译成英文的模型。
以下是有关如何使用IBM Watson Language Translator service创建自定义转换模型的指南。
https://stackoverflow.com/questions/39120127
复制相似问题