我们需要构建一个自定义模型,其中包含大量已经按音素转录的自定义词汇表,但是当前用于指定自定义单词的应用编程接口还没有发布用于指定音素字符串的选项,而不是手动生成的临时"sounds_like“正字法字符串。由于我们还没有找到任何可靠的工具来按规则从音素字符串生成等效的“听起来像”的字符串,这是我们能够成功使用IBM语音到文本引擎的真正障碍。
在通过IBM cloud speech- to -text API将自定义单词添加到自定义模型时,是否有可接受的语音/音素字母表和可用的API机制来指定音素字符串而不是另一个正字法,以指示自定义单词的发音?(即类似于IPA以及在IBMs - to -speech API中使用它的机制?)
(或者,IBM或其他公司有没有好的工具可以将音素序列转换为正字法,保证它们的ASR引擎可以将其重新转换回相同的音素字符串?)
发布于 2020-10-27 00:56:15
通过技术支持,我发现目前API中有一个“暗/无文档”的功能,通过该功能,用户可以在"sounds_like“规范中指定音素字符串,方法是使用以下格式封装语音字符串:"”。
例如,下面是一个为单词‘challah’添加发音'hɑː.lə‘的cURL示例:
curl -u $CREDS -X PUT --header "Content-Type:application/json" --data "{\"sounds_like\":[\"<phoneme hɑː.lə>\"]}" https://stream.watsonplatform.net/speech-to-text/api/v1/customizations/$custID/words/challah在构建CustomWord对象并通过接口提交对象时,也可以使用这种格式。
IPA符号的可接受范围似乎与其文本到语音转换应用程序接口的可接受范围相同,可以在以下位置找到:https://cloud.ibm.com/docs/text-to-speech?topic=text-to-speech-usSymbols
https://stackoverflow.com/questions/63942213
复制相似问题