有没有人尝试过使用阿里云SDK创建实时视频通话应用?当我询问他们的支持时,他们说视频通话服务不适用于国际阿里巴巴云,但中国云可以。他们还提到,我可以尝试使用他们的SDK。我现在正在问他们关于提到的SDK的问题,这些SDK是什么。
如果有人有相关领域或技术的经验,请帮我弄清楚是否值得使用阿里云或使用其他云服务,因为阿里云不支持多云。
非常感谢!
阿里巴巴在中国的相关文件:
Speech to text from audio data in RTC [Windows]
发布于 2021-01-28 23:09:58
好消息是:有许多潜在的供应商和选项可以拼凑在一起。
坏消息是:这个问题并不容易,来自顶级研究和产品团队的产品并不是很健壮。
您可以在modelfront.com/compare上找到所有自助式机器翻译应用编程接口提供者的列表。这些供应商中的大多数也提供语音识别API,并且语音识别也可以在许多设备上使用。
但是,根据您的场景,您可能更好地使用语音到语音的方法(而不是将多个系统粘合在一起),甚至是本地模型(与外部应用程序接口相比),这有三个原因:quality和 model ,以及这两者的交互-即用户不想等待完整的句子,也不喜欢在新词出现时转换文本flickering。
如果你在r/machinetranslation中搜索,你会发现:
的“解释器模式”发布公告
上的百度公告
来自FBK的
的重新翻译与流式传输
来自的
百度研究在2019年的WMT上对此进行了主题演讲,最近谷歌也发布了一些more on flickering,但两者都专注于自己的产品,而不是为外部开发人员提供的产品。
https://stackoverflow.com/questions/65930024
复制相似问题