我正在写一个与声音有关的项目。我正在开发一个功能来实时区分人们的声音。我使用Microsoft说话人识别API来区分人们的声音。
根据API指南,我必须上传一个WAV文件来接收音频并区分声音中的用户。然而,我需要使用实时音频流来区分用户的声音.
因此,我的问题是:如何使用实时音频流来实现说话人识别?
发布于 2020-03-19 18:52:38
当前版本的API (1.0)不支持音频流,但2.0版将支持这一点,几个月后(2020年夏季)就可以使用了。
https://stackoverflow.com/questions/48249177
复制相似问题