我当时正在https://speech-to-text-demo.mybluemix.net/玩IBM的演讲到文本演示。我用两个扬声器上传了一个音频文件。沃森返回没有说话人标识符的转录文本。没有迹象表明哪个词是哪个说话人说的。IBM Watson支持“说话人数字化”/“说话人识别”吗?
发布于 2016-03-30 16:17:24
我们正在研究Speaker Diarization。目前还没有ETA,但希望很快就能实现。就像今天一样,服务部门把音频当作是同一个扬声器。
发布于 2016-03-30 12:15:16
不,不幸的是,没有。
https://stackoverflow.com/questions/36303636
复制相似问题