我想做一个语音到文本分析的项目,我想要1)说话人识别,2)说话人二元化,3)语音到文本。现在我正在测试为微软,谷歌,亚马逊,IBM等公司提供的各种API,我发现在微软,你可以选择用户注册和说话人识别(https://cognitivewuppe.portal.azure-api.net/docs/services/563309b6778daf02acc0a508/operations/5645c3271984551c84ec6797),但是,所有其他平台都有说话人二值化,但没有说话人识别。在扬声器二元化中,如果我理解正确,它将能够“区分”用户,但它如何识别,除非我不注册他们?我在azure中只能找到可用的注册选项
但我想确认一下,所以我想在这里检查一下,也许我看到的是正确的文档,或者在Google cloud、Watson和AWS转录中有其他方法来实现这一点。如果是这样的话,你们能帮我吗?
发布于 2020-01-23 19:13:18
Speaker Recognition分为两类:说话人验证和说话人识别。https://docs.microsoft.com/en-us/azure/cognitive-services/speaker-recognition/home
二元化是在一段音频中分离扬声器的过程。我们的批量流水线支持二进制,并能够识别单声道录音中的两个扬声器。当您使用批处理转录api并启用二值化时。它将返回1,2。所有转录输出都包含SpeakerId。如果不使用对数,它将在JSON输出中显示"SpeakerId":null。对于对数,我们支持两种声音,因此说话者将被识别为"1“或"2”。https://github.com/MicrosoftDocs/azure-docs/blob/master/articles/cognitive-services/Speech-Service/batch-transcription.md
例如:在呼叫中心场景中,客户不需要识别谁在说话,并且不能预先使用扬声器声音训练模型,因为每次都有新用户呼叫。相反,在将语音转换为文本时,它们只需要识别不同的声音。
或
您可以使用Video Indexer支持从文本和语音音调进行转录、演讲者二元化(枚举)和情感识别。此外,还提供话题推理、语言识别、品牌检测、翻译等其他洞察。您可以通过视频或纯音频API进行COGS优化消费。您可以使用VI进行扬声器二进制转换。当您了解JSON之后,您可以在Insights.transcript.speakerId和Insights.Speakers下找到扬声器ID。在处理音频文件时,每个说话者都是在不同的通道上重新编码的,VI会识别这一点,并相应地应用转录和二值化。
https://stackoverflow.com/questions/59816703
复制相似问题