文章/答案/技术大牛

发布

社区首页 >问答首页 >说话人识别vs说话人识别google cloud vs microsoft azure vs ibm watson vs aws转录

问说话人识别vs说话人识别google cloud vs microsoft azure vs ibm watson vs aws转录
EN

Stack Overflow用户

提问于 2020-01-20 11:35:48

回答 1查看 1.1K关注 0票数 0

我想做一个语音到文本分析的项目，我想要1)说话人识别，2)说话人二元化，3)语音到文本。现在我正在测试为微软，谷歌，亚马逊，IBM等公司提供的各种API，我发现在微软，你可以选择用户注册和说话人识别(https://cognitivewuppe.portal.azure-api.net/docs/services/563309b6778daf02acc0a508/operations/5645c3271984551c84ec6797)，但是，所有其他平台都有说话人二值化，但没有说话人识别。在扬声器二元化中，如果我理解正确，它将能够“区分”用户，但它如何识别，除非我不注册他们？我在azure中只能找到可用的注册选项

但我想确认一下，所以我想在这里检查一下，也许我看到的是正确的文档，或者在Google cloud、Watson和AWS转录中有其他方法来实现这一点。如果是这样的话，你们能帮我吗？

azure-cognitive-services

google-cloud-speech

azure-speech

google-cloud-platform

ibm-watson

回答 1

Stack Overflow用户

发布于 2020-01-23 19:13:18

Speaker Recognition分为两类:说话人验证和说话人识别。https://docs.microsoft.com/en-us/azure/cognitive-services/speaker-recognition/home

二元化是在一段音频中分离扬声器的过程。我们的批量流水线支持二进制，并能够识别单声道录音中的两个扬声器。当您使用批处理转录api并启用二值化时。它将返回1,2。所有转录输出都包含SpeakerId。如果不使用对数，它将在JSON输出中显示"SpeakerId"：null。对于对数，我们支持两种声音，因此说话者将被识别为"1“或"2”。https://github.com/MicrosoftDocs/azure-docs/blob/master/articles/cognitive-services/Speech-Service/batch-transcription.md

例如:在呼叫中心场景中，客户不需要识别谁在说话，并且不能预先使用扬声器声音训练模型，因为每次都有新用户呼叫。相反，在将语音转换为文本时，它们只需要识别不同的声音。

或

您可以使用Video Indexer支持从文本和语音音调进行转录、演讲者二元化(枚举)和情感识别。此外，还提供话题推理、语言识别、品牌检测、翻译等其他洞察。您可以通过视频或纯音频API进行COGS优化消费。您可以使用VI进行扬声器二进制转换。当您了解JSON之后，您可以在Insights.transcript.speakerId和Insights.Speakers下找到扬声器ID。在处理音频文件时，每个说话者都是在不同的通道上重新编码的，VI会识别这一点，并相应地应用转录和二值化。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/59816703

复制

相似问题

问说话人识别vs说话人识别google cloud vs microsoft azure vs ibm watson vs aws转录
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问说话人识别vs说话人识别google cloud vs microsoft azure vs ibm watson vs aws转录EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问说话人识别vs说话人识别google cloud vs microsoft azure vs ibm watson vs aws转录
EN