我目前正在做关于Cortana的研究,因为我有兴趣为它做一些自定义技能的开发。目前,我正在使用Cortana调用Windows语音识别,然后我可以使用WSR将文本口述到Word中。我正在尝试将其作为一种可能性,用于记录和实时生成会议记录。
正如我所发现的,这是一个相当麻烦的问题,我很好奇是否可以做些什么来在Cortana中集成一个机器人来实现同样的目的。我查阅并阅读了一些关于Azure机器人框架、认知服务、LUIS等的内容。
是否有可能使用上述服务来开发这样的解决方案?
提前谢谢你!
发布于 2018-05-21 07:16:21
是的,这是可能的。
您可以将流提供给Speech to Text API,然后根据返回的Offset和每个短语的Duration对音频进行分块,然后将这些分块发送到Speaker Recognition API以根据名称识别说话者,这样您就可以获得每个分块的名称,以便与其转录的短语放在一起,并创建一个对话
由于您主要考虑将其用于会议,您提到的解决方案已于不久前作为微软团队的一项功能宣布,并且将在near功能中公开提供。您还可以观看here在Build 2018上演示的演示
https://stackoverflow.com/questions/50386814
复制相似问题