我对以编程方式运行webkitSpeechRecognition API很感兴趣。我想获取一个上传到服务器上的音频文件,并在后端使用webkitSpeechRecognition接口来识别文本并将结果返回给客户端。
一种可能是运行某种形式的“嵌入式”版本的Chrome,但我不确定如何传入音频输入。另一种方法是使用某种形式的C++绑定来访问应用程序接口,但我不确定这是否过于复杂。
这个是可能的吗?如何做到这一点呢?
发布于 2015-03-14 00:27:31
我以前也这样做过,但规模不是很大。我用了这个软件,
http://vb-audio.pagesperso-orange.fr/Cable/index.htm
我从这个链接中找到的
Play audio as microphone input
有了它,你就可以识别你通过扬声器播放的任何东西,该程序可以制作一个虚拟麦克风,它可以从它创建的虚拟扬声器中流式传输音频。
至于你的chrome嵌入式版本,你可以试着抓取铬的源代码,并将他们从麦克风中读取的代码替换为从文件中读取的代码,我不知道你会用这种方式走多远,但我从来没有读过那个代码。
https://stackoverflow.com/questions/28245980
复制相似问题