我想使用麻省理工学院的WAMI API (或其他语音识别API)和impress.js创建一个语音控制的幻灯片。我想包含一些简单的命令,比如“下一页”或“返回”。
有可能吗?我怎么能做到呢?
发布于 2012-01-13 22:05:58
也有another post in stackoverflow提出了一个非常类似的问题,但他们想使用谷歌的语音识别应用程序接口。这个问题有一个很好的答案。
还有一个新的Speech API in Chrome可以使用。这个解决方案的问题是,您必须单击一个图标来告诉语音识别引擎(ASR)开始收听,并且您的用户只能使用特定版本的Chrome。大多数这些解决方案的工作方式是,您必须单击图标才能获得用户的下一句话。因此,一旦ASR有一个命令,它就会识别,你必须再次点击图标,告诉它再次侦听。对于命令集非常有限的应用程序(即“下一步”和“后退”)来说,这没有太大的价值,因为对于用户来说,单击一个告诉应用程序前进或后退的按钮也同样容易。
看起来WAMI API允许您以编程方式启动识别过程,这是一个更好的替代方案。这是一个JavaScript应用程序接口,您只需将其包含在您的网页中即可开始侦听用户输入。documentation for this API为如何开发多模式语音识别应用程序提供了很好的示例。您将需要学习如何开发语法,以便向语音引擎指定要在应用程序中查找的语句。WAMI使用JSpeech Grammar Format。一旦你从ASR中识别出“下一张”或“上一张”,你只需使用JavaScript转到下一张或上一张幻灯片。
发布于 2013-09-08 07:40:25
我会在浏览器中使用SpeechRecognition应用程序接口。
有关使用JavaScript实现这一点的简单方法,请查看annyang,它是一个使处理语音识别变得超级简单的库。
发布于 2012-01-14 01:15:49
您可以尝试使用flash和sphinx4 http://cmusphinx.sourceforge.net构建的SpeechAPI,它允许您在浏览器中识别javascript。你可以在这里找到演示和其他东西:
http://speechapi.com/
您可以使用speech api sourceforge项目中的服务器安装您自己的语音识别服务器以使用flash
http://sourceforge.net/projects/speechcloud/
https://stackoverflow.com/questions/8845221
复制相似问题