我正在考虑使用沃森的发言文字软件,以帮助驱动我们的产品的语音命令。
我看到的所有示例都要求用户在发出命令之前按下按钮。但是,我不想让用户按一个按钮,我想要一个“唤醒词”或关键字来表示我们产品的命令开始。也就是说,我不想把声音源源不断地流到Watson的语音到文本软件,但是我正在寻找一种方法,让用户提供一个关键字或唤醒词开始发送声音,然后让Watson的讲话返回它听到的命令的文本。
例如,"OK,Google“开始向Google发送语音到文本。
IBM提供了一种方法来创建我自己的"OK,Google“关键字,而不必将我的应用程序可能听到的所有内容发送到文本中吗?
发布于 2018-01-31 16:23:05
现在,沃森语音到文本服务不支持单独的“唤醒词”检测模块。要做到这一点,我们目前的客户将使用一些边缘设备或服务来处理。类似于雪人(https://snowboy.kitt.ai/)或类似的东西。
发布于 2018-04-25 12:00:16
不确定沃森是否支持唤醒词。如果您计划将声音集成到运行在PC、平板电脑或电话上的软件应用程序中,您可以实现唤醒word。您可以使用Microsoft语音识别引擎或狮身人面像来实现它。
下面是使用Microsoft语音引擎的示例代码。
SpeechRecognitionEngine sr = new SpeechRecognitionEngine();
sr.SetInputToDefaultAudioDevice();
// Create a grammar that recognizes Wake-up word e.g. your app name
Choices wakeWord = new Choices();
wakeWord.Add("Cooper");
GrammarBuilder gb = new GrammarBuilder();
gb.Append(wakeWord);
Grammar g = new Grammar(gb);
sr.LoadGrammarAsync(g);
sr.SpeechRecognized += new EventHandler<SpeechRecognizedEventArgs>(sr_SpeechRecognized);你的应用程序将在唤醒词"Cooper“发出后被激活。在事件处理程序代码中,您可以捕获/记录声音并将其发送给Watson。
https://stackoverflow.com/questions/48511361
复制相似问题