我正在寻找的应用程序接口来转换口语项目为文本的iOS,但主要是数字和字母,如1,2,3,4和a,b,c,d。
我试过许多人建议的OpenEars,但它似乎只支持某些单词,例如“向前、向后、左开始、右开始、停止转向”。它可以用来识别通用单词或语音数字吗?
我也尝试过iSpeech接口,但是当我说出像12345这样的数字字符串时,它只能返回文本“1 2 3 4 5”,并且它只能给我识别的结果,而不是一系列猜测(就像Android上的Google语音识别API一样)。
我如何使用这些API(或其他替代方法)来识别语音数字或字母?
发布于 2011-10-01 03:04:25
要了解如何创建自定义语言模型以及如何使用OpenEars动态创建语言模型(语言模型是您的自定义单词集),请阅读此处的OpenEars文档:
http://www.politepix.com/openears/yourapp
要了解如何在OpenEars中使用面向识别语音数字的声学模型,请阅读OpenEars论坛中的以下讨论:
http://www.politepix.com/forums/topic/way-to-see-phonemes-openears-heard
您还可以查看OpenEars示例应用程序中的代码,其中包含大量注释,并显示了一个更改应用程序内联“词汇表”的示例。如果您有更多关于实现OpenEars的问题,我建议您在OpenEars论坛上创建一个帐户(我是OpenEars开发人员)。
发布于 2016-01-05 04:21:04
我使用了以下基于sphinx unit tests的JSGF。
<int0> = (ZERO | OH);
<int10> = TEN;
<int100> = HUNDRED;
<int1to9> = ONE | TWO | THREE | FOUR | FIVE | SIX | SEVEN | EIGHT | NINE;
<int0to9> = ( <int0> | <int1to9> );
<int01to09> = <int0> <int1to9>;
<int11to19> = ELEVEN | TWELVE | THIRTEEN | FOURTEEN | FIFTEEN | SIXTEEN | SEVENTEEN | EIGHTEEN | NINETEEN;
<tens> = TWENTY | THIRTY | FORTY | FIFTY | SIXTY | SEVENTY | EIGHTY | NINETY;
<int20to99> = ( <tens> [<int1to9>] );
<int10to99> = ( <int10> | <int11to19> | <int20to99> );
<int1to99> = ( <int1to9> | <int10to99> );
<int0to99> = ( <int0> | <int1to99> );
<int01to99> = ( <int01to09> | <int10to99> );
<int1to9hundreds> = ((A | <int1to9>) <int100>);
<int101to999> = (<int1to9> (<int01to09> | <int10> | <int11to19> | <int20to99> ));
<int100to999> = (<int1to9hundreds> [[AND] <int1to99> ]);
<int1to999> = ( <int1to99> | <int100to999> | <int101to999> );https://stackoverflow.com/questions/7603441
复制相似问题