我从很小的时候就有严重到很严重的耳聋,但幸运的是我可以像正常人一样说话。口头交流对我来说一直很困难,因为我的语音识别能力受到了损害,即使是读唇语也是如此。我读完了学校和大学,只是通过阅读黑板、powerpoint幻灯片、书籍和互联网。我在目前的软件工程工作中做得很好,但最近我觉得我必须努力让我的情况变得更好。
字幕是我在这个国家理解电视电影/节目的救命稻草,我只是在过去的7年里才喜欢上字幕(我现在31岁了)。
我强烈地感到有必要在现实生活中看到字幕,无论何时我与某些人交谈,甚至是陌生人。我想开发一个未经训练的语音到文本的转换器,作为开始,它甚至不需要为我拼写确切的单词,只需音节/语音提示就可以了。
我已经在谷歌上搜索了一段时间,但大多数结果要么是文本到语音的转换,要么是语音识别向计算机发出语音命令的不成熟尝试。我真的很想得到一些关于如何开始这个项目的指针。具体地说,我需要一些步骤,比如如何处理音频文件,以及如何处理才能尽可能快地获得近似的语音。
发布于 2009-12-05 10:47:54
您可能想看看CMU's Sphinx project,它可以实时地将语音转换为文本。他们有一些demos可以试用一下。
发布于 2009-12-05 11:23:43
看看DSP guide,它更多的是关于底层的东西,但像傅立叶变换和滤波这样的技术对音频处理非常重要。即使你不是从零开始,欣赏它的原理和应用也是很好的。
也就是说,我打赌从零开始,一个人可以通过几天的工作创造出一些可以区分出一组基本声音的东西……
发布于 2009-12-05 11:41:11
这里有一些其他的问题可能会给你一些想法:
看看SIL Linguistics Computing吧。
祝好运。
https://stackoverflow.com/questions/1850944
复制相似问题