我正在寻找一个软件,一个库或一个算法,可以训练,以识别大约十几个说话人独立的声音命令。
命令将是非常不同的短语,每个4-5个单词。他们可以被选择来听起来彼此之间很不一样。此外,这些命令将使用两种以上不同的语言。用户将被引导只说出确切的短语,并在麦克风前慢慢地、响亮地、清晰地说话。
我目前正在寻找一种算法,可以比较语音谱图,并给我一个匹配的百分比,但到目前为止没有运气。有什么想法吗?
如果有帮助,可以只为特定的短语编写代码,在最坏的情况下,可以将短语减少到3或4。
操作系统可以是Linux (最好)、Windows或Android。没有互联网服务。
发布于 2014-12-14 08:51:51
西蒙正是你要找的东西。
西蒙不是一个完整的演讲到文字引擎,龙自然地说,但你可以编程西蒙,以识别特定的短语和执行特定的行动。即使这些短语是由不同的人说的,这也是有效的。
Simon运行在所有现代Linux发行版上,并且非常容易安装和配置。
发布于 2014-10-15 03:15:12
您需要一个像龙自然说这样的软件应用程序。龙自然是最早的语音识别程序之一。我记得我以前听过他们说这是件新奇的事。
以下是他们对专业版的推广:
要求更高的生产力。非常适合学生、教师、教授、自营职业者、顾问、专业人士、作家/博客作者,以及那些花很多时间在电脑上的人。口授比打字快三倍;你的文字几乎立刻出现在屏幕上。说话自然,龙能识别你说的话,准确率高达99%。口述没有拼写错误的文档、电子表格和演示文稿。使用数字语音记录器或兼容的iOS和安卓™设备捕捉笔记,龙将为您转录音频。利用宽带蓝牙技术支持更高的无线精度。使用Excel 2010和2013 (32位和64位)支持全文控制的应用程序。Microsoft PowerPoint 2010和2013中对菜单跟踪和英语自然语言命令的应用程序支持。移动听写-允许转录由一个人说的录音。能够导入/导出自定义单词列表和用户配置文件。轻松创建命令插入经常使用的文本和/或图形的声音。
https://softwarerecs.stackexchange.com/questions/11880
复制相似问题