我想要一个工具,可以执行一个行动时,获得声音命令通过麦克风。我不感兴趣的语音识别和能力,如听写或语音文字输入。我想要的要简单得多:我发出声音,工具向活动应用程序发送一个键笔画,或者执行控制台命令。声音可能是一个单词,或者是几个单词,但是这个工具不需要识别单词本身--而是将整个声音样本与其数据库中的其他声音样本进行比较,选择最接近的声音,并执行相关的操作(如果没有足够接近的话)。我说的这个词可能是IT术语,或者是游戏术语/项目/字符,有时发音不像英语,所以语音识别在这里不会有任何好处。我想到的主要用例是“我说”构建“,它按下了IDE中的那个Ctrl-Alt-Shift-Something热键,我永远记不起来,也不能用手指正确地按”。有类似的东西吗?
或者,是否有一个允许快速比较/搜索短音频样本的软件库?例如,我记录了几个声音样本,使用这个库来计算某种常见的散列,然后使用同一个库来检查另一个声音样本是否与它们“相似”。有了这个,我就可以自己破解剩下的了。
到目前为止,我发现的似乎都是语音识别,这不是我所需要的。
发布于 2021-06-30 11:55:25
我认为你之所以只找到“语音识别”的东西,是因为最终那是你想要的。如果你需要比较两个发音,每一个有几个音节,那么你就需要有一个机制来比较它们。显然,如果您比较两个相同的录音,那么任何散列,如您所说,也会发现它们相同。但是,如果它们是重复话语的两次录音,它们将不会被咬得有点相同。你必须说,把它们分成音节,比较它们的频率或节奏,它们是上升还是下降,每个音节有多长,等等。但这听起来就像把它们分解成音素,并使用某种模糊的比较,你训练它们是否匹配。你猜怎么着-那就是语音识别;-)
https://softwarerecs.stackexchange.com/questions/79776
复制相似问题