你知道那些技术极客录制某人的声音,然后他们的软件将其分解成音素的电影吗?然后他们可以用它来输入任何短语,并让它看起来像是目标在说它?
该软件是否存在API版本?我甚至不知道用谷歌搜索什么。
发布于 2011-08-11 10:14:13
没有这样的软件。将任意语音分解成其组成的音素只是一个部分解决的问题:和text-to-speech一样,speech-to-text软件仍然不完善。
这个想法是为了重现目标声音的timbre。即使您能够完美地分割音频,重新排序音素也会产生不自然的节奏和语调的音频,更不用说拼接的伪像了。在这一点上,你进入了平滑、时间缩放和音调校正,所有这些在理论上都是可能的,并且在理论上都很容易理解,但在现实世界的数据上运行得很差,特别是当有问题的音频样本像单个音素一样短的时候,以及需要保留音色的时候。
这些问题在语音方面由于重音和周围音素的allophonic变化而变得复杂;为了忠实地产生即使是低质量的近似音频,您需要详细了解目标的语言、重音和语音模式。
此外,您的最终问题是social engineering,当涉及到他们认识的人的声音时,人们不容易被愚弄。即使有一个庞大的输入数据语料库,你也最多只能得到一个短的低质量样本,很难满足对话的需要。
因此,虽然它肯定是可能的,但它是困难的;即使它存在,它也不会总是足够好。
发布于 2014-02-01 02:11:21
SRI International (为iOS开发了Siri的公司)有一个名为EduSpeak的软件开发工具包,它可以接收音频输入,并将其分解为单独的音素。我之所以知道这一点,是因为我在大约一周前观看了该产品的演示。在演示期间,演示者向我们展示了一个使用SDK创建的应用程序。应用程序提供了几行文本供演示者阅读。在阅读文本后,应用程序显示了一个条形图,其中每个条形图表示他的语音中的一个音素。每条线条的高度代表了每个音素发音的好坏的分数(演讲者不是以英语为母语的人,所以他在某些音素上的分数比其他音素低)。演示者还可以点击每个单独的条,以便仅使用原始音频回放该单独的音素。
是的,有一种软件可以根据音素来划分音频,而且它做得很好。现在,这些音素是否可以重新组合成语音是一个悬而未决的问题。如果我们最终得到了SDK的试用版,我会试一试,然后让你知道。
发布于 2011-08-11 14:27:05
如果你的目标是模仿别人的声音,那么另一种态度是转换你自己的声音(而不是组装音素)。它(令人惊讶地)被称为语音转换,例如http://www.busim.ee.boun.edu.tr/~speech/projects/Voice_Conversion.htm
https://stackoverflow.com/questions/7019999
复制相似问题