首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >API将语音分解为音素/在给定语音样本的情况下合成新语音?

API将语音分解为音素/在给定语音样本的情况下合成新语音?
EN

Stack Overflow用户
提问于 2011-08-11 09:57:34
回答 7查看 9.7K关注 0票数 18

你知道那些技术极客录制某人的声音,然后他们的软件将其分解成音素的电影吗?然后他们可以用它来输入任何短语,并让它看起来像是目标在说它?

该软件是否存在API版本?我甚至不知道用谷歌搜索什么。

EN

回答 7

Stack Overflow用户

回答已采纳

发布于 2011-08-11 10:14:13

没有这样的软件。将任意语音分解成其组成的音素只是一个部分解决的问题:和text-to-speech一样,speech-to-text软件仍然不完善。

这个想法是为了重现目标声音的timbre。即使您能够完美地分割音频,重新排序音素也会产生不自然的节奏和语调的音频,更不用说拼接的伪像了。在这一点上,你进入了平滑、时间缩放和音调校正,所有这些在理论上都是可能的,并且在理论上都很容易理解,但在现实世界的数据上运行得很差,特别是当有问题的音频样本像单个音素一样短的时候,以及需要保留音色的时候。

这些问题在语音方面由于重音和周围音素的allophonic变化而变得复杂;为了忠实地产生即使是低质量的近似音频,您需要详细了解目标的语言、重音和语音模式。

此外,您的最终问题是social engineering,当涉及到他们认识的人的声音时,人们不容易被愚弄。即使有一个庞大的输入数据语料库,你也最多只能得到一个短的低质量样本,很难满足对话的需要。

因此,虽然它肯定是可能的,但它是困难的;即使它存在,它也不会总是足够好。

票数 14
EN

Stack Overflow用户

发布于 2014-02-01 02:11:21

SRI International (为iOS开发了Siri的公司)有一个名为EduSpeak的软件开发工具包,它可以接收音频输入,并将其分解为单独的音素。我之所以知道这一点,是因为我在大约一周前观看了该产品的演示。在演示期间,演示者向我们展示了一个使用SDK创建的应用程序。应用程序提供了几行文本供演示者阅读。在阅读文本后,应用程序显示了一个条形图,其中每个条形图表示他的语音中的一个音素。每条线条的高度代表了每个音素发音的好坏的分数(演讲者不是以英语为母语的人,所以他在某些音素上的分数比其他音素低)。演示者还可以点击每个单独的条,以便仅使用原始音频回放该单独的音素。

是的,有一种软件可以根据音素来划分音频,而且它做得很好。现在,这些音素是否可以重新组合成语音是一个悬而未决的问题。如果我们最终得到了SDK的试用版,我会试一试,然后让你知道。

票数 5
EN

Stack Overflow用户

发布于 2011-08-11 14:27:05

如果你的目标是模仿别人的声音,那么另一种态度是转换你自己的声音(而不是组装音素)。它(令人惊讶地)被称为语音转换,例如http://www.busim.ee.boun.edu.tr/~speech/projects/Voice_Conversion.htm

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/7019999

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档