文章/答案/技术大牛

发布

社区首页 >问答首页 >API将语音分解为音素/在给定语音样本的情况下合成新语音？

问API将语音分解为音素/在给定语音样本的情况下合成新语音？
EN

Stack Overflow用户

提问于 2011-08-11 09:57:34

回答 7查看 9.7K关注 0票数 18

你知道那些技术极客录制某人的声音，然后他们的软件将其分解成音素的电影吗？然后他们可以用它来输入任何短语，并让它看起来像是目标在说它？

该软件是否存在API版本？我甚至不知道用谷歌搜索什么。

phoneme

api

audio

signal-processing

回答 7

Stack Overflow用户

回答已采纳

发布于 2011-08-11 10:14:13

没有这样的软件。将任意语音分解成其组成的音素只是一个部分解决的问题:和text-to-speech一样，speech-to-text软件仍然不完善。

这个想法是为了重现目标声音的timbre。即使您能够完美地分割音频，重新排序音素也会产生不自然的节奏和语调的音频，更不用说拼接的伪像了。在这一点上，你进入了平滑、时间缩放和音调校正，所有这些在理论上都是可能的，并且在理论上都很容易理解，但在现实世界的数据上运行得很差，特别是当有问题的音频样本像单个音素一样短的时候，以及需要保留音色的时候。

这些问题在语音方面由于重音和周围音素的allophonic变化而变得复杂；为了忠实地产生即使是低质量的近似音频，您需要详细了解目标的语言、重音和语音模式。

此外，您的最终问题是social engineering，当涉及到他们认识的人的声音时，人们不容易被愚弄。即使有一个庞大的输入数据语料库，你也最多只能得到一个短的低质量样本，很难满足对话的需要。

因此，虽然它肯定是可能的，但它是困难的；即使它存在，它也不会总是足够好。

票数 14

Stack Overflow用户

发布于 2014-02-01 02:11:21

SRI International (为iOS开发了Siri的公司)有一个名为EduSpeak的软件开发工具包，它可以接收音频输入，并将其分解为单独的音素。我之所以知道这一点，是因为我在大约一周前观看了该产品的演示。在演示期间，演示者向我们展示了一个使用SDK创建的应用程序。应用程序提供了几行文本供演示者阅读。在阅读文本后，应用程序显示了一个条形图，其中每个条形图表示他的语音中的一个音素。每条线条的高度代表了每个音素发音的好坏的分数(演讲者不是以英语为母语的人，所以他在某些音素上的分数比其他音素低)。演示者还可以点击每个单独的条，以便仅使用原始音频回放该单独的音素。

是的，有一种软件可以根据音素来划分音频，而且它做得很好。现在，这些音素是否可以重新组合成语音是一个悬而未决的问题。如果我们最终得到了SDK的试用版，我会试一试，然后让你知道。

票数 5

Stack Overflow用户

发布于 2011-08-11 14:27:05

如果你的目标是模仿别人的声音，那么另一种态度是转换你自己的声音(而不是组装音素)。它(令人惊讶地)被称为语音转换，例如http://www.busim.ee.boun.edu.tr/~speech/projects/Voice_Conversion.htm

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/7019999

复制

相似问题

问API将语音分解为音素/在给定语音样本的情况下合成新语音？
EN

回答 7

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问API将语音分解为音素/在给定语音样本的情况下合成新语音？EN

回答 7

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问API将语音分解为音素/在给定语音样本的情况下合成新语音？
EN