首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >文本转语音技术突破:让计算机拥有更自然的“声音”

文本转语音技术突破:让计算机拥有更自然的“声音”

原创
作者头像
用户11764306
发布2026-01-28 19:30:20
发布2026-01-28 19:30:20
950
举报

文本转语音技术的进步帮助计算机找到自己的“声音”

生成自然、类人的语音是科学家们数十年的目标。

编者按: Alexa团队最近推出了一种新的长篇内容朗读风格,使Alexa在阅读长篇文章时听起来更加自然。如果您更喜欢听而不是阅读,下文是利用此长篇朗读风格制作的文章。计算机生成的合成语音正变得越来越普遍。亚马逊的语音服务Alexa响应客户的问题和请求已超过五年,如今在数亿台设备上可用。其他企业也利用计算机生成的语音来处理客户服务电话、推广产品等。

如何让Alexa听起来更有人情味

语言和语音极其复杂。词语有意义,词语的语境、背后的情感以及听者的反应也同样重要。口语的微妙之处似乎连最精密的计算机也无法企及。但近年来,文本转语音(TTS)技术的进步——即计算机将一系列词语转换为自然、清晰的音频响应的能力——已使计算机听起来更加人性化。

该领域的一场革命发生在2016年,当时推出了WaveNet——一种生成原始音频的技术。这项由位于伦敦的人工智能公司DeepMind的研究人员创建的技术,可以使用经过真实语音录音训练的神经网络生成逼真的语音。

“这项早期研究表明,一种新的机器学习方法提供了相当或更高的质量以及更大的灵活性潜力,”位于英国剑桥的TTS研究团队高级经理安德鲁·布林表示。布林长期致力于使计算机语音更具响应性和真实性。

生成自然语音

生成自然、类人的语音是科学家们数十年的目标。在20世纪30年代,贝尔实验室的科学家霍默·达德利发明了Voder,一种原始的合成语音机器,操作员像弹钢琴键盘一样操作它——出来的不是音乐,而是刺耳的机械声音。在20世纪80年代,由数字设备公司开发的名为DECTalk的计算机化TTS应用已经发展到能够让已故的斯蒂芬·霍金使用其版本,配合键盘来“说话”。结果是听起来人工但清晰可辨的词语,许多人仍然认为那是机器在说话。

“这真的是一场发明的淘金热,”布林说。

到21世纪初,更精确的语音合成变得普遍。当时最主要的方法是:混合单元拼接。例如,某机构在2015年之前使用这种方法构建Alexa语音的早期版本,或为Fire Tablet等产品构建语音功能。某机构TTS组的主要产品经理尼基尔·夏尔马说:“为了创建一些早期的Alexa语音,我们与配音演员在录音室里工作数小时,让他们说出各种各样的短语。我们将这些语音数据分解为单个双音素(一个双音素是两个音素各一半的组合,音素是声音的独特单位),并将其放入一个大型音频数据库中。然后,当需要生成语音时,我们可以利用该数据库选择最佳的双音素,将它们拼接起来,形成Alexa说出的句子。”

这个过程效果相当不错。但混合单元拼接有其局限性。它需要大量由专业配音演员预先录制的声音作为参考——有点像游客不停地翻阅一本大部头的法语书来查找特定的短语。“因此,我们很难说混合单元拼接系统‘学会’了一门语言,”布林说。

迈向学习的机器

创造一个真正“学习”语言——而不仅仅是记忆短语——的计算机成为了研究人员的目 标。“那一直是圣杯,但没有人知道如何实现,”布林说。“我们很接近,但有一个质量上限限制了它的可行性。”

神经网络提供了一条实现之路。2018年,某机构的科学家证明,通过使用生成式神经网络方法来创建合成语音,他们可以生成听起来自然的语音。使用生成式神经网络方法,Alexa还可以根据特定内容灵活调整说话方式。例如,某机构的科学家仅用几小时的训练数据就创建了Alexa的新闻播报风格语音,使客户能够以他们习惯的风格收听新闻。这一进步为Alexa和其他某机构服务在不同情境下采用不同说话风格铺平了道路,从而改善了客户体验。

前瞻

某机构的研究人员正在努力教导计算机理解一组词语的含义,并以适当的情绪说出这些词语。“如果我给计算机一篇新闻文章,它能将文章中的词语合理地表达出来,”布林说。“但它缺少一些东西。缺少的是对文章内容的理解,无论它是好消息还是坏消息,焦点是什么。它缺乏那种直觉。”

这种情况正在改变。现在,可以教导计算机以不同的语调说同一个句子。将来,它们有可能仅仅根据词语的上下文或词语本身就能识别出应该如何说出这些词语。“我们希望计算机能对环境和对听者敏感,并相应地适应,”布林说。

TTS的应用潜力巨大,从客户服务和远程学习到新闻文章播报。推动这项技术的改进是某机构科学家和工程师采取的方法之一,旨在为Alexa客户乃至全球各地的组织创造更好的体验。

“Alexa能够根据客户请求的上下文调整其说话风格,这开启了提供以前无法想象的新颖且令人愉悦体验的可能性,”布林说。“这真是激动人心的时刻。”

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文本转语音技术的进步帮助计算机找到自己的“声音”
    • 如何让Alexa听起来更有人情味
    • 生成自然语音
    • 迈向学习的机器
    • 前瞻
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档