搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

自动语音识别（ASR）与文本转语音（TTS）技术的应用与发展
如果你对Web安全感兴趣，或者想要提高你的Web应用程序的安全性，我强烈推荐你阅读这篇文章。它不仅能够提供实用的技术知识，还能帮助你更好地理解安全领域的法律和道德规范。近年来，语音技术在人工智能领域的发展极为迅速，语音识别（ASR）和文本转语音（TTS）作为两项重要的核心技术，被广泛应用于智能助手、客户服务系统、翻译设备以及教育平台等多个领域。 ASR 的应用场景随着深度学习和大数据技术的进步，ASR 技术的应用范围越来越广泛，以下是几个典型的应用场景：智能助手：如 Siri、Google Assistant 等智能助手，通过 ASR 技术实现了与用户的自然语言交互 TTS 的应用场景TTS 技术的应用涵盖了多个领域，以下是一些典型的应用场景：智能音箱：智能音箱如 Amazon Echo、Google Home 等，利用 TTS 技术可以向用户反馈天气、新闻、音乐推荐等内容 ASR 和 TTS 的技术发展随着深度学习技术的发展，ASR 和 TTS 在近年来取得了显著进展：深度学习模型的引入：ASR 和 TTS 都受益于深度神经网络的发展。
1.6K10编辑于 2024-11-16
来自专栏大模型应用
大模型应用：一文读懂TTS技术应用：基础入门到实战的全场景指南.18
一、前言在人工智能与语音交互技术飞速发展的今天，TTS（Text-to-Speech，文本转语音）已渗透到生活与工作的方方面面。从手机导航的语音播报、智能音箱的对话反馈，到有声书制作、企业客服语音提醒，TTS技术以“让文字开口说话”的核心能力，大幅提升了信息传递效率与用户体验。今天我们从TTS技术基础入手，详解主流实现方案，结合丰富实操示例，覆盖从入门到进阶的全场景应用，帮助读者快速掌握TTS技术的使用方法。二、TTS基础1. 三、入门级应用初次接触，我们先做一些基础示例体验，优先从“零配置、低门槛”的方案入手，快速体验TTS核心功能。随着技术的发展，TTS 与 AI 大模型、语音识别等技术的结合将更加紧密，未来在智能客服、虚拟人、元宇宙等领域的应用将更加广泛，值得持续关注与探索。
62832编辑于 2026-02-15
2026年TTS配音工具分层选型：从轻量应用到云端API的技术对比
面向开发者和内容创作者，基于2026年5月实测数据，对比轻量人工工具与云端API的适用场景、技术指标和成本，提供技术选型参考。不吹不黑，只列客观参数。在开发视频自动配音、短剧角色生成、智能语音交互等系统时，TTS（文本转语音）是常见的基础能力。 2.1叮叮配音（完全免费的基础型工具）平台：可独立运行的轻应用（小程序及网页）免费额度：不限字数、不限时长，导出无广告无水印音色数量：约1000种，覆盖新闻播报、有声小说、游戏解说、企业宣传、儿童故事等生成速度七、总结2026年的TTS工具生态已形成清晰分层：轻量人工工具负责快速验证和日更制作，云端API支撑规模化生产。欢迎在评论区分享你的TTS实践心得。
36410编辑于 2026-05-09
来自专栏AI技术体系搭建过程
数字人关键技术2：TTS文本转语音
使用场景在数字人领域，TTS（文本转语音）是数字人与用户实现自然、流畅语音交流的核心能力。TTS技术赋能数字人具备“发声”能力，实现文字到语音的无缝转化。使用场景主要包括：1. 多语言和方言支持 TTS技术支持多语言和多方言合成，助力数字人实现跨区域、跨文化的无障碍沟通，适应全球化市场需求。1 什么是TTS ? TTS（Text-to-Speech，文本转语音）是一种将文字信息转换为自然流畅语音的技术。它让机器“说话”，被广泛应用于导航播报、智能客服、无障碍辅助、电子阅读等场景。 ESPnet-TTS 集成多种先进模型，适合科研与工业应用，支持多说话人和多语种。4. Festival 传统开源框架，轻量级，支持文本到语音转换，适合嵌入式和低资源场景。5. 通过介绍和示例，相信你已具备入门TTS技术的基础，期待你能在实际数字人项目中灵活应用，打造出更加智能和贴心的语音体验。
92810编辑于 2025-09-15
来自专栏快乐阿超
piper-tts
Piper适合个人项目和研究用途，特别是在低功耗设备上的应用。 Piper的核心特点高效本地运行：Piper针对Raspberry Pi 4进行了优化，即使在低性能硬件上也能实现高质量语音合成。无障碍应用：为视觉障碍用户提供文本朗读功能。科研与教育：提供语音合成研究的可靠工具。如何贡献作为一个开源项目，Piper欢迎开发者贡献代码、改进文档或提供新的语音模型。
2.3K10编辑于 2024-12-17
来自专栏快乐阿超
piper-tts
Piper适合个人项目和研究用途，特别是在低功耗设备上的应用。 Piper的核心特点高效本地运行：Piper针对Raspberry Pi 4进行了优化，即使在低性能硬件上也能实现高质量语音合成。无障碍应用：为视觉障碍用户提供文本朗读功能。科研与教育：提供语音合成研究的可靠工具。如何贡献作为一个开源项目，Piper欢迎开发者贡献代码、改进文档或提供新的语音模型。
2.4K10编辑于 2024-12-16
来自专栏目标检测和深度学习
字节跳动Seed-TTS：AI语音合成技术的革命
hi，小伙伴们，今天的主题是研究研究TTS，最近工作内容涉及到AI视频混剪，需要进行音色合成，看一下市面上效果好又花钱少的相对成熟技术薅羊毛！今天的几个内容都是和TTS相关，如果大家有更多推荐的也欢迎大家留言推荐～在人工智能的浪潮中，文本转语音（TTS）技术正变得越来越重要。而字节跳动的Seed Team，通过其Seed-TTS模型，将这一技术推向了新的高度。什么是Seed-TTS？ Seed-TTS是由字节跳动Seed Team研发的一系列TTS模型。说话人微调：通过微调，Seed-TTS能够更准确地模仿特定说话人的声音特性。应用场景 Seed-TTS的应用场景广泛，包括但不限于个人智能助理、视频游戏配音、有声书制作、跨语言TTS、语音转换等。未来展望随着技术的不断进步，Seed-TTS有望在更多领域发挥重要作用，为人们提供更加丰富、自然的语音交互体验。
2.4K10编辑于 2024-07-12
来自专栏思谱云汇人工智能
智能语音机器人小知识（5）--什么是TTS技术？
TTS语音合成技术即将覆盖国标一、二级汉字，具有英文接口，自动识别中、英文，支持中英文混读。现在的TTS应用包括语音驱动的邮件以及声音敏感系统，并常与声音识别程序一起使用。 TTS所用的关键技术就是语音合成(SpeechSynthesis)。 TTS2.jpg TTS在CTI的应用中的基本构架在一般的CTI应用系统中，都会有IVR（交互式语音应答系统）。具有TTS功能的IVR可以加快服务速度，节约服务成本，使IVR为呼叫者提供7*24小时的服务。目前常见的IVR系统大都是通用的工控机平台上插入语音板卡组成，并支持中文语音合成TTS等技术。
4.7K40发布于 2019-05-24
来自专栏Python疯子
Python：TTS语音合成技术，市场各大平台对比以及实现
TTS 前景提要：在线的实时合成TTS技术，巴拉巴拉... 此处省略3千字市场的TTS平台：讯飞语音，百度智能语音开放平台，阿里云，腾讯云，思必驰，捷通华声(灵云)等。 TTS的合成简单来说就三大步： 1️⃣创建应用 2️⃣发起请求 3️⃣解析音频数据，合成音频文件咱们废话不说一个一个来：一、讯飞，音频届的老大哥支持多种语言开发，选择适合自己的，我这里选的是 WebAPI：多种语言开发 01、创建应用创建应用说明： 1和3：是在代码中具体使用到的鉴权码 2：表示试用期间的每天使用次数 4：请求IP要添加白名单，不添加白名单会请求失败 5：可以选择不同的发音人 10:10:11" data = request_data + "应用参数" md5 = hashlib.md5() md5.update(data.encode('utf- 15:] # 写入文件生成音频 save_wav(bytes(ret), "aasdasd.mp3") 没有python示例代码，返回参数比较变态，解析出音频耗了我大量时间(因为我技术不佳
4.5K30发布于 2019-03-15
音乐背景如何推动多语言TTS技术研究
音乐背景如何推动多语言TTS技术研究一位从事多语言文本转语音（TTS）研究的科学家利用其音乐背景帮助寻找创新解决方案。 TTS是一个混合学科——不仅仅是工程或纯技术——Sanchez表示她的音乐背景使她能够以独特的方式寻找新颖解决方案或看待问题。将音乐与技术联系起来在西班牙巴塞罗那接受音乐强化教育的Sanchez，15岁时就开始考虑大学，她想找一个与音乐相关的学位课程。当时，她专注于音乐及其如何应用于机器学习。她的一位教授正在研究创建一种可以通过不同方式调制以听起来更人性化的声音，结合语言和技术元素。 Sanchez表示，她的工作也受到她阅读技术伦理的影响，特别是Cathy O'Neil和Caroline Criado Perez作者的著作。 "提供更多语音选项很重要，"她说。"
26310编辑于 2025-09-18
TTS-1技术报告：基于Transformer的文本转语音模型
TTS-1技术报告我们介绍了Inworld TTS-1，这是一组两个基于Transformer的自回归文本转语音(TTS)模型。我们最大的模型TTS-1-Max拥有88亿参数，专为要求苛刻的应用场景提供最高质量和表现力。TTS-1是我们最高效的模型，具有16亿参数，专为实时语音合成和边缘设备用例而构建。通过扩展训练计算量并应用语音语言模型(SpeechLM)组件的预训练、微调和RL对齐的序列化流程，这两个模型在各种基准测试中都实现了最先进的性能，仅依靠说话者语音的上下文学习就展现出卓越的质量。 Inworld TTS-1和TTS-1-Max能够以低延迟生成48kHz高分辨率语音，支持11种语言，并通过音频标记实现精细的情感控制和非语言发声。我们还以MIT许可证开源了训练和建模代码。技术细节模型架构：基于Transformer的自回归模型参数量：TTS-1-Max(8.8B)/TTS-1(1.6B)采样率：48kHz高分辨率音频支持语言：11种特色功能：音频标记控制、情感表达、非语言发声训练流程
59310编辑于 2025-07-30
深度解析：语音转换与数据增强的TTS前沿技术
论文将该问题重新定义为学习一个语音转换模型，该模型应用于高质量TTS模型的输出。这是对现有少样本TTS范式的概念性转变。其核心思想是：对于少样本学习，将现有高质量TTS模型输出的语音谱图，适配到新的目标语音，比直接调整模型本身更容易。关键在于，“语音过滤器”是在TTS模型自身生成的合成数据上进行训练的。其思路是：首先训练一个语音转换模型，将其他语音中的富有表现力的语音样本转换为目标语音，然后将转换后的语音作为TTS模型的额外训练数据。该TTS模型接收两个输入：文本序列和风格向量。《使用标准化流进行文本无关的非平行多对多语音转换》在这篇论文中，某中心TTS团队将标准化流的概念（已广泛应用于TTS）应用于语音转换问题。流程将输入映射到特定应用域中的音素频率分布。通常，标准化流会从训练数据中同时学习分布和映射。但在这里，研究人员先在标准TTS任务上对流程进行预训练（该任务数据充足），以预先学习分布。
32610编辑于 2025-12-17
来自专栏KAAAsS's Blog
TTS朗读IPA音标——你家TTS怎么和我家不一样？
这个TTS和别的TTS不同的是，这个TTS竟然支持朗读IPA？！！这么神奇吗？停停停，你不是在骗我吧？最后是微软自带TTS的现代汉语朗读版本，治愈下你们的耳朵： https://static.kaaass.net/phonetics/%E7%8E%B0%E4%BB%A3%E6%B1%89%E8%AF%AD
2K00编辑于 2022-01-14
来自专栏全栈程序员必看
linux 嵌入式 tts引擎_语音合成（TTS）的概念和分类
文本到语音(TTS)系统将普通语言文本转换为语音;其他系统则把像音标这样的符号语言表示法翻译成语音。其他系统则使用符号语言表征例如标音法翻译成语音。以及，TTS模型通常也会分为中文，英文，或者中英混输的。做训练的文本，有很多文字比较拗口，故而对录音声优的功力有要求，中英混输的模型数据就更难了。如果是普通的中文TTS模型，以刚才的例子“马上为您播放周杰伦的《晴天》live版本”，这种就可以在录音时加入一些简单的字母，单词，短语等等。基于统计规则的大语料库拼接语音合成系统超大规模音库制作：语料设计；音库录制；精细切分；韵律标注；优点：音质最佳，录音和合成音质差异小，正常句子的自然度也好缺点：非常依赖音库的规模大小和制作质量，尺寸大，无法在嵌入式设备中应用，仍然存在拼接不连续性参数语音合成技术：对于引得频谱特性参数进行建模，生成参数合成器，来构建文本序列映射到语音的映射关系优点：尺寸小，语音自然度好缺点：音质不如拼接合成发布者：全栈程序员栈长
5.1K30编辑于 2022-08-03
来自专栏IT开发技术与工作效率
JS文字转语音TTS
http://linwancen.gitee.io/vantgames 百度不支持日文片假名，要是有支持日文片假名的免费引擎欢迎推荐 src/util/speak.js /** * 百度语音合成 TTS (Text To Speech) */ export function speak(s) { new Audio( 'http://tts.baidu.com/text2audio'
17K10发布于 2021-01-13
来自专栏bisal的个人杂货铺
传输表空间TTS操作
迁移或备份数据库可以采用传输表空间技术TTS，优点是操作较简便，只需要将元数据进行导出导入，数据文件可以使用FTP方式从源库拷贝至目标库；缺点是数据文件传输至目标库之前，需要将源库表空间置为只读，则执行导入会报错： [oracle@emrep66 tts]$ impdp system/oracle dumpfile=dcsopen_tbs.dmp directory=tts transport_datafiles =/home/oracle/tts/dcsopen_tbs01.dbf logfile=tts_import.log ... /oracle dumpfile=dcsopen_tbs.dmp directory=tts transport_datafiles=dcsopen_tbs01.dbf logfile=tts_import.log =tts_export.log ...
1.6K30发布于 2019-01-29
来自专栏mathor
Human Language Processing——Controllable TTS
过往的语音合成只关注说的内容正确，而这次我们希望能按照我们的方式去控制合成的语音，以不同的方式、不同的音色去说指定某个人去说一段话的技术叫声音克隆。现实中我们缺乏某个歌手高质量的语音数据去训练TTS 系统。这里往往会使用音色迁移技术。此外，同一句话说的方式是可以抑扬顿挫 (Prosody) 的，它包含了说的语调，重音，停顿和韵律等。它不是内容，不是说话者的声纹，也不是环境的混响对于可控的 TTS，我们希望给定一段文字，再给定一段参考的声音（不一定要说文字内容），我们希望模型能够生成出语气、停顿和参考声音相仿的合成语音。对于人声克隆，可以用音色迁移技术。我们会给 VC 模型两段声音，其中一段会抽取出内容信息，另外一段声音会抽出说话者的特征，要求模型输出的声音能在内容和音色上与指定的一致。这两个模型其实非常相像。假设 TTS 和 ASR 的模型都是 Seq2Seq 模型。对于 TTS 的注意力而言，输入的字母会对应它产生的声音信号。我们期待 ASR 的注意力在看到同一段声音的时候，应该也要产生相同的字母。
1.9K21发布于 2020-08-06
来自专栏AI产品体验专栏
腾讯云语音合成TTS试用
随着人工智能技术的飞速发展，人机交互的方式也在不断革新。腾讯云语音合成（TTS）技术，作为AI领域的一项重要应用，正在以前所未有的速度改变我们的生活和工作方式。大家好，我是AI大眼萌，今天就让我们一起探索这项技术的魅力和潜力！一、核心概念：什么是语音合成（TTS）？️ ASR，就像人类的耳朵，能够将声音转化为文字；而TTS，仿佛人类的嘴巴，将文字转化为声音。就像我们熟悉的Siri，那些流畅的语音回复，其实都是TTS技术在背后默默工作的结果。二、TTS的应用场景️智能客服：TTS技术可以提供自然、拟人化的语音服务，帮助企业构建智能客服系统，自动回答客户咨询，提高服务效率。五、结语腾讯云语音合成技术，正在开启智能语音的新纪元。它不仅仅是技术的突破，更是对人类生活方式的一次深刻变革。让我们一起期待并探索，TTS技术将如何进一步丰富我们的世界！
8.4K01编辑于 2024-06-30
来自专栏产品经理的人工智能学习库
语音合成（Text to Speech | TTS）
音合成技术目前主要应用在读书软件、导航软件、对话问答系统等中。百度百科版本语音合成是通过机械的、电子的方法产生人造语音的技术。 TTS技术（又称文语转换技术）隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。查看详情维基百科版本语音合成是人类语音的人工生成。甲文本到语音（TTS）系统转换正常语言文本转换成语音; 其他系统呈现符号语言表征，如将语音转录为发音。查看详情
4.8K20发布于 2019-12-18
来自专栏全栈程序员必看
如何制作离线tts?「建议收藏」
tts->把文字转化为语音。先把中文转化为拼音。这个主要依靠1个字典，能把汉字和读音对应。
4K20编辑于 2022-06-24

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

自动语音识别（ASR）与文本转语音（TTS）技术的应用与发展

大模型应用：一文读懂TTS技术应用：基础入门到实战的全场景指南.18

2026年TTS配音工具分层选型：从轻量应用到云端API的技术对比

数字人关键技术2：TTS文本转语音

piper-tts

piper-tts

字节跳动Seed-TTS：AI语音合成技术的革命

智能语音机器人小知识（5）--什么是TTS技术？

Python：TTS语音合成技术，市场各大平台对比以及实现

音乐背景如何推动多语言TTS技术研究

TTS-1技术报告：基于Transformer的文本转语音模型

深度解析：语音转换与数据增强的TTS前沿技术

TTS朗读IPA音标——你家TTS怎么和我家不一样？

linux 嵌入式 tts引擎_语音合成（TTS）的概念和分类

JS文字转语音TTS

传输表空间TTS操作

Human Language Processing——Controllable TTS

腾讯云语音合成TTS试用

语音合成（Text to Speech | TTS）

如何制作离线tts?「建议收藏」

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐