搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

自动语音识别（ASR）与文本转语音（TTS）技术的应用与发展
如果你对Web安全感兴趣，或者想要提高你的Web应用程序的安全性，我强烈推荐你阅读这篇文章。它不仅能够提供实用的技术知识，还能帮助你更好地理解安全领域的法律和道德规范。近年来，语音技术在人工智能领域的发展极为迅速，语音识别（ASR）和文本转语音（TTS）作为两项重要的核心技术，被广泛应用于智能助手、客户服务系统、翻译设备以及教育平台等多个领域。 ASR 的应用场景随着深度学习和大数据技术的进步，ASR 技术的应用范围越来越广泛，以下是几个典型的应用场景：智能助手：如 Siri、Google Assistant 等智能助手，通过 ASR 技术实现了与用户的自然语言交互 TTS 的应用场景TTS 技术的应用涵盖了多个领域，以下是一些典型的应用场景：智能音箱：智能音箱如 Amazon Echo、Google Home 等，利用 TTS 技术可以向用户反馈天气、新闻、音乐推荐等内容 ASR 和 TTS 的技术发展随着深度学习技术的发展，ASR 和 TTS 在近年来取得了显著进展：深度学习模型的引入：ASR 和 TTS 都受益于深度神经网络的发展。
1.6K10编辑于 2024-11-16
来自专栏大模型应用
大模型应用：一文读懂TTS技术应用：基础入门到实战的全场景指南.18
一、前言在人工智能与语音交互技术飞速发展的今天，TTS（Text-to-Speech，文本转语音）已渗透到生活与工作的方方面面。从手机导航的语音播报、智能音箱的对话反馈，到有声书制作、企业客服语音提醒，TTS技术以“让文字开口说话”的核心能力，大幅提升了信息传递效率与用户体验。今天我们从TTS技术基础入手，详解主流实现方案，结合丰富实操示例，覆盖从入门到进阶的全场景应用，帮助读者快速掌握TTS技术的使用方法。二、TTS基础1. 三、入门级应用初次接触，我们先做一些基础示例体验，优先从“零配置、低门槛”的方案入手，快速体验TTS核心功能。随着技术的发展，TTS 与 AI 大模型、语音识别等技术的结合将更加紧密，未来在智能客服、虚拟人、元宇宙等领域的应用将更加广泛，值得持续关注与探索。
63632编辑于 2026-02-15
TTS服务技术选型：8款文字转语音工具的集成方式与代码示例
本文面向开发者，整理8款文字转语音（TTS）服务的集成方式、API调用示例、限速策略及输出格式等参数。所有数据来自公开文档及实测，不涉及商业推广。免费版3次/分钟Python示例：pythonimportrequestsurl="https://api.elevenlabs.io/v1/text-to-speech/21m00Tcm4TlvDq8ikWAM"headers withopen("output.mp3","wb")asout:out.write(response.audio_content)限速：每分钟请求数限制（默认值取决于项目）输出格式：MP3、OGG、WAV8. ：xml<speak><prosodyrate="slow">你好，这是一个慢速语音</prosody></speak>限速：无公开硬性限速，但受账户配额影响输出格式：MP3、OGG、WAV、JSON技术参数对比表工具流式返回需要多角色对话、情感控制AzureTTS完整SSML支持需要自定义词典纠正多音字AzureTTS唯一支持<lexicon>需要高质量WaveNet音色GoogleTTS220+语音，WaveNet技术已使用
13400编辑于 2026-05-23
TTS服务技术选型：8款文字转语音工具的免费额度与API能力对比
本文面向开发者及技术选型人员，整理8款文字转语音（TTS）服务的实测参数，重点关注免费额度、API可用性、SDK支持、SSML能力、声音克隆及自定义词典等开发相关指标。：MP3、PCMPython调用示例：pythonimportrequestsurl="https://api.elevenlabs.io/v1/text-to-speech/EXAVITQu4L4Y8N0kYwY"headers voice=voice,audio_config=audio_config)withopen("output.mp3","wb")asout:out.write(response.audio_content)8. OutputFormat='mp3',VoiceId='Zhiyu')withopen('speech.mp3','wb')asfile:file.write(response['AudioStream'].read())技术参数汇总表流式返回需要多角色对话、情感控制AzureTTS完整SSML支持需要自定义词典纠正多音字AzureTTS唯一支持<lexicon>需要高质量WaveNet音色GoogleTTS220+语音，WaveNet技术已使用
25710编辑于 2026-05-25
2026年TTS配音工具分层选型：从轻量应用到云端API的技术对比
面向开发者和内容创作者，基于2026年5月实测数据，对比轻量人工工具与云端API的适用场景、技术指标和成本，提供技术选型参考。不吹不黑，只列客观参数。在开发视频自动配音、短剧角色生成、智能语音交互等系统时，TTS（文本转语音）是常见的基础能力。 2.1叮叮配音（完全免费的基础型工具）平台：可独立运行的轻应用（小程序及网页）免费额度：不限字数、不限时长，导出无广告无水印音色数量：约1000种，覆盖新闻播报、有声小说、游戏解说、企业宣传、儿童故事等生成速度七、总结2026年的TTS工具生态已形成清晰分层：轻量人工工具负责快速验证和日更制作，云端API支撑规模化生产。欢迎在评论区分享你的TTS实践心得。
36410编辑于 2026-05-09
来自专栏AI技术体系搭建过程
数字人关键技术2：TTS文本转语音
使用场景在数字人领域，TTS（文本转语音）是数字人与用户实现自然、流畅语音交流的核心能力。TTS技术赋能数字人具备“发声”能力，实现文字到语音的无缝转化。使用场景主要包括：1. 多语言和方言支持 TTS技术支持多语言和多方言合成，助力数字人实现跨区域、跨文化的无障碍沟通，适应全球化市场需求。1 什么是TTS ? TTS（Text-to-Speech，文本转语音）是一种将文字信息转换为自然流畅语音的技术。它让机器“说话”，被广泛应用于导航播报、智能客服、无障碍辅助、电子阅读等场景。 ESPnet-TTS 集成多种先进模型，适合科研与工业应用，支持多说话人和多语种。4. Festival 传统开源框架，轻量级，支持文本到语音转换，适合嵌入式和低资源场景。5. 通过介绍和示例，相信你已具备入门TTS技术的基础，期待你能在实际数字人项目中灵活应用，打造出更加智能和贴心的语音体验。
93010编辑于 2025-09-15
来自专栏目标检测和深度学习
字节跳动Seed-TTS：AI语音合成技术的革命
hi，小伙伴们，今天的主题是研究研究TTS，最近工作内容涉及到AI视频混剪，需要进行音色合成，看一下市面上效果好又花钱少的相对成熟技术薅羊毛！今天的几个内容都是和TTS相关，如果大家有更多推荐的也欢迎大家留言推荐～在人工智能的浪潮中，文本转语音（TTS）技术正变得越来越重要。而字节跳动的Seed Team，通过其Seed-TTS模型，将这一技术推向了新的高度。什么是Seed-TTS？ Seed-TTS是由字节跳动Seed Team研发的一系列TTS模型。说话人微调：通过微调，Seed-TTS能够更准确地模仿特定说话人的声音特性。应用场景 Seed-TTS的应用场景广泛，包括但不限于个人智能助理、视频游戏配音、有声书制作、跨语言TTS、语音转换等。未来展望随着技术的不断进步，Seed-TTS有望在更多领域发挥重要作用，为人们提供更加丰富、自然的语音交互体验。
2.4K10编辑于 2024-07-12
来自专栏思谱云汇人工智能
智能语音机器人小知识（5）--什么是TTS技术？
TTS语音合成技术即将覆盖国标一、二级汉字，具有英文接口，自动识别中、英文，支持中英文混读。现在的TTS应用包括语音驱动的邮件以及声音敏感系统，并常与声音识别程序一起使用。 TTS所用的关键技术就是语音合成(SpeechSynthesis)。 TTS2.jpg TTS在CTI的应用中的基本构架在一般的CTI应用系统中，都会有IVR（交互式语音应答系统）。具有TTS功能的IVR可以加快服务速度，节约服务成本，使IVR为呼叫者提供7*24小时的服务。目前常见的IVR系统大都是通用的工控机平台上插入语音板卡组成，并支持中文语音合成TTS等技术。
4.7K40发布于 2019-05-24
音乐背景如何推动多语言TTS技术研究
音乐背景如何推动多语言TTS技术研究一位从事多语言文本转语音（TTS）研究的科学家利用其音乐背景帮助寻找创新解决方案。 TTS是一个混合学科——不仅仅是工程或纯技术——Sanchez表示她的音乐背景使她能够以独特的方式寻找新颖解决方案或看待问题。将音乐与技术联系起来在西班牙巴塞罗那接受音乐强化教育的Sanchez，15岁时就开始考虑大学，她想找一个与音乐相关的学位课程。当时，她专注于音乐及其如何应用于机器学习。她的一位教授正在研究创建一种可以通过不同方式调制以听起来更人性化的声音，结合语言和技术元素。 Sanchez表示，她的工作也受到她阅读技术伦理的影响，特别是Cathy O'Neil和Caroline Criado Perez作者的著作。 "提供更多语音选项很重要，"她说。"
26410编辑于 2025-09-18
来自专栏Python疯子
Python：TTS语音合成技术，市场各大平台对比以及实现
TTS 前景提要：在线的实时合成TTS技术，巴拉巴拉... 此处省略3千字市场的TTS平台：讯飞语音，百度智能语音开放平台，阿里云，腾讯云，思必驰，捷通华声(灵云)等。 TTS的合成简单来说就三大步： 1️⃣创建应用 2️⃣发起请求 3️⃣解析音频数据，合成音频文件咱们废话不说一个一个来：一、讯飞，音频届的老大哥支持多种语言开发，选择适合自己的，我这里选的是 WebAPI：多种语言开发 01、创建应用创建应用说明： 1和3：是在代码中具体使用到的鉴权码 2：表示试用期间的每天使用次数 4：请求IP要添加白名单，不添加白名单会请求失败 5：可以选择不同的发音人 10:10:11" data = request_data + "应用参数" md5 = hashlib.md5() md5.update(data.encode('utf- 15:] # 写入文件生成音频 save_wav(bytes(ret), "aasdasd.mp3") 没有python示例代码，返回参数比较变态，解析出音频耗了我大量时间(因为我技术不佳
4.5K30发布于 2019-03-15
来自专栏云原生技术社区
10大K8s应用安全加固技术
作者：Rory McCune 将应用部署到K8s集群时，开发者面临的主要挑战是如何管理安全风险。快速解决此问题的一个好方法是在开发过程中对应用清单进行安全加固。本文，将介绍10种开发者可以对应用程序应用加固的方法。以下技术允许在开发过程中测试强化版本，从而降低在生产环境中应用的控件对运行工作负载造成不利影响的风险。一般方法在编写K8s工作负载清单时，无论是pod对象还是部署daemonset之类的更高级别的东西，清单中都有一个名为securityContext的部分，允许您指定应该应用于工作负载的安全参数。但是，在K8s下运行时，该过滤器在默认情况下是禁用的。因此，确保重新启用过滤器是对工作负载清单的重要补充。总结创建一个安全的K8s环境有很多方面，从控制平面到集群上运行的应用程序。
1.1K50编辑于 2022-08-12
TTS-1技术报告：基于Transformer的文本转语音模型
TTS-1技术报告我们介绍了Inworld TTS-1，这是一组两个基于Transformer的自回归文本转语音(TTS)模型。我们最大的模型TTS-1-Max拥有88亿参数，专为要求苛刻的应用场景提供最高质量和表现力。TTS-1是我们最高效的模型，具有16亿参数，专为实时语音合成和边缘设备用例而构建。通过扩展训练计算量并应用语音语言模型(SpeechLM)组件的预训练、微调和RL对齐的序列化流程，这两个模型在各种基准测试中都实现了最先进的性能，仅依靠说话者语音的上下文学习就展现出卓越的质量。 Inworld TTS-1和TTS-1-Max能够以低延迟生成48kHz高分辨率语音，支持11种语言，并通过音频标记实现精细的情感控制和非语言发声。我们还以MIT许可证开源了训练和建模代码。技术细节模型架构：基于Transformer的自回归模型参数量：TTS-1-Max(8.8B)/TTS-1(1.6B)采样率：48kHz高分辨率音频支持语言：11种特色功能：音频标记控制、情感表达、非语言发声训练流程
59310编辑于 2025-07-30
深度解析：语音转换与数据增强的TTS前沿技术
论文将该问题重新定义为学习一个语音转换模型，该模型应用于高质量TTS模型的输出。这是对现有少样本TTS范式的概念性转变。其核心思想是：对于少样本学习，将现有高质量TTS模型输出的语音谱图，适配到新的目标语音，比直接调整模型本身更容易。关键在于，“语音过滤器”是在TTS模型自身生成的合成数据上进行训练的。其思路是：首先训练一个语音转换模型，将其他语音中的富有表现力的语音样本转换为目标语音，然后将转换后的语音作为TTS模型的额外训练数据。该TTS模型接收两个输入：文本序列和风格向量。《使用标准化流进行文本无关的非平行多对多语音转换》在这篇论文中，某中心TTS团队将标准化流的概念（已广泛应用于TTS）应用于语音转换问题。流程将输入映射到特定应用域中的音素频率分布。通常，标准化流会从训练数据中同时学习分布和映射。但在这里，研究人员先在标准TTS任务上对流程进行预训练（该任务数据充足），以预先学习分布。
32810编辑于 2025-12-17
来自专栏全栈学习专栏
云原生系列三：K8s应用安全加固技术
今天叶秋学长带领大家学习云原生系列三：10大K8s应用安全加固技术~ 本文译自 Top 10 Kubernetes Application Security Hardening Techniques 作者：Rory McCune 编辑将应用部署到K8s集群时，开发者面临的主要挑战是如何管理安全风险。快速解决此问题的一个好方法是在开发过程中对应用清单进行安全加固。本文，将介绍10种开发者可以对应用程序应用加固的方法。以下技术允许在开发过程中测试强化版本，从而降低在生产环境中应用的控件对运行工作负载造成不利影响的风险。一般方法在编写K8s工作负载清单时，无论是pod对象还是部署daemonset之类的更高级别的东西，清单中都有一个名为securityContext的部分，允许您指定应该应用于工作负载的安全参数。总结创建一个安全的K8s环境有很多方面，从控制平面到集群上运行的应用程序。
5.1K21编辑于 2022-08-05
来自专栏AI SPPECH
8：L应用差分隐私：蓝队的隐私保护技术
本文探讨了2026年差分隐私在信息安全中的应用现状，分享了L的隐私保护策略，详细解析了噪声注入和隐私预算管理的关键技术，并通过实战案例展示如何用差分隐私保护安全日志数据。作为防御者，我必须深入研究差分隐私技术的原理和应用，构建兼顾安全和隐私的防御体系，才能在与基拉的智力较量中占据主动。 2. 技术深度拆解与实现分析本节核心价值：深入解析差分隐私的原理和实现技术，包括噪声注入、隐私预算管理和实际应用。未来趋势与前瞻预测本节核心价值：展望差分隐私在信息安全领域的未来发展趋势，以及可能的技术突破。随着技术的不断发展，差分隐私在信息安全中的应用将迎来新的变革。 32 每次处理的数据量环境配置 Python 3.9+ numpy 1.24.0+ pandas 2.0.0+ scikit-learn 1.3.0+（可选，用于机器学习）足够的计算资源（建议至少8GB
25510编辑于 2026-03-26
来自专栏GPUS开发者
NVIDIA NeMo 发布 T5-TTS：文本转语音技术的重大突破
NVIDIA NeMo是一款由NVIDIA开发的开源框架，主要用于构建和训练先进的对话式AI模型,NVIDIA NeMo 近期发布了 T5-TTS 型号，标志着文本转语音（TTS）技术的重大进步。然而，与在文本领域的应用类似，语音 LLM 也面临着幻觉挑战，这可能会阻碍其在现实世界中的部署。 T5-TTS 模型概述 T5-TTS 模型利用编码器-解码器转换器架构进行语音合成。这些不准确可能会影响 TTS 系统在辅助技术、客户服务和内容创建等关键应用中的可靠性。 T5-TTS 模型通过更有效地将文本输入与相应的语音输出对齐，显著减少了幻觉问题。应用单调对齐先验和连接主义时间分类（CTC）损失，使得生成的语音与预期文本紧密匹配，从而产生更可靠、更准确的 TTS 系统。与其他开源模型相比，T5-TTS 在单词发音方面的错误显著减少。其创新的学习稳健文本和语音对齐方法为该领域树立了新的标杆，有望改变我们与 TTS 技术的互动方式并从中受益。
79810编辑于 2024-07-15
来自专栏心源易码
【AI落地应用实战】文本生成语音Parler-TTS + DAMODEL复现指南
Parler-TTS 能够将输入的文本转化为逼真的语音，适用于各种语音生成应用场景，如虚拟助理、有声书、语音生成内容等。一、Parler-TTS简介1.1、TTS 模型传统的 TTS 模型在处理语音合成时，通常依赖大规模的语音数据集，并采用人类标注的音素、音节等细粒度信息。与其他TTS模型不同，Parler-TTS是一个完全开源的项目，包括数据集、预处理、训练代码和权重，均在宽松的许可下公开发布，鼓励社区在此基础上进一步开发和创新。其主要特点有：多语种支持：Parler-TTS 具备多种语言和方言支持，可以合成不同语种的语音，这让它在跨语言应用中具有很高的实用性。 /parler_tts_mini_v0.1").to(device)tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler_tts_mini_v0.1
1.3K00编辑于 2024-11-12
来自专栏全栈程序员必看
8种HOOK技术
64位的跳转，可用两种方法，下面两个方法都是绝对跳转指令，第一个影响rax寄存器，可能需要先保存原来的rax的值： 1, 48 b8 ef cd ab 89 67 45 23 01 mov rax, 跳转指令是 14 字节，而我们 // 修改了 PsLookupProcessByProcessId 的头 15 字节（正好三条指令），前 6 字节 // 是指令，后 9 字节并不是指令，而是数据（前 8 ori_func; //step 3: fill jmp code tmpv = (UINT64)Proxy_ApiAddress; memcpy(jmp_code + 6, &tmpv, 8) psLookupProcessAdress, pslp_head_n_byte, pslp_patch_size); } 头文件 LDE64x64.h 百度搜一下，有很多，我就不帖了 5.VEH_HOOK VEH技术的主要原理是利用异常处理改变程序指令流程 irql; ULONGLONG myfun; // 保存原KeBugCheck前15个字节 memcpy(OldKeBugCheckData, KeBugCheckEx, 15); // 48b8a024100480f8ffff
4.9K10编辑于 2022-09-01
工作8小时，眼睛累到不行？这个免费TTS扩展让我重新爱上阅读
被工作"榨干"的眼睛每天对着电脑8小时，甚至更久。下班时眼睛又干又涩，看东西都模糊。以前下班后还会看看技术文章、行业资讯，但眼睛已经累到不想再盯着屏幕。久而久之，阅读习惯就断了。直到我发现了这个TTS扩展，情况才改变。从"看不下去"到"听上瘾"第一次用是在一个周五晚上。眼睛很累，但还有几篇技术文章没看。我试了试这个扩展，选中文字让它读。我的使用习惯工作日上午：眼睛状态好，正常阅读中午：用TTS听文章，让眼睛休息下午：犯困时听技术文档，保持注意力晚上：不想看屏幕时，闭眼听文章周末早上：听行业资讯，了解最新动态下午：听技术文章，学习新知识晚上给同样被眼睛疲劳困扰的你如果你也：每天对着电脑8小时以上下班时眼睛又干又涩想看的文章很多，但眼睛累到看不下去想利用碎片时间获取信息不想花钱买各种工具那这个扩展真的值得一试。反正免费，试试也不亏。扩展名称：ListenQuir 闭眼听 TTS（大声朗读）适用浏览器：Chrome、Edge等Chromium内核浏览器价格：完全免费下载地址：Chrome网上应用店搜索"ListenQuir"即可如果你用了觉得不错
19210编辑于 2025-12-31
来自专栏机器之心
ACL 2025 高分接收 | 高感情语音技术：逻辑智能小语种TTS破局之道
语音合成（TTS）技术近十年来突飞猛进，从早期的拼接式合成和统计参数模型，发展到如今的深度神经网络与扩散、GAN 等先进架构，实现了接近真人的自然度与情感表达，广泛赋能智能助手、无障碍阅读、沉浸式娱乐等场景面对这一挑战，逻辑智能团队提出了一种针对低资源语言 TTS 的解决方案并应用于泰语 TTS 合成，该工作已经被 ACL 2025 Industry track 正式接收！ luoji.cn/static/thai/demo.html 这项工作提出了一种数据优化驱动的声学建模框架的创新方案，通过从语音、文本、音素、语法等多个维度构建系统化的泰语数据集，并结合先进的声学建模技术，成功实现了在有限资源下的高质量 TTS 合成效果。此外，该框架还具备 zero-shot 声音克隆的能力，展示了优异的跨场景适用性，为行业提供了一种在数据稀少环境下高效构建小语种 TTS 系统的有效范式，对推动全球小语种 TTS 技术的落地与普及具有重要的启示和借鉴意义
77110编辑于 2025-05-27

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

自动语音识别（ASR）与文本转语音（TTS）技术的应用与发展

大模型应用：一文读懂TTS技术应用：基础入门到实战的全场景指南.18

TTS服务技术选型：8款文字转语音工具的集成方式与代码示例

TTS服务技术选型：8款文字转语音工具的免费额度与API能力对比

2026年TTS配音工具分层选型：从轻量应用到云端API的技术对比

数字人关键技术2：TTS文本转语音

字节跳动Seed-TTS：AI语音合成技术的革命

智能语音机器人小知识（5）--什么是TTS技术？

音乐背景如何推动多语言TTS技术研究

Python：TTS语音合成技术，市场各大平台对比以及实现

10大K8s应用安全加固技术

TTS-1技术报告：基于Transformer的文本转语音模型

深度解析：语音转换与数据增强的TTS前沿技术

云原生系列三：K8s应用安全加固技术

8：L应用差分隐私：蓝队的隐私保护技术

NVIDIA NeMo 发布 T5-TTS：文本转语音技术的重大突破

【AI落地应用实战】文本生成语音Parler-TTS + DAMODEL复现指南

8种HOOK技术

工作8小时，眼睛累到不行？这个免费TTS扩展让我重新爱上阅读

ACL 2025 高分接收 | 高感情语音技术：逻辑智能小语种TTS破局之道

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐