首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 自动语音识别(ASR)与文本转语音(TTS技术应用与发展

    如果你对Web安全感兴趣,或者想要提高你的Web应用程序的安全性,我强烈推荐你阅读这篇文章。它不仅能够提供实用的技术知识,还能帮助你更好地理解安全领域的法律和道德规范。 近年来,语音技术在人工智能领域的发展极为迅速,语音识别(ASR)和文本转语音(TTS)作为两项重要的核心技术,被广泛应用于智能助手、客户服务系统、翻译设备以及教育平台等多个领域。 ASR 的应用场景随着深度学习和大数据技术的进步,ASR 技术应用范围越来越广泛,以下是几个典型的应用场景:智能助手:如 Siri、Google Assistant 等智能助手,通过 ASR 技术实现了与用户的自然语言交互 TTS应用场景TTS 技术应用涵盖了多个领域,以下是一些典型的应用场景:智能音箱:智能音箱如 Amazon Echo、Google Home 等,利用 TTS 技术可以向用户反馈天气、新闻、音乐推荐等内容 ASR 和 TTS技术发展随着深度学习技术的发展,ASR 和 TTS 在近年来取得了显著进展:深度学习模型的引入:ASR 和 TTS 都受益于深度神经网络的发展。

    1.5K10编辑于 2024-11-16
  • 来自专栏大模型应用

    大模型应用:一文读懂TTS技术应用:基础入门到实战的全场景指南.18

    一、前言 在人工智能与语音交互技术飞速发展的今天,TTS(Text-to-Speech,文本转语音)已渗透到生活与工作的方方面面。 今天我们从TTS技术基础入手,详解主流实现方案,结合丰富实操示例,覆盖从入门到进阶的全场景应用,帮助读者快速掌握TTS技术的使用方法。二、TTS基础1. 三、入门级应用初次接触,我们先做一些基础示例体验,优先从“零配置、低门槛”的方案入手,快速体验TTS核心功能。 TTS应用1. 随着技术的发展,TTS 与 AI 大模型、语音识别等技术的结合将更加紧密,未来在智能客服、虚拟人、元宇宙等领域的应用将更加广泛,值得持续关注与探索。

    41032编辑于 2026-02-15
  • 来自专栏AI技术体系搭建过程

    数字人关键技术2:TTS文本转语音

    个性化声音塑造  借助TTS,数字人可以拥有不同的声音风格、语调和情感表达,满足品牌调性或用户偏好,增强数字人的形象辨识度和感染力。3. TTS(Text-to-Speech,文本转语音)是一种将文字信息转换为自然流畅语音的技术。它让机器“说话”,被广泛应用于导航播报、智能客服、无障碍辅助、电子阅读等场景。 Tacotron 2  Google提出的经典TTS架构,结合神经网络预测声谱图与WaveNet声码器,生成自然语音。3. 3. 腾讯云语音合成  稳定性强,适合在线服务和移动端,免费额度充足。4. 科大讯飞语音合成  行业定制能力强,适合多场景应用,音色真实自然。5. 通过介绍和示例,相信你已具备入门TTS技术的基础,期待你能在实际数字人项目中灵活应用,打造出更加智能和贴心的语音体验。

    78310编辑于 2025-09-15
  • 来自专栏目标检测和深度学习

    字节跳动Seed-TTS:AI语音合成技术的革命

    hi,小伙伴们,今天的主题是研究研究TTS,最近工作内容涉及到AI视频混剪,需要进行音色合成,看一下市面上效果好又花钱少的相对成熟技术薅羊毛! 今天的几个内容都是和TTS相关,如果大家有更多推荐的也欢迎大家留言推荐~ 在人工智能的浪潮中,文本转语音(TTS技术正变得越来越重要。 而字节跳动的Seed Team,通过其Seed-TTS模型,将这一技术推向了新的高度。 什么是Seed-TTS? Seed-TTS是由字节跳动Seed Team研发的一系列TTS模型。 说话人微调:通过微调,Seed-TTS能够更准确地模仿特定说话人的声音特性。 应用场景 Seed-TTS应用场景广泛,包括但不限于个人智能助理、视频游戏配音、有声书制作、跨语言TTS、语音转换等。 未来展望 随着技术的不断进步,Seed-TTS有望在更多领域发挥重要作用,为人们提供更加丰富、自然的语音交互体验。

    2.2K10编辑于 2024-07-12
  • 来自专栏思谱云汇人工智能

    智能语音机器人小知识(5)--什么是TTS技术

    TTS语音合成技术即将覆盖国标一、二级汉字,具有英文接口,自动识别中、英文,支持中英文混读。 所有声音采用真人普通话为标准发音,实现了120-150个汉字/分钟的快速语音合成,朗读速度达3-4个汉字/秒,使用户可以听到清晰悦耳的音质和连贯流畅的语调。 现在的TTS应用包括语音驱动的邮件以及声音敏感系统,并常与声音识别程序一起使用。 TTS所用的关键技术就是语音合成(SpeechSynthesis)。 TTS2.jpg TTS在CTI的应用中的基本构架 在一般的CTI应用系统中,都会有IVR(交互式语音应答系统)。

    4.4K40发布于 2019-05-24
  • 音乐背景如何推动多语言TTS技术研究

    音乐背景如何推动多语言TTS技术研究 一位从事多语言文本转语音(TTS)研究的科学家利用其音乐背景帮助寻找创新解决方案。 TTS是一个混合学科——不仅仅是工程或纯技术——Sanchez表示她的音乐背景使她能够以独特的方式寻找新颖解决方案或看待问题。 将音乐与技术联系起来 在西班牙巴塞罗那接受音乐强化教育的Sanchez,15岁时就开始考虑大学,她想找一个与音乐相关的学位课程。 当时,她专注于音乐及其如何应用于机器学习。她的一位教授正在研究创建一种可以通过不同方式调制以听起来更人性化的声音,结合语言和技术元素。 Sanchez表示,她的工作也受到她阅读技术伦理的影响,特别是Cathy O'Neil和Caroline Criado Perez作者的著作。 "提供更多语音选项很重要,"她说。"

    23310编辑于 2025-09-18
  • 来自专栏Python疯子

    Python:TTS语音合成技术,市场各大平台对比以及实现

    TTS 前景提要:在线的实时合成TTS技术,巴拉巴拉... 此处省略3千字 市场的TTS平台:讯飞语音,百度智能语音开放平台,阿里云,腾讯云,思必驰,捷通华声(灵云)等。 TTS的合成简单来说就三大步: 1️⃣创建应用 2️⃣发起请求 3️⃣解析音频数据,合成音频文件 咱们废话不说一个一个来: 一、讯飞,音频届的老大哥 支持多种语言开发,选择适合自己的,我这里选的是 WebAPI: 多种语言开发 01、创建应用 创建应用 说明: 1和3: 是在代码中具体使用到的 鉴权码 2:表示试用期间的每天使用次数 4:请求IP要添加白名单,不添加白名单会请求失败 5:可以选择不同的发音人 10:10:11" data = request_data + "应用参数" md5 = hashlib.md5() md5.update(data.encode('utf- ) 没有python示例代码,返回参数比较变态,解析出音频耗了我大量时间(因为我技术不佳) 使用过程中:百度无人回复,没给报价,思必驰没找到任何公司人员 各平台均有使用,每天限次数,可以开发试听一下,

    4.4K30发布于 2019-03-15
  • 深度解析:语音转换与数据增强的TTS前沿技术

    论文将该问题重新定义为学习一个语音转换模型,该模型应用于高质量TTS模型的输出。这是对现有少样本TTS范式的概念性转变。 其核心思想是:对于少样本学习,将现有高质量TTS模型输出的语音谱图,适配到新的目标语音,比直接调整模型本身更容易。关键在于,“语音过滤器”是在TTS模型自身生成的合成数据上进行训练的。 3. 《针对低资源表达性文本转语音的分布增强》本文考虑了缺乏新语音训练数据的情况。目标是通过置换现有样本的文本产生新的文本,并重新组合相应语音样本的片段来产生新的语音样本。 《使用标准化流进行文本无关的非平行多对多语音转换》在这篇论文中,某中心TTS团队将标准化流的概念(已广泛应用TTS应用于语音转换问题。 流程将输入映射到特定应用域中的音素频率分布。通常,标准化流会从训练数据中同时学习分布和映射。但在这里,研究人员先在标准TTS任务上对流程进行预训练(该任务数据充足),以预先学习分布。

    22610编辑于 2025-12-17
  • TTS-1技术报告:基于Transformer的文本转语音模型

    TTS-1技术报告我们介绍了Inworld TTS-1,这是一组两个基于Transformer的自回归文本转语音(TTS)模型。 我们最大的模型TTS-1-Max拥有88亿参数,专为要求苛刻的应用场景提供最高质量和表现力。TTS-1是我们最高效的模型,具有16亿参数,专为实时语音合成和边缘设备用例而构建。 通过扩展训练计算量并应用语音语言模型(SpeechLM)组件的预训练、微调和RL对齐的序列化流程,这两个模型在各种基准测试中都实现了最先进的性能,仅依靠说话者语音的上下文学习就展现出卓越的质量。 Inworld TTS-1和TTS-1-Max能够以低延迟生成48kHz高分辨率语音,支持11种语言,并通过音频标记实现精细的情感控制和非语言发声。我们还以MIT许可证开源了训练和建模代码。 技术细节模型架构:基于Transformer的自回归模型参数量:TTS-1-Max(8.8B)/TTS-1(1.6B)采样率:48kHz高分辨率音频支持语言:11种特色功能:音频标记控制、情感表达、非语言发声训练流程

    53810编辑于 2025-07-30
  • 来自专栏云上修行

    Qwen3-TTS 架构解析:基于 LLM 的自回归语音生成

    引言:从 Pipeline 到 End-to-End 各位同学,在大模型(LLM)席卷 NLP 领域的今天,语音合成(Text-to-Speech, TTS技术也正经历着一场范式转移(Paradigm Qwen3-TTS 代表了现代生成式架构的方向:基于 LLM 的自回归生成(Autoregressive Generation)。 VALL-E (Microsoft, 2023): Zero-Shot 克隆:它使得 TTS 具备了像 GPT-3 一样的零样本(Zero-Shot)能力——只需要给它 3 秒的参考音频(Prompt) 关键前置技术 (The "Tokenizer"): 如同 LLM 需要 Tokenizer (BPE) 将文本切成 ID,TTS 变成 LLM 任务的前提是将连续音频波形变成离散的 ID (Discrete 在底层实现上,Qwen3-TTS 采用了与 ChatBot 完全一致的 ChatML (Chat Markup Language) 格式。

    92110编辑于 2026-02-15
  • WEB3应用案例和技术实现

    WEB3以太坊 Web3是一种以太坊区块链技术应用,它允许开发者构建去中心化的应用程序(DApps),并与以太坊智能合约进行交互。 下面是一些Web3应用案例和相关代码实现: 去中心化金融应用(DeFi):DeFi应用可以提供去中心化的金融服务,如借贷、交易、存款等。 通过Web3,用户可以使用智能合约与这些应用进行交互。 去中心化身份验证:Web3可以用于构建去中心化的身份验证系统,用户可以使用自己的以太坊地址作为身份标识。 下面是Web3应用代码,用于查询以太坊区块链上的最新区块高度: // 引入web3库 const Web3 = require('web3'); // 连接到以太坊节点 const web3 = new Web3('https://mainnet.infura.io/v3/your_infura_project_id'); // 获取最新区块高度 web3.eth.getBlockNumber().

    53010编辑于 2025-08-29
  • 来自专栏技术人生黄勇

    开源语音 AI:3 秒克隆声音,支持 9 种语言 — Voxtral TTS

    完整开源语音链路的意义 完整开源语音链路是人形机器人、客服 Agent、车载助手等具身和语音应用的核心基础设施。 • 保存文件 / 常规播放:用 MP3,更通用,延迟 1.5–2 秒可以接受 • 语音 Agent 管道 / 追求低延迟:用 PCM,0.6–0.9 秒,但是原始未压缩格式,需要应用层自己处理转换 模型单次可以生成最多两分钟的音频 更长的内容,API 会用 Mistral 称为"智能纠错"的技术自动处理:把文本分块合成,然后无缝拼接,不会有明显断点。 本地部署须知 1. 适合什么场景 整体来看,Voxtral TTS 合适以下场景: • 语音 Agent 管道:低延迟 PCM 输出,接入流式应用有优势 • 多语言旁白工具:九种语言覆盖,跨语言克隆能力实用 • 数据不出本地的合规场景 :开放权重 + 自托管,数据完全在你自己的基础设施上(注意非商业限制) • 需要个性化声音的应用:语音克隆 + 语音即指令,不用手动写情感标签 应用场景案例 场景 技术方案 部署方式 适合情况 智能客服

    29510编辑于 2026-04-09
  • 来自专栏一猿小讲

    技术新谈,Java应用监控利器JMX(3

    那是一个我认为做的非常成功的老码农,给我们分享他的过往,大概是说他们那时候会点技术都很牛掰,面试如果问知道 JSP 吗? 面对一个开源项目或者技术轮子,我常用的大概有以下几招,接下来把招式一五一十的都献上,请各位笑纳。 招式一:用一用 先把源码跑起来,看一看,用一用,想一想。 导入项目,准备工作一定要做到位,然后依据 manifest 清单文件(稍微规范点的都有这个文件),找到应用程序入口。 ? 好了,今天主要借助对 Resin 源码的简单剖析,让我们更深入理解 JMX 的应用;同时想传达面对框架源码或者技术轮子时,平时我常用的一些方式方法,简单划分为六大招式:用一用、问一问、记一记、画一画、猜一猜 好了,今天的车要到站了,还有很多应用场景没有说,咱们还是且听下回分解吧,真心希望一猿小讲的每篇分享都能帮到你一点点。

    79030发布于 2019-08-29
  • 来自专栏数字孪生

    webgl技术3D展示中的应用

    WebGL在3D展示中的应用非常广泛,因为它打破了传统3D图形对高端计算机或专用游戏机的限制,并使3D内容能够在Web浏览器中直接运行和交互。 以下是一些主要的应用领域:游戏和互动娱乐: WebGL是开发基于浏览器的3D游戏和互动体验的核心技术。无论是简单的休闲游戏还是复杂的3D大作,WebGL都能提供流畅的渲染性能和丰富的视觉效果。 数据可视化: WebGL能够将复杂的数据集以3D形式呈现,例如地理信息系统(GIS)中的3D地图、科学模拟的可视化、金融数据的立体图表等。这有助于用户更直观地理解和分析数据。 用户可以通过浏览器直接体验沉浸式的虚拟世界或将3D对象融入现实世界。艺术和创意展示: 艺术家和设计师可以利用WebGL创建独特的3D艺术作品、数字装置和互动体验,在Web上展示他们的创意。 与Web技术栈集成: 与HTML、CSS和JavaScript无缝集成,便于Web开发人员使用。互动性: 支持用户与3D场景进行实时交互,提供更丰富的体验。

    47310编辑于 2025-05-26
  • 来自专栏GPUS开发者

    NVIDIA NeMo 发布 T5-TTS:文本转语音技术的重大突破

    NVIDIA NeMo是一款由NVIDIA开发的开源框架,主要用于构建和训练先进的对话式AI模型,NVIDIA NeMo 近期发布了 T5-TTS 型号,标志着文本转语音(TTS技术的重大进步。 然而,与在文本领域的应用类似,语音 LLM 也面临着幻觉挑战,这可能会阻碍其在现实世界中的部署。 T5-TTS 模型概述 T5-TTS 模型利用编码器-解码器转换器架构进行语音合成。 这些不准确可能会影响 TTS 系统在辅助技术、客户服务和内容创建等关键应用中的可靠性。 T5-TTS 模型通过更有效地将文本输入与相应的语音输出对齐,显著减少了幻觉问题。 应用单调对齐先验和连接主义时间分类(CTC)损失,使得生成的语音与预期文本紧密匹配,从而产生更可靠、更准确的 TTS 系统。与其他开源模型相比,T5-TTS 在单词发音方面的错误显著减少。 其创新的学习稳健文本和语音对齐方法为该领域树立了新的标杆,有望改变我们与 TTS 技术的互动方式并从中受益。

    75010编辑于 2024-07-15
  • 来自专栏心源易码

    【AI落地应用实战】文本生成语音Parler-TTS + DAMODEL复现指南

    Parler-TTS 能够将输入的文本转化为逼真的语音,适用于各种语音生成应用场景,如虚拟助理、有声书、语音生成内容等。 一、Parler-TTS简介1.1、TTS 模型传统的 TTS 模型在处理语音合成时,通常依赖大规模的语音数据集,并采用人类标注的音素、音节等细粒度信息。 与其他TTS模型不同,Parler-TTS是一个完全开源的项目,包括数据集、预处理、训练代码和权重,均在宽松的许可下公开发布,鼓励社区在此基础上进一步开发和创新。 其主要特点有:多语种支持:Parler-TTS 具备多种语言和方言支持,可以合成不同语种的语音,这让它在跨语言应用中具有很高的实用性。 /parler_tts_mini_v0.1").to(device)tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler_tts_mini_v0.1

    1.2K00编辑于 2024-11-12
  • 来自专栏机器之心

    ACL 2025 高分接收 | 高感情语音技术:逻辑智能小语种TTS破局之道

    语音合成(TTS技术近十年来突飞猛进,从早期的拼接式合成和统计参数模型,发展到如今的深度神经网络与扩散、GAN 等先进架构,实现了接近真人的自然度与情感表达,广泛赋能智能助手、无障碍阅读、沉浸式娱乐等场景 面对这一挑战,逻辑智能团队提出了一种针对低资源语言 TTS 的解决方案并应用于泰语 TTS 合成,该工作已经被 ACL 2025 Industry track 正式接收! luoji.cn/static/thai/demo.html 这项工作提出了一种数据优化驱动的声学建模框架的创新方案,通过从语音、文本、音素、语法等多个维度构建系统化的泰语数据集,并结合先进的声学建模技术 ,成功实现了在有限资源下的高质量 TTS 合成效果。 此外,该框架还具备 zero-shot 声音克隆的能力,展示了优异的跨场景适用性,为行业提供了一种在数据稀少环境下高效构建小语种 TTS 系统的有效范式,对推动全球小语种 TTS 技术的落地与普及具有重要的启示和借鉴意义

    66610编辑于 2025-05-27
  • 来自专栏机器之心

    学界 | 百度发布Deep Voice 3:全卷积注意力机制TTS系统

    在这篇论文中,百度研究人员提出了一个新颖的用于语义合成的全卷积架构,可以用于非常大规模的录音数据集,并解决了多个应用基于注意机制的 TTS 系统时出现的现实问题。 图 3.key 和推断向量(query vectors)中都添加了位置编码,速率分别为ωkey 和 ωquery。强制单调性可通过向 logits 添加一个巨大负值的 mask 应用于推理过程。 注意的分布(a)训练前,(b)训练后,没有推理约束,(c)推理约束应用于第 1 和第 3 层。我们实际观察到在 1 到 2 个主要层上固定注意足以得到高质量的输出。 我们将 Deep Voice 3 用于 TTS 任务的数据集扩展到了史无前例的程度,训练了超过 2000 名说话者,800 余小时的语音。 延伸阅读 百度提出 Deep Voice:实时的神经语音合成系统 百度提出神经 TTS 技术 Deep Voice 2:支持多说话人的文本转语音 点击「阅读原文」,在PaperWeekly 参与对此论文的讨论

    1K70发布于 2018-05-10
  • 来自专栏超级架构师

    应用分类】技术应用概述

    每天都有许多技术应用正在开发中,以解决学习机构、办公室、医疗机构等方面的不同挑战 本文涵盖了技术应用程序的定义、示例以及它们的使用位置。 让我们深入! 目录 什么是技术应用技术应用示例 不同的技术应用定义 教育中的技术应用 医疗保健中的技术应用 区块链技术应用 信息技术应用 量子技术应用 如今,许多技术都基于量子现象。量子技术催生了晶体管。 5G技术应用 技术软件应用 什么是技术应用? 术语技术应用程序是指几乎每个行业用于通信、办公生产力、研究、数据安全、分析等的软件包和系统。技术应用程序可帮助组织更专业地运行其业务。 例如, 拥有新技术应用的成本 培训员工使用应用程序所需的成本和时间。 实施新软件的冲动。 采用新技术应用的风险。 不同的技术应用定义 技术应用可以指用于完成给定任务的技术工具。 技术应用中学 技术应用是一门必修课程,根据德州基本知识和技能 (TEKS) 指南向 6 年级学生介绍技术。 什么是技术应用 TEKS?

    1.4K10编辑于 2023-01-04
  • 来自专栏视频加密

    3D应用遇上云流送技术使用更方便

    大型3D应用的使用,比如3Dmax、UE4、MAYA、Revit、Bently、CAD等,对于电脑的CPU、显卡等要求比较高,而且这些国外的软件,是按照终端授权收费的。 对于有需求的企业单位来说,要满足所有人的使用这些大型3D应用,则需要具备两个条件:购买足够的终端授权+配备高性能的电脑设备。 云流送技术可利用现有电脑资源 云流送技术,是将这些大型3D应用放在了云端服务器上,将对硬件的算力消耗转给了服务器,终端只需要接收指令通过网络传给服务器上的程序,程序在服务器上执行完结果后,通过网络以视频流的方式将结果返回给终端用户 从资源利用上和用户操作便利上来说,云流送技术使得大型3D应用对用户使用体验友好度上更加。 图片 云流送的应用领域 云流送技术应用领域比较广泛,除了常见的大型3D应用的流化传输外,流送技术可实现Windows下大部分程序的流送。

    57140编辑于 2022-06-30
领券