首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 自动语音识别(ASR)与文本转语音(TTS技术应用与发展

    如果你对Web安全感兴趣,或者想要提高你的Web应用程序的安全性,我强烈推荐你阅读这篇文章。它不仅能够提供实用的技术知识,还能帮助你更好地理解安全领域的法律和道德规范。 近年来,语音技术在人工智能领域的发展极为迅速,语音识别(ASR)和文本转语音(TTS)作为两项重要的核心技术,被广泛应用于智能助手、客户服务系统、翻译设备以及教育平台等多个领域。 ASR 的应用场景随着深度学习和大数据技术的进步,ASR 技术应用范围越来越广泛,以下是几个典型的应用场景:智能助手:如 Siri、Google Assistant 等智能助手,通过 ASR 技术实现了与用户的自然语言交互 TTS应用场景TTS 技术应用涵盖了多个领域,以下是一些典型的应用场景:智能音箱:智能音箱如 Amazon Echo、Google Home 等,利用 TTS 技术可以向用户反馈天气、新闻、音乐推荐等内容 ASR 和 TTS技术发展随着深度学习技术的发展,ASR 和 TTS 在近年来取得了显著进展:深度学习模型的引入:ASR 和 TTS 都受益于深度神经网络的发展。

    1.5K10编辑于 2024-11-16
  • 来自专栏大模型应用

    大模型应用:一文读懂TTS技术应用:基础入门到实战的全场景指南.18

    一、前言 在人工智能与语音交互技术飞速发展的今天,TTS(Text-to-Speech,文本转语音)已渗透到生活与工作的方方面面。 从手机导航的语音播报、智能音箱的对话反馈,到有声书制作、企业客服语音提醒,TTS技术以“让文字开口说话”的核心能力,大幅提升了信息传递效率与用户体验。 今天我们从TTS技术基础入手,详解主流实现方案,结合丰富实操示例,覆盖从入门到进阶的全场景应用,帮助读者快速掌握TTS技术的使用方法。二、TTS基础1. 三、入门级应用初次接触,我们先做一些基础示例体验,优先从“零配置、低门槛”的方案入手,快速体验TTS核心功能。 随着技术的发展,TTS 与 AI 大模型、语音识别等技术的结合将更加紧密,未来在智能客服、虚拟人、元宇宙等领域的应用将更加广泛,值得持续关注与探索。

    41032编辑于 2026-02-15
  • 来自专栏技术人生黄勇

    开源语音 AI:3 秒克隆声音,支持 9 种语言 — Voxtral TTS

    (文字转语音) Voxtral TTS 4B 9语言,3秒声音克隆,70ms 低延迟 企业定制平台 Mistral Forge 私有化部署、微调、全链路 Agent 构建 这意味着从「听」到「说」的完整语音 更长的内容,API 会用 Mistral 称为"智能纠错"的技术自动处理:把文本分块合成,然后无缝拼接,不会有明显断点。 本地部署须知 1. 适合什么场景 整体来看,Voxtral TTS 合适以下场景: • 语音 Agent 管道:低延迟 PCM 输出,接入流式应用有优势 • 多语言旁白工具:九种语言覆盖,跨语言克隆能力实用 • 数据不出本地的合规场景 :开放权重 + 自托管,数据完全在你自己的基础设施上(注意非商业限制) • 需要个性化声音的应用:语音克隆 + 语音即指令,不用手动写情感标签 应用场景案例 场景 技术方案 部署方式 适合情况 智能客服 边缘设备本地运行 数据不上云、实时性要求高 车载语音助手 Voxtral Realtime 4B + vLLM 车载 GPU / 高端手机 离线可用、多语言支持 多语言电话客服 Voxtral 9语言支持

    29510编辑于 2026-04-09
  • 来自专栏AI技术体系搭建过程

    数字人关键技术2:TTS文本转语音

    使用场景在数字人领域,TTS(文本转语音)是数字人与用户实现自然、流畅语音交流的核心能力。TTS技术赋能数字人具备“发声”能力,实现文字到语音的无缝转化。使用场景主要包括:1. 多语言和方言支持  TTS技术支持多语言和多方言合成,助力数字人实现跨区域、跨文化的无障碍沟通,适应全球化市场需求。1 什么是TTS ? TTS(Text-to-Speech,文本转语音)是一种将文字信息转换为自然流畅语音的技术。它让机器“说话”,被广泛应用于导航播报、智能客服、无障碍辅助、电子阅读等场景。 ESPnet-TTS 集成多种先进模型,适合科研与工业应用,支持多说话人和多语种。4. Festival  传统开源框架,轻量级,支持文本到语音转换,适合嵌入式和低资源场景。5. 通过介绍和示例,相信你已具备入门TTS技术的基础,期待你能在实际数字人项目中灵活应用,打造出更加智能和贴心的语音体验。

    78310编辑于 2025-09-15
  • 来自专栏目标检测和深度学习

    字节跳动Seed-TTS:AI语音合成技术的革命

    hi,小伙伴们,今天的主题是研究研究TTS,最近工作内容涉及到AI视频混剪,需要进行音色合成,看一下市面上效果好又花钱少的相对成熟技术薅羊毛! 今天的几个内容都是和TTS相关,如果大家有更多推荐的也欢迎大家留言推荐~ 在人工智能的浪潮中,文本转语音(TTS技术正变得越来越重要。 而字节跳动的Seed Team,通过其Seed-TTS模型,将这一技术推向了新的高度。 什么是Seed-TTS? Seed-TTS是由字节跳动Seed Team研发的一系列TTS模型。 说话人微调:通过微调,Seed-TTS能够更准确地模仿特定说话人的声音特性。 应用场景 Seed-TTS应用场景广泛,包括但不限于个人智能助理、视频游戏配音、有声书制作、跨语言TTS、语音转换等。 未来展望 随着技术的不断进步,Seed-TTS有望在更多领域发挥重要作用,为人们提供更加丰富、自然的语音交互体验。

    2.2K10编辑于 2024-07-12
  • 来自专栏企鹅号快讯

    “BIM+” 9技术PM、云计算、GIS……集成应用

    同时,更加广泛地发展和应用BIM技术与数字化技术的集成,进一步拓展信息网络技术、智能卡技术、家庭智能化技术、无线局域网技术、数据卫星通信技术、双向电视传输技术等与BIM技术的融合。 随着新技术应用,全站仪逐步向自动化、智能化方向发展。 目前,国外已有很多企业在施工中将BIM与智能型全站仪集成应用进行测量放样,而我国尚处于探索阶段,只有深圳市城市轨道交通9号线、深圳平安金融中心和北京望京SOHO等少数项目应用。 BIM与虚拟现实技术集成应用,可提高模拟工作中的可交互性。 随着各项技术的发展,现阶段BIM与3D打印技术集成存在的许多技术问题将会得到解决,3D打印机和打印材料价格也会趋于合理,应用成本下降也会扩大3D打印技术应用范围,提高施工行业的自动化水平。

    4K50发布于 2018-01-26
  • 来自专栏思谱云汇人工智能

    智能语音机器人小知识(5)--什么是TTS技术

    TTS语音合成技术即将覆盖国标一、二级汉字,具有英文接口,自动识别中、英文,支持中英文混读。 现在的TTS应用包括语音驱动的邮件以及声音敏感系统,并常与声音识别程序一起使用。 TTS所用的关键技术就是语音合成(SpeechSynthesis)。 TTS2.jpg TTS在CTI的应用中的基本构架 在一般的CTI应用系统中,都会有IVR(交互式语音应答系统)。 具有TTS功能的IVR可以加快服务速度,节约服务成本,使IVR为呼叫者提供7*24小时的服务。 目前常见的IVR系统大都是通用的工控机平台上插入语音板卡组成,并支持中文语音合成TTS技术

    4.4K40发布于 2019-05-24
  • 音乐背景如何推动多语言TTS技术研究

    音乐背景如何推动多语言TTS技术研究 一位从事多语言文本转语音(TTS)研究的科学家利用其音乐背景帮助寻找创新解决方案。 TTS是一个混合学科——不仅仅是工程或纯技术——Sanchez表示她的音乐背景使她能够以独特的方式寻找新颖解决方案或看待问题。 将音乐与技术联系起来 在西班牙巴塞罗那接受音乐强化教育的Sanchez,15岁时就开始考虑大学,她想找一个与音乐相关的学位课程。 当时,她专注于音乐及其如何应用于机器学习。她的一位教授正在研究创建一种可以通过不同方式调制以听起来更人性化的声音,结合语言和技术元素。 今年9月,Sanchez在Interspeech 2022上发表了"统一与征服:语音特征表示如何影响多语言文本转语音(TTS)"。该论文探讨了在多语言模型中表示语言特征的两种主要方法。

    23310编辑于 2025-09-18
  • 来自专栏Python疯子

    Python:TTS语音合成技术,市场各大平台对比以及实现

    TTS 前景提要:在线的实时合成TTS技术,巴拉巴拉... 此处省略3千字 市场的TTS平台:讯飞语音,百度智能语音开放平台,阿里云,腾讯云,思必驰,捷通华声(灵云)等。 TTS的合成简单来说就三大步: 1️⃣创建应用 2️⃣发起请求 3️⃣解析音频数据,合成音频文件 咱们废话不说一个一个来: 一、讯飞,音频届的老大哥 支持多种语言开发,选择适合自己的,我这里选的是 WebAPI: 多种语言开发 01、创建应用 创建应用 说明: 1和3: 是在代码中具体使用到的 鉴权码 2:表示试用期间的每天使用次数 4:请求IP要添加白名单,不添加白名单会请求失败 5:可以选择不同的发音人 lan=zh&ctp=1&cuid=abcdxxx&tok=24.ed4dfdxxxxxff0af259fc.2592000.1553756573.282335-15631432&tex={}&vol=9& 15:] # 写入文件生成音频 save_wav(bytes(ret), "aasdasd.mp3") 没有python示例代码,返回参数比较变态,解析出音频耗了我大量时间(因为我技术不佳

    4.4K30发布于 2019-03-15
  • 来自专栏开源物联网平台开发

    【物联网应用案例】智能农业的 9技术用例

    一、农业中的物联网用例 一般而言,农业物联网传感器以及农业物联网应用有多种类型: 1. 气候条件监测 气象站无疑是当今智能农业领域最受欢迎的设备。 Arable和Semios这两个典范,就是这类应用在实际农业生产中的生动展现。它们证明了,物联网的加持,能让我们的农业生产更为科学、精准,为丰收的田野织就一道坚实的保护网。 4. 虽然物联网和智能传感器技术是高度相关的实时数据的金矿,但数据分析的使用可以帮助农民理解它并做出重要的预测:农作物收获时间、疾病和虫害风险、产量等. SoilScout等解决方案应用于农业,使农民能够节省高达 50% 的灌溉水,减少因过度浇水造成的肥料损失,并无论季节或天气条件如何,都能提供可行的见解。 8. 9. 机器人和自主机器 机器人创新也为农业自主机器领域提供了充满希望的未来。一些农民已经使用自动化收割机、拖拉机以及其他无需人工控制即可运行的机器和车辆。

    3.5K10编辑于 2024-03-20
  • 深度解析:语音转换与数据增强的TTS前沿技术

    论文将该问题重新定义为学习一个语音转换模型,该模型应用于高质量TTS模型的输出。这是对现有少样本TTS范式的概念性转变。 其核心思想是:对于少样本学习,将现有高质量TTS模型输出的语音谱图,适配到新的目标语音,比直接调整模型本身更容易。关键在于,“语音过滤器”是在TTS模型自身生成的合成数据上进行训练的。 其思路是:首先训练一个语音转换模型,将其他语音中的富有表现力的语音样本转换为目标语音,然后将转换后的语音作为TTS模型的额外训练数据。该TTS模型接收两个输入:文本序列和风格向量。 《使用标准化流进行文本无关的非平行多对多语音转换》在这篇论文中,某中心TTS团队将标准化流的概念(已广泛应用TTS应用于语音转换问题。 流程将输入映射到特定应用域中的音素频率分布。通常,标准化流会从训练数据中同时学习分布和映射。但在这里,研究人员先在标准TTS任务上对流程进行预训练(该任务数据充足),以预先学习分布。

    22610编辑于 2025-12-17
  • TTS-1技术报告:基于Transformer的文本转语音模型

    TTS-1技术报告我们介绍了Inworld TTS-1,这是一组两个基于Transformer的自回归文本转语音(TTS)模型。 我们最大的模型TTS-1-Max拥有88亿参数,专为要求苛刻的应用场景提供最高质量和表现力。TTS-1是我们最高效的模型,具有16亿参数,专为实时语音合成和边缘设备用例而构建。 通过扩展训练计算量并应用语音语言模型(SpeechLM)组件的预训练、微调和RL对齐的序列化流程,这两个模型在各种基准测试中都实现了最先进的性能,仅依靠说话者语音的上下文学习就展现出卓越的质量。 Inworld TTS-1和TTS-1-Max能够以低延迟生成48kHz高分辨率语音,支持11种语言,并通过音频标记实现精细的情感控制和非语言发声。我们还以MIT许可证开源了训练和建模代码。 技术细节模型架构:基于Transformer的自回归模型参数量:TTS-1-Max(8.8B)/TTS-1(1.6B)采样率:48kHz高分辨率音频支持语言:11种特色功能:音频标记控制、情感表达、非语言发声训练流程

    53810编辑于 2025-07-30
  • 来自专栏AI SPPECH

    9:L应用同态加密:蓝队的密文计算技术

    作为防御者,我必须深入研究同态加密技术的原理和应用,构建安全的密文计算体系,才能在与基拉的智力较量中占据主动。 2. 技术深度拆解与实现分析 本节核心价值:深入解析同态加密的原理和实现技术,包括密文计算、性能优化和实际应用。 为了缓解这些风险,我采取了以下策略: 参数优化:根据具体应用场景选择合适的加密参数,平衡安全性和性能 计算优化:使用批处理、硬件加速等技术提高计算效率 混合方案:结合其他隐私保护技术,如差分隐私,减少同态加密的使用场景 渐进式部署:从小规模应用开始,逐步扩大同态加密的应用范围 在实际部署中,我将同态加密与其他安全技术结合,构建全面的安全体系。 未来趋势与前瞻预测 本节核心价值:展望同态加密在信息安全领域的未来发展趋势,以及可能的技术突破。 随着技术的不断发展,同态加密在信息安全中的应用将迎来新的变革。

    13010编辑于 2026-03-26
  • 来自专栏DotNet NB && CloudNative

    技术速递|.NET 9简介

    今天发布的 .NET Aspire 9 带来了一些您最需要的功能,可以帮助您简化应用程序开发。 .NET 9 中的 Blazor 改进 .NET 9 中的 Blazor 比以往更好,可让您构建精美的现代 Web 和混合应用程序。 NET MAUI 进入 .NET 9 的首要目标是提高质量和可靠性,以便您更轻松地将应用部署到生产环境中。 您可以使用它来快速开始您的应用开发。 我们一直在倾听开发人员的意见,.NET 9 为桌面和移动应用程序提供了增强的性能、可靠性和更深层次的集成。 无论您是使用 WinUI 3 和 Windows App SDK 创建新的现代应用程序,还是对现有的 WPF 和 WinForms 应用程序进行现代化改造,您的 Windows 应用在 .NET 9 上都能获得最佳运行效果

    1.3K10编辑于 2024-12-06
  • 来自专栏JusterZhu

    技术速递|.NET 9 简介

    今天发布的 .NET Aspire 9 带来了一些您最需要的功能,可以帮助您简化应用程序开发。 .NET 9 中的 Blazor 改进 .NET 9 中的 Blazor 比以往更好,可让您构建精美的现代 Web 和混合应用程序。 NET MAUI 进入 .NET 9 的首要目标是提高质量和可靠性,以便您更轻松地将应用部署到生产环境中。 您可以使用它来快速开始您的应用开发。 我们一直在倾听开发人员的意见,.NET 9 为桌面和移动应用程序提供了增强的性能、可靠性和更深层次的集成。 ,您的 Windows 应用在 .NET 9 上都能获得最佳运行效果。

    1.5K10编辑于 2025-01-23
  • 来自专栏达达前端

    前端技术前沿9

    image.png image.png image.png Node.js使用Module模块去划分不同的功能,以简化应用的开发。 var myModule = require('.

    1.8K50发布于 2019-07-03
  • 来自专栏Redis原理与应用

    Redis应用9.简单应用汇总

    (String数据结构)6.实现一个简单的唯一ID生成器(incr命令)7.实现博客点赞次数计数器(incr命令 + decr命令)8.社交网站的网址点击追踪机制(长网址转短网址)(Hash数据结构)9. /短网址追踪案例public class ShortUrlDemo { private static final String[] X36_ARRAY = "0,1,2,3,4,5,6,7,8,9, shortUrlDemo.getShortUrlAccessCount(shortUrl); System.out.println("短网址被访问的次数为:" + accessCount); }}9.

    18000编辑于 2025-03-08
  • 来自专栏Leetcode名企之路

    9技术文章汇总

    看了很多技术书,为啥仍然写不出项目? 机器学习相关就业会达到饱和吗? Leetcode题解 【Leetcode】79.单词搜索 【Leetcode】78. 子集 【Leetcode】77. 正则表达式匹配 【Leetcode】9. 回文数 【Leetcode】8. 字符串转整数 (atoi) 【Leetcode】7. Reverse Integer 【Leetcode】6.

    85940发布于 2018-10-25
  • 来自专栏GPUS开发者

    NVIDIA NeMo 发布 T5-TTS:文本转语音技术的重大突破

    NVIDIA NeMo是一款由NVIDIA开发的开源框架,主要用于构建和训练先进的对话式AI模型,NVIDIA NeMo 近期发布了 T5-TTS 型号,标志着文本转语音(TTS技术的重大进步。 然而,与在文本领域的应用类似,语音 LLM 也面临着幻觉挑战,这可能会阻碍其在现实世界中的部署。 T5-TTS 模型概述 T5-TTS 模型利用编码器-解码器转换器架构进行语音合成。 这些不准确可能会影响 TTS 系统在辅助技术、客户服务和内容创建等关键应用中的可靠性。 T5-TTS 模型通过更有效地将文本输入与相应的语音输出对齐,显著减少了幻觉问题。 应用单调对齐先验和连接主义时间分类(CTC)损失,使得生成的语音与预期文本紧密匹配,从而产生更可靠、更准确的 TTS 系统。与其他开源模型相比,T5-TTS 在单词发音方面的错误显著减少。 其创新的学习稳健文本和语音对齐方法为该领域树立了新的标杆,有望改变我们与 TTS 技术的互动方式并从中受益。

    75010编辑于 2024-07-15
  • 来自专栏crossoverJie

    技术阅读周刊第9️⃣期

    技术阅读周刊,每周更新。 历史更新 20231107:第五期 20231117:第六期 20231124:第七期 20231201:第八期 美团技术博客十周年,感谢一路相伴 - 美团技术团队 URL: https://tech.meituan.com /2023/12/04/ten-years-of-meituan-technology-blog.html 美团技术博客更新十周年了,这个博客确实在广大开发者心中都是有口皆碑的;记得当初在这里看过 HashMap 的原理分析、动态线程池等技术;现在也有加到订阅列表里,有更新时会第一时间阅读 CompletableFuture原理与实践-外卖商家端API的异步化 - 美团技术团队 URL: https://tech.meituan.com ,动动小手帮主播点播关注 往期推荐 技术阅读周刊第第8️⃣期 五分钟 k8s 实战-滚动更新与优雅停机 五分钟 k8s 实战-应用探针 技术阅读周刊第第7️⃣期 升级到 Pulsar3.0 后深入了解

    28510编辑于 2023-12-13
领券