首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏小鹏的专栏

    10 端到端语音识别

    端到端语音识别 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? • Espnet: https://github.com/espnet/espnet • 实现了主流的端到端语音识别方法 • Speech-Transformer、LAS、CTC、RNN-T • 一个小缺点

    1.9K20发布于 2020-03-25
  • 来自专栏软件安装

    10个GitHub热门的配音语音合成语音克隆项目

    这里推荐几个GitHub上热门、好用的配音/语音合成/语音克隆项目,有通用TTS、语音克隆、视频配音、流式/轻量等不同需求的。 ▌1. Real-Time-Voice-Cloning(⭐ 52k+) 地址:https://github.com/CorentinJ/Real-Time-Voice-Cloning 功能: 经典实时语音克隆框架 Fish Speech(⭐ 10k+) 地址:https://github.com/fishaudio/fish-speech 功能: 基于VITS2,高质量、多语言、语音克隆 推理快、支持批量处理、全开源 ▌10. VoxCPM(OpenBMB,⭐ 2k+) 地址:https://github.com/OpenBMB/VoxCPM 功能: 无分词器TTS,直接在连续语音空间建模 上下文感知、零样本克隆、自然度高

    74710编辑于 2026-03-26
  • 来自专栏一“技”之长

    iOS10语音识别框架SpeechFramework应用

    iOS10语音识别框架SpeechFramework应用 一、引言         iOS10系统是一个较有突破性的系统,其在Message,Notification等方面都开放了很多实用性的开发接口 本篇博客将主要探讨iOS10中新引入的SpeechFramework框架。 有个这个框架,开发者可以十分容易的为自己的App添加语音识别功能,不需要再依赖于其他第三方的语音识别服务,并且,Apple的Siri应用的强大也证明了Apple的语音服务是足够强大的,不通过第三方,也大大增强了用户的安全性 SFSpeechRecognizer:这个类是语音识别的操作类,用于语音识别用户权限的申请,语言环境的设置,语音模式的设置以及向Apple服务发送语音识别的请求。 三、申请用户语音识别权限与进行语音识别请求         开发者若要在自己的App中使用语音识别功能,需要获取用户的同意。

    1.4K20发布于 2018-08-15
  • 来自专栏算法工程师的学习日志

    10行内Python代码实现语音识别

    最近在做一个语音识别的项目,故分享一下相关内容 Python在语音识别方面功能很强大,程序语言简单高效,下面编程实现一下如何实现语音识别。本文分享如何调用百度AI开放平台实现语音识别技术。 创建应用完成后,进入管理页面,可以看到应用对应的 “AppID”、“API Key”与“Secret Key”,这些信息在调用语音识别需要提供。 创建了应用,我们便可以调用接口实现语音识别了。 get_file_content(filePath): with open(filePath, 'rb') as audio: return audio.read() 接下来,便是惊心动魄的语音识别过程了 get_file_content('test.wav'), 'wav', 16000, {'dev_pid': 1536, }) print(res['result'][0]) 在这里,我们提前录制了一个语音文件 client.asr(get_file_content('test.wav'), 'wav', 16000, {'dev_pid': 1536, }) 这一行代码实现了具体的语音识别过程,其中,get_file_content

    1.7K20编辑于 2022-07-27
  • 来自专栏喔家ArchiSelf

    “他山之石”,语音技能开发的10个要点

    “他山之石,可以攻玉”,本文编译自Amazon Alexa 的“10 Things Every Skill Should Do”,尽管是两年前的文字,还是有一定的参考意义的。 语音技能的构建既是一门艺术,也是一门科学。开发智能语音技能有一些技术方面因素,还要有设计语音体验的创意,两者都很重要。 那么,在开发智能语音技能的时候有哪些共同的要点呢? ? 1. 聚焦并做好一个功能 在开始设计语音技能时,开发者可能会希望这个技能可以非常熟练地处理各种请求。但是,对于使用语音交互的用户而言,记住所有不同的选择是很困难的。 10. 充分测试 智能语音技能同样是一种软件服务,充分测试的重要性毋庸置疑。 调试对于创作出深受用户喜爱的语音技能意义重大,目前,DuerOS提供了意图调试、模拟器调试、真机调试、团队真机调试以及日志追踪调试等多种方式,详情可以参考《调试DuerOS的智能语音技能》一文。

    72031发布于 2020-10-30
  • 来自专栏林德熙的博客

    win10 uwp 字符文本转语音声音文件方法

    在 UWP 中,支持将传入的字符串文本内容转换为音频语音,可以将这个语音声音通过 MediaElement 播放,或者将这个音频保存到文件里面 本文的方法是通过 SpeechSynthesizer 类提供的将 synthesizer.SynthesizeTextToStreamAsync(word); } 上面代码的 word 就是传入的字符串文本,可以是一个单词也可以是一个句子或一段话 在 UWP 中使用如上面代码就可以用到 UWP 自带的语音合成技术的将文本转换为语音的功能

    87020发布于 2020-11-03
  • 来自专栏DotNet程序园

    C# 10分钟完成百度语音技术(语音识别与合成)——入门篇

    今天我们来盘一盘语音识别与合成。 PS:仅供了解参考,如需进一步了解请继续研究。 我们现在就基于百度Ai开放平台进行语音技术的相关操作,demo使用的是C#控制台应用程序。 前面的套路还是一样的: ---- 注册百度账号api,创建自己的应用; 创建vs控制台应用程序,引入动态链接库; 编写代码调试,效果图查看; 语音识别 语音合成 实时语音识别 音频文件转写 语音模型训练 ---- 1、创建百度AI语音技术应用   在百度AI开放平台中,登录自己的百度账号,点击“语音识别”服务,选择“创建应用”,填好应用名称,选择应用类型,填好应用描述,这样就创建好了“语音识别”服务。 具体不废话,不知道的小伙伴可以移步看这里:C# 10分钟完成百度人脸识别——入门篇。 创建完成后会生成APPID、APP Key、Secret Key,这些是关键内容,后面要用。 我们这里只讲述语音识别和语音合成,其他的内容可以在官网进行编写:https://ai.baidu.com/docs#/ASR-Online-Csharp-SDK/top 语音识别: using System

    4.7K21发布于 2019-08-09
  • 来自专栏VoiceVista语音智能

    Voice Summit - 改变人们生活的TOP10语音智能应用

    语音人工智能并非虚无缥缈,语音智能应用可以离我们的生活很近。人工智能可以更有温度,更具温情。美国在语音技术的应用层面和创新层面,仍远远的领先。 更接地气,更关注弱势群体,让我们看看以下10个正在深刻融入,并深刻改变我们生活的语音人工智能应用。 Canary Speech - 通过语音的技术的方式,对如帕金森氏病等疾病和健康状态早期筛查和诊断。 Edge Speech - 为潜艇官兵带来更具个性化的个人语音助理,更有趣,更生动,更智能。 以后即使外包到印度,或巴基斯坦的语音客服,也能够说一口流利的美式或英式口音了。 无人机与空管的自动沟通系统 Village Technology - 跟踪和分析初生baby的语音发育发展。

    68530发布于 2019-12-20
  • 来自专栏林德熙的博客

    win10 uwp 选择文本转语音的机器人

    在 UWP 里,可以非常方便将某个文本转换为音频语音,转换时,将会根据输入的内容以及本机所安装的语言库选择一位机器人帮忙将输入的文本转换为语音。 本文来告诉大家如何切换文本转语音的机器人,例如从默认的女声转换为男声,如选择 Kangkang 或 Huihui 等特定机器人帮助转换语音 刚好从卢老师那里接了一个任务,录制 dotnet 的 20 周年的祝贺视频 然而过年生活太好的我嗓子沙哑了,于是本来普通话就说得不标准的我开始寻求起代码之神的帮助,好在翻到了自己的博客,找到了 win10 uwp 字符文本转语音声音文件方法 这篇博客,开始按照此方式录制,却发现了默认语音不是 } } } 界面代码如下 <Grid> <TextBox x:Name="InputTextBox" Margin="<em>10</em>,<em>10</em>,<em>10</em>,100 HorizontalTextAlignment="Left" HorizontalAlignment="Left" TextWrapping="Wrap"/> <Button Margin="<em>10</em>,<em>10</em>,<em>10</em>,<em>10</em>

    69610编辑于 2022-03-15
  • 来自专栏freesan44

    iOS 10中如何搭建一个语音转文字框架

    原文:Building a Speech-to-Text App Using Speech Framework in iOS 10 作者:Sahand Edrisian 译者:王跃 在2016WWDC 设计App UI 前提:你需要Xcode 8 beta版本和一个运行iOS 10 beta系统版本的iOS 设备。 先从创建一个新的命名为SpeechToTextDemo的单视图工程开始。 处理语音识别 现在我们已经实现了用户授权,我们现在去实现语音识别功能。 触发语音识别 我们需要保证当创建一个语音识别任务的时候语音识别功能是可用的,因此我们必须给ViewController添加一个代理方法。 把app部署到一个iOS10的设备,然后点击“Start Recording”按钮。去说些什么吧! 注意: 苹果公司对每个设备的识别功能都有限制。

    2.8K20发布于 2018-09-05
  • 来自专栏Android小菜鸡

    Android语音录制,语音发送

    这是一个录音的例子,可用于IM的语音发送,OA的语音留言等。

    5.4K20发布于 2018-09-06
  • 来自专栏施炯的IoT开发专栏

    Windows 10 IoT Serials 4 - 如何在树莓派上使用Cortana语音助手

        从Windows 10 IoT Core 14986版本开始,微软已经加入Cortana语音助手功能。之前,我们只能使用本地语音识别,需要编写应用程序,下载到设备中才能实现。 从现在开始,微软已经从系统层面融入了Cortana语音助手,用户可以通过系统设置,开启Cortana,实时地与Cortana进行交互了。 下面我们以树莓派为Windows 10 IoT Core设备,尝试一下使用Cortana的过程。 1. 软件设置     为树莓派烧写 Windows 10 IoT Core 系统镜像,注意,版本要14986以上,最好是最新的15026版本。 目前还不支持中文的语音交互,后期应该会添加。 3. 有关麦克风的硬件,可以使用一些USB的声卡来替代,但是推荐使用上面给出的硬件,因为上面的硬件是经过微软官方测试的,兼容性比较好。

    2.2K50发布于 2018-01-10
  • 来自专栏KT148A

    常用的语音芯片工作原理_分类为语音播报 语音识别 语音合成tts

    1.0 语音芯片分类-语音播报-语音识别-语音合成关于声音的需求,从始至终,都是很刚需的需求 。从语音芯片的演化就能看出很多的端倪,很多很多的产品他必须要有语音,才能实现更好的交互。 而语音芯片的需求分类,其实也是很好理解的,从市场上常用的芯片产品特性,大概就能归类如下:语音播报芯片--KT148A语音识别芯片--思必驰-云知声语音合成芯片-TTS语音播报的类别-KT148A它实现的原理 推荐KT148A-sop8解决方案,大概的产品类型如下:语音识别的类别-思必驰-云知声1、这个品类就很复杂了,是语音芯片里面最复杂的存在,常见的家电语音控制,设备的语音唤醒,在线识别和离线识别2、都是相差很多很多 3、优点就是播放可以随意组合,非常好用,非常灵活4、缺点,就是贵,并且还没有太多选择,就科大讯飞、宇音天下在做,好像科大讯飞做不下去停产了语音芯片的总结总之,需要这方面的需求,还是强烈推荐语音播报芯片, ,到底是离线,还是在线离线就是不联网,不连app,比如语音小夜灯那种产品在线,就是联网,联app ,比如:小爱音箱那种产品

    1.6K40编辑于 2023-11-15
  • 来自专栏运维经验分享

    win10安装jdk8 配置环境变量 听语音

    网上关于win10 jdk安装、配置环境变量的经验有很多,但是按照方法配置后出现了运行javac 报告javac不是内部或外部命令,但是运行java、java-version正常。 工具/原料 Windows 10 jdk安装文件 第一步,下载jdk安装文件。 1 直接百度jdk1.8,一般第一条就是官方下载网址。根据自己系统下载对应版本即可。 ? ? 这里要特别注意一下,win10环境变量值是一行一行的,不要直接点击新建,添加“%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;”,否则会出现“javac不是内部或外部命令”错误。

    78320发布于 2019-03-16
  • 来自专栏机器之心

    语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

    语音处理和文本到语音(TTS)领域,这样的转变也正在发生,模型能够利用数千小时的数据,使合成结果越来越接近类人语音。 在最近的一项研究中,亚马逊正式推出了 BASE TTS,将 TTS 模型的参数规模提升到了前所未有的 10 亿级别。 100K hours of data 论文链接:https://arxiv.org/pdf/2402.08093.pdf BASE TTS 是一个多语言、多说话人的大型 TTS(LTTS)系统,在约 10 本文的主要贡献概述如下: 1、提出了 BASE TTS,这是迄今为止最大的 TTS 模型,具有 10 亿参数,并在由 10 万小时公共领域语音数据组成的数据集上进行了训练。 基于这种压缩水平,接下来的目标是去除语音编码中可在解码过程中重建的信息(说话人、音频噪声等),以确保语音编码的容量主要用于编码语音和韵律信息。

    46210编辑于 2024-02-26
  • 来自专栏崔哥的专栏

    openai whisper 语音识别,语音翻译

    简介 Whisper 是openai开源的一个通用的语音识别模型,同时支持把各种语言的音频翻译为成英文(音频->文本)。

    4.5K11编辑于 2024-03-08
  • 来自专栏了不得的专栏

    python文本转语音(微软xiaoxiao语音)

    前言 python文本转语音(微软xiaoxiao语音) 1. 因为xiaoxiao的语音属于神经网络语音 所以选择地区时要选择 神经网络可用区域 才能使用微软xiaoxiao语音 ? ? F0是免费版,每月有一定的免费额度可以使用 ?

    9.8K10发布于 2021-06-15
  • 来自专栏腾讯高校合作

    10小时训练数据打造多语种语音识别新高度

    从2000年开始,NIST组织的RT(英文语音识别),LRE(语音语种识别),SRE(语音说话人识别),OPENKWS(语音关键词识别)等比赛一直是语音届的标杆竞赛,其组织比赛方向也可以看出目前学术和工业界的语音研究发展方向 旨在低资源语种限制下,评估一下当前SOTA(最前沿技术)在10小时门槛下的语音识别性能,比赛要求参赛队伍在给定数据一周后,在限定的关门时间内完成语音识别转写任务,比赛分为受限条件(Constrained condition)和非受限条件(Unconstrained condition)两个赛道,前者只能使用组委会提供的10小时标注语音识别数据,后者可以使用组委会提供10小时受限数据之外的数据。 受限系统 由于受限系统只提供10小时训练数据,我们采取的主要方案还是语音领域使用较多的Hybrid HMM架构。 同时,该分类器的输出为输入语音帧对应的音素后验概率,同样具有明显的发音区分性,称为后验概率特征。但不幸的是,在10小时这个量级上,10种语言总共只有100小时。

    2K10发布于 2021-01-07
  • 来自专栏博文视点Broadview

    语音打断功能——深入语音识别技术,设计语音用户界面(VUI)

    小编说:在语音识别技术的实现过程中,有一个会大大影响设计的语音识别技术是“语音打断”,即你是否允许用户打断系统说话。 本文选自《语音用户界面设计:对话式体验设计原则》 语音打断功能常用于交互式语音应答(IVR)系统,从而用户可以随时中断系统。 试想一下,你正在收听10 起交通事故的信息,你打个喷嚏结果系统停了下来,跟你说:“对不起,我没听到你说什么。”于是你又要从头开始听! 无语音超时和语音终止超时需分别处理,因为: NSP 超时时间比语音终止超时时间更长(通常为10 秒左右)。 针对NSP 超时,VUI 系统会执行不同的操作。 无语音超时能帮助系统分析哪里存在问题。 最好能根据现有数据来确定你的TMS 超时时间,当然你也可以先设置一个比较长时间的TMS 超时(否则会太轻易地打断用户),例如7 ~ 10 秒。

    6.2K11发布于 2020-06-11
  • 来自专栏网络技术联盟站

    什么是语音识别的语音搜索?

    前言随着智能手机、智能音箱等智能设备的普及,语音搜索已经成为了一种趋势。语音搜索不仅方便快捷,而且可以实现双手的解放。语音搜索的实现离不开语音识别技术,本文将详细介绍语音识别的语音搜索。 图片语音识别的基本原理语音识别是将语音信号转换为文本的技术。语音识别的基本原理是将语音信号分解为一系列短时频谱,然后对每个时刻的频谱进行特征提取和分类。 解码解码是指将经过模型训练的模型应用于新的语音信号,以便将语音信号转换为文本。常用的解码方法包括维特比算法和贪心搜索等。语音搜索的基本原理语音搜索是指通过语音输入的方式,进行搜索操作。 语音搜索的基本原理是将用户的语音输入转换为文本,并且使用搜索引擎进行搜索。语音搜索的主要步骤包括语音识别、文本处理、搜索引擎搜索和结果展示等。语音识别语音识别是语音搜索的核心技术之一。 结论语音搜索是通过语音输入的方式,进行搜索操作。语音搜索的核心技术之一是语音识别,它可以将用户的语音输入转换为文本。语音搜索的基本原理包括语音识别、文本处理、搜索引擎搜索和结果展示等。

    6.5K00编辑于 2023-05-14
领券