首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏小鹏的专栏

    10 端到端语音识别

    端到端语音识别 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? • Espnet: https://github.com/espnet/espnet • 实现了主流的端到端语音识别方法 • Speech-Transformer、LAS、CTC、RNN-T • 一个小缺点

    1.9K20发布于 2020-03-25
  • 来自专栏软件安装

    10个GitHub热门的配音语音合成语音克隆项目

    这里推荐几个GitHub上热门、好用的配音/语音合成/语音克隆项目,有通用TTS、语音克隆、视频配音、流式/轻量等不同需求的。 ▌1. Real-Time-Voice-Cloning(⭐ 52k+) 地址:https://github.com/CorentinJ/Real-Time-Voice-Cloning 功能: 经典实时语音克隆框架 Fish Speech(⭐ 10k+) 地址:https://github.com/fishaudio/fish-speech 功能: 基于VITS2,高质量、多语言、语音克隆 推理快、支持批量处理、全开源 ▌10. VoxCPM(OpenBMB,⭐ 2k+) 地址:https://github.com/OpenBMB/VoxCPM 功能: 无分词器TTS,直接在连续语音空间建模 上下文感知、零样本克隆、自然度高

    99110编辑于 2026-03-26
  • 来自专栏音视频咖

    解密游戏语音 | 3D空间语音技术:高精度HRTF + 距离衰减模型

    快戴上耳机来感受下 3D 音效 很多游戏开发者开始问了: 3D 语音背后的技术原理是什么? 该如何将 3D 语音接入我的游戏呢? 听我们快快给你讲~ 我们为什么能感知到声音方位? ,如果要实现 3D 语音的效果,需要一个关键的数据:位置坐标。 此时通过本地上传,有了房间内每个说话的人在虚拟世界的位置信息,如何体现出 3D 效果呢?这个就需要第二个关键步骤,将语音进行“3D”化。这个位置信息会和语音流一起结合,来到接收语音的客户端。 而市面上传统的 RTC 语音通话、现有的 3D 语音无法满足玩家需求,精准度与实时感还不够强。 实现原理: 我们在新版本 GME SDK 2.9.2 中对 3D 语音功能进行了进一步优化:通过本地直接调用 3D 音频模型,实时传入 3D 位置信息,实现更具有实时性的 3D 语音效果。

    1.5K30编辑于 2023-06-13
  • 来自专栏一“技”之长

    iOS10语音识别框架SpeechFramework应用

    iOS10语音识别框架SpeechFramework应用 一、引言         iOS10系统是一个较有突破性的系统,其在Message,Notification等方面都开放了很多实用性的开发接口 本篇博客将主要探讨iOS10中新引入的SpeechFramework框架。 有个这个框架,开发者可以十分容易的为自己的App添加语音识别功能,不需要再依赖于其他第三方的语音识别服务,并且,Apple的Siri应用的强大也证明了Apple的语音服务是足够强大的,不通过第三方,也大大增强了用户的安全性 SFSpeechRecognizer:这个类是语音识别的操作类,用于语音识别用户权限的申请,语言环境的设置,语音模式的设置以及向Apple服务发送语音识别的请求。 三、申请用户语音识别权限与进行语音识别请求         开发者若要在自己的App中使用语音识别功能,需要获取用户的同意。

    1.4K20发布于 2018-08-15
  • 来自专栏喔家ArchiSelf

    “他山之石”,语音技能开发的10个要点

    “他山之石,可以攻玉”,本文编译自Amazon Alexa 的“10 Things Every Skill Should Do”,尽管是两年前的文字,还是有一定的参考意义的。 语音技能的构建既是一门艺术,也是一门科学。开发智能语音技能有一些技术方面因素,还要有设计语音体验的创意,两者都很重要。 那么,在开发智能语音技能的时候有哪些共同的要点呢? ? 1. 聚焦并做好一个功能 在开始设计语音技能时,开发者可能会希望这个技能可以非常熟练地处理各种请求。但是,对于使用语音交互的用户而言,记住所有不同的选择是很困难的。 10. 充分测试 智能语音技能同样是一种软件服务,充分测试的重要性毋庸置疑。 调试对于创作出深受用户喜爱的语音技能意义重大,目前,DuerOS提供了意图调试、模拟器调试、真机调试、团队真机调试以及日志追踪调试等多种方式,详情可以参考《调试DuerOS的智能语音技能》一文。

    72531发布于 2020-10-30
  • 来自专栏算法工程师的学习日志

    10行内Python代码实现语音识别

    最近在做一个语音识别的项目,故分享一下相关内容 Python在语音识别方面功能很强大,程序语言简单高效,下面编程实现一下如何实现语音识别。本文分享如何调用百度AI开放平台实现语音识别技术。 创建应用完成后,进入管理页面,可以看到应用对应的 “AppID”、“API Key”与“Secret Key”,这些信息在调用语音识别需要提供。 创建了应用,我们便可以调用接口实现语音识别了。 get_file_content(filePath): with open(filePath, 'rb') as audio: return audio.read() 接下来,便是惊心动魄的语音识别过程了 get_file_content('test.wav'), 'wav', 16000, {'dev_pid': 1536, }) print(res['result'][0]) 在这里,我们提前录制了一个语音文件 client.asr(get_file_content('test.wav'), 'wav', 16000, {'dev_pid': 1536, }) 这一行代码实现了具体的语音识别过程,其中,get_file_content

    1.7K20编辑于 2022-07-27
  • 来自专栏游戏音视频前沿技术

    未来已来——如何在VR游戏中实现3D语音

    使用3D音效 如果以上步骤完成后,能够进入游戏后进行实时语音通话,那么我们接下来开始接入3D音效效果。游戏多媒体引擎3D音效文档 1、引入音效文件 点击下载地址下载音效文件,此文件为官方提供。 第二个参数与范围语音有关,此处不需关注。 matrix.m02, matrix.m12 }; float[] axisRight = new float[3] { matrix.m20, matrix.m00, matrix.m10 matrix.m02, matrix.m12 }; float[] axisRight = new float[3] { matrix.m20, matrix.m00, matrix.m10 image.png 进入VR游戏后,我们可以听到3D效果的实时语音。 image.png 技术创作101训练营

    2.5K2317发布于 2020-09-23
  • 来自专栏游戏多媒体引擎GME开发前沿

    GME 3D 空间语音技术:高精度 HRTF + 距离衰减模型

    快戴上耳机来感受下 3D 音效  很多游戏开发者开始问了: 3D 语音背后的技术原理是什么? 该如何将 3D 语音接入我的游戏呢? 听我们快快给你讲~ 我们为什么能感知到声音方位? 此时通过本地上传,有了房间内每个说话的人在虚拟世界的位置信息,如何体现出 3D 效果呢?这个就需要第二个关键步骤,将语音进行“3D”化。这个位置信息会和语音流一起结合,来到接收语音的客户端。 而市面上传统的 RTC 语音通话、现有的 3D 语音无法满足玩家需求,精准度与实时感还不够强。 实现原理: 我们在新版本 GME SDK 2.9.2 中对 3D 语音功能进行了进一步优化:通过本地直接调用 3D 音频模型,实时传入 3D 位置信息,实现更具有实时性的 3D 语音效果。 GME 已服务于 6000+ 海内外游戏厂商及开发者,每天提供超过 10 亿分钟的稳定语音服务。 点击“阅读原文”直达 SDK 下载页

    1.4K10编辑于 2022-08-16
  • 来自专栏媒矿工厂

    ICCV 2023 | Imitator:个性化语音驱动的 3D 人脸动画

    /2301.00023 论文作者:Balamurugan Thambiraja 等人 内容整理: 林宗灏 本文提出了一种用于个性化语音驱动 3D 人脸动画的方法 Imitator,该方法可以从简短的输入视频中学习特定身份的细节 引言 图 1:Imitator 是一种用于个性化语音驱动 3D 人脸动画的新方法。 语音驱动的 3D 人脸动画已经得到了广泛的探索。目前最先进的方法对目标人物的面部拓扑进行形变以同步输入音频,但没有考虑特定身份的说话风格和面部特质,从而导致了不真实、不准确的嘴唇运动。 音频编码器 我们使用通用语音模型来对输入音频进行编码。具体而言,我们采用 Wav2Vec 2.0。最初的 Wav2Vec 基于 CNN 架构,旨在生成有意义的人类语音潜在表示。 它以自监督和半监督的方式进行训练,通过对比损失来预测当前输入语音之后的值,从而使模型能够从大量未标记的数据中进行学习。

    1.2K10编辑于 2024-04-26
  • 技术指南:支持3D空间音效的游戏语音解决方案

    摘要 本文旨在解析支持3D空间音效的游戏语音技术的核心价值、挑战,并提供详细的操作指南,同时展示腾讯云产品在增强方案中的优势。 技术解析 核心价值与典型场景 支持3D空间音效的游戏语音技术能够为玩家提供沉浸式的游戏体验,特别是在MOBA、FPS、MMORPG等竞技对抗类游戏中。 三大关键挑战 性能瓶颈:在大规模多人在线游戏中,实时处理和传输3D音效数据可能导致服务器负载过高。 安全风险:语音数据的传输需要保证安全性,防止监听和篡改。 兼容性问题:多平台游戏需要保证语音技术在不同设备和操作系统上的兼容性。 操作指南 实施流程 集成SDK: 原理说明:选择与游戏开发环境兼容的SDK版本,确保3D音效功能能够被正确调用。 通过上述指南,开发者可以深入了解如何利用腾讯云产品实现支持3D空间音效的游戏语音技术,提升游戏体验,并确保技术的稳定性和安全性。

    41210编辑于 2025-07-28
  • 来自专栏python3

    Unity 3D 实用的10个小技巧

    10)Editor编程 – 如果Unity Editor缺少你所需的功能,你可以自己写。通过脚本扩展Editor非常容易,效果也非常显着。

    1.1K30发布于 2020-01-08
  • 来自专栏腾讯Bugly的专栏

    《除了吃鸡游戏,3D位置语音还可以用在哪里?》

    然而,3D音效之前并没有大规模应用在实时语音沟通领域,这主要是由于之前重度游戏中玩法对于语音能力的定位更多是沟通方式而非创新玩法,使用场景对于实时语音携带方位感诉求也不强烈。 而引入3D位置语音之后,玩家在喊话过程中会暴露自己的方位和位置信息,玩家的声音也会根据位置变化而实时改变。 可以说,3D音效让《大逃杀》这种玩家间的沟通和战斗体验更真实,感受更加沉浸式、更加身临其境的吃鸡玩法。 3D音效除了应用在吃鸡游戏中之外,结合线上棋牌房等多人语音场景也可以显著提升用户体验。 例如,3D音效应用到棋牌类游戏的语音房间时,通过将各个声音虚拟到桌面相应位置,玩家可以清楚地感知到其他玩家的声音是来自自己左、右还是正前方,打造线上棋牌房的沉浸式体验,也让玩家开语音沟通的意愿更加强烈。 以下是我们模拟玩家方位处理的一段棋牌游戏中实时语音效果: 3D音效的另一个重要应用场景是VR音频。 VR的一切都是关于临场感,而逼真的3D音效效果可以成为临场感的点睛之笔。

    2.1K70发布于 2018-03-23
  • 来自专栏林德熙的博客

    win10 uwp 字符文本转语音声音文件方法

    在 UWP 中,支持将传入的字符串文本内容转换为音频语音,可以将这个语音声音通过 MediaElement 播放,或者将这个音频保存到文件里面 本文的方法是通过 SpeechSynthesizer 类提供的将 synthesizer.SynthesizeTextToStreamAsync(word); } 上面代码的 word 就是传入的字符串文本,可以是一个单词也可以是一个句子或一段话 在 UWP 中使用如上面代码就可以用到 UWP 自带的语音合成技术的将文本转换为语音的功能

    87320发布于 2020-11-03
  • 来自专栏DotNet程序园

    C# 10分钟完成百度语音技术(语音识别与合成)——入门篇

    今天我们来盘一盘语音识别与合成。 PS:仅供了解参考,如需进一步了解请继续研究。 我们现在就基于百度Ai开放平台进行语音技术的相关操作,demo使用的是C#控制台应用程序。 前面的套路还是一样的: ---- 注册百度账号api,创建自己的应用; 创建vs控制台应用程序,引入动态链接库; 编写代码调试,效果图查看; 语音识别 语音合成 实时语音识别 音频文件转写 语音模型训练 ---- 1、创建百度AI语音技术应用   在百度AI开放平台中,登录自己的百度账号,点击“语音识别”服务,选择“创建应用”,填好应用名称,选择应用类型,填好应用描述,这样就创建好了“语音识别”服务。 具体不废话,不知道的小伙伴可以移步看这里:C# 10分钟完成百度人脸识别——入门篇。 创建完成后会生成APPID、APP Key、Secret Key,这些是关键内容,后面要用。 我们这里只讲述语音识别和语音合成,其他的内容可以在官网进行编写:https://ai.baidu.com/docs#/ASR-Online-Csharp-SDK/top 语音识别: using System

    4.7K21发布于 2019-08-09
  • 来自专栏林德熙的博客

    win10 uwp 选择文本转语音的机器人

    在 UWP 里,可以非常方便将某个文本转换为音频语音,转换时,将会根据输入的内容以及本机所安装的语言库选择一位机器人帮忙将输入的文本转换为语音。 本文来告诉大家如何切换文本转语音的机器人,例如从默认的女声转换为男声,如选择 Kangkang 或 Huihui 等特定机器人帮助转换语音 刚好从卢老师那里接了一个任务,录制 dotnet 的 20 周年的祝贺视频 然而过年生活太好的我嗓子沙哑了,于是本来普通话就说得不标准的我开始寻求起代码之神的帮助,好在翻到了自己的博客,找到了 win10 uwp 字符文本转语音声音文件方法 这篇博客,开始按照此方式录制,却发现了默认语音不是 } } } 界面代码如下 <Grid> <TextBox x:Name="InputTextBox" Margin="<em>10</em>,<em>10</em>,<em>10</em>,100 HorizontalTextAlignment="Left" HorizontalAlignment="Left" TextWrapping="Wrap"/> <Button Margin="<em>10</em>,<em>10</em>,<em>10</em>,<em>10</em>

    70110编辑于 2022-03-15
  • 来自专栏VoiceVista语音智能

    Voice Summit - 改变人们生活的TOP10语音智能应用

    语音人工智能并非虚无缥缈,语音智能应用可以离我们的生活很近。人工智能可以更有温度,更具温情。美国在语音技术的应用层面和创新层面,仍远远的领先。 更接地气,更关注弱势群体,让我们看看以下10个正在深刻融入,并深刻改变我们生活的语音人工智能应用。 Canary Speech - 通过语音的技术的方式,对如帕金森氏病等疾病和健康状态早期筛查和诊断。 Edge Speech - 为潜艇官兵带来更具个性化的个人语音助理,更有趣,更生动,更智能。 以后即使外包到印度,或巴基斯坦的语音客服,也能够说一口流利的美式或英式口音了。 无人机与空管的自动沟通系统 Village Technology - 跟踪和分析初生baby的语音发育发展。

    68830发布于 2019-12-20
  • 来自专栏freesan44

    iOS 10中如何搭建一个语音转文字框架

    原文:Building a Speech-to-Text App Using Speech Framework in iOS 10 作者:Sahand Edrisian 译者:王跃 在2016WWDC 设计App UI 前提:你需要Xcode 8 beta版本和一个运行iOS 10 beta系统版本的iOS 设备。 先从创建一个新的命名为SpeechToTextDemo的单视图工程开始。 处理语音识别 现在我们已经实现了用户授权,我们现在去实现语音识别功能。 触发语音识别 我们需要保证当创建一个语音识别任务的时候语音识别功能是可用的,因此我们必须给ViewController添加一个代理方法。 把app部署到一个iOS10的设备,然后点击“Start Recording”按钮。去说些什么吧! 注意: 苹果公司对每个设备的识别功能都有限制。

    2.9K20发布于 2018-09-05
  • 来自专栏Android小菜鸡

    Android语音录制,语音发送

    这是一个录音的例子,可用于IM的语音发送,OA的语音留言等。

    5.4K20发布于 2018-09-06
  • 来自专栏逆锋起笔

    Windows 10 Build 21332:纯净安装移除 Paint 3D 应用

    ‍ ‍点击⬆️方“逆锋起笔”,公众号回复 编程资源 领取大佬们推荐的学习资料 面向 Dev 频道的 Windows Insider 项目成员,微软发布了 Windows 10 Build 21332 预览版更新 Windows 10 Build 21332 更新日志 “新闻和兴趣”功能推进的更新 在过去两个月时间里,微软在 Windows 任务栏上尝试了数个版本的“新闻和兴趣”体验,并收到了大量 Windows ● 3D Viewer和Paint 3D将不再预装在最新Insider预览版的纯净安装上。这两个应用程序仍将在商店中可用,并将在操作系统更新后留在您的设备上。

    1.9K10发布于 2021-04-09
  • 来自专栏施炯的IoT开发专栏

    Windows 10 IoT Serials 4 - 如何在树莓派上使用Cortana语音助手

        从Windows 10 IoT Core 14986版本开始,微软已经加入Cortana语音助手功能。之前,我们只能使用本地语音识别,需要编写应用程序,下载到设备中才能实现。 从现在开始,微软已经从系统层面融入了Cortana语音助手,用户可以通过系统设置,开启Cortana,实时地与Cortana进行交互了。 下面我们以树莓派为Windows 10 IoT Core设备,尝试一下使用Cortana的过程。 1. 软件设置     为树莓派烧写 Windows 10 IoT Core 系统镜像,注意,版本要14986以上,最好是最新的15026版本。 目前还不支持中文的语音交互,后期应该会添加。 3. 有关麦克风的硬件,可以使用一些USB的声卡来替代,但是推荐使用上面给出的硬件,因为上面的硬件是经过微软官方测试的,兼容性比较好。

    2.2K50发布于 2018-01-10
领券