搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏知识点分享
声学简介
什么是声学？声学是研究声音的物理学，研究内容包括声信号的产生、传输和检测等所有与之相关的多物理学科。声学范围下载LMS Virtual.Lab 声学手册在声学中，声音由传播介质产生、在其中传播并受其影响，最终被人们检测、感知并进行分析。例如，音乐家用钢琴演奏出美妙的音符（音乐）；有些工程师研究拾音麦克风，而其他一些工程师则通过扬声器对声音的再现进行优化（电声学）；建筑师和土木工程师确保声音在音乐厅完美再现（室内声学）；听者的耳朵接收声音显而易见，声学在本质上涉及多个学科和多个物理场。在这里，我们主要讨论与工程和地球科学相关的声学物理原理。有关声学的详细分类，请参见《美国声学学会杂志》（Journal of the Acoustical Society of America）使用的 PACS classification。
1.2K20编辑于 2022-06-01
来自专栏深度应用
·主流声学模型对比
主流声学模型对比目录概述基础概念语音帧语音识别系统主流声学建模技术 HMM DNN-HMM FFDNN CNN RNN及LSTM CTC 其他建模技术语言建模技术语音唤醒技术关于未来搜狗知音引擎是搜狗公司自主研发的一项专注于自然交互的智能语音技术，于2016年8月3日正式对外发布，该技术集合了语音识别、语义理解、语音交互、以及提供服务等多项功能，不仅能听会说，还能理解会思考, 本文将结合知音引擎中语音识别建模技术的使用来为大家讲解主流声学建模技术近年来，随着深度学习的兴起，使用了接近30年的语音识别声学模型HMM(隐马尔科夫模型)逐渐被DNN(泛指深度神经网络)所替代，模型精度也有了突飞猛进的变化，整体来看声学建模技术从建模单元输入特征使用了在当前帧左右拼帧的方式来实现模型对时序信号长时相关性的建模，模型输出则保持了GMM-HMM经常使用的trihone共享状态（senone），中文大词汇量连续语音识别中状态数一般设置在1万左右，如图8所示图8 DNN-HMM建模流程 FFDNN FFDNN的模型结构如下所示： ? 图9 FFDNN建模流程 CNN 编者注：实际上，最早CNN只应用于图像识别，直到2012年才被用于语音识别系统。 ?
4K22发布于 2019-06-27
来自专栏深度学习|机器学习|歌声合成|语音合成
声学特征提取and WORLD Using
声谱图（Spectrogram） image.png 这段语音被分为很多帧，每帧语音都对应于一个频谱（通过短时FFT计算），频谱表示频率与能量的关系。在实际使用中，频谱图有三种，即线性振幅谱、对数振幅谱、自功率谱（对数振幅谱中各谱线的振幅都作了对数计算，所以其纵坐标的单位是dB（分贝）。这个变换的目的是使那些振幅较低的成分相对高振幅成分得以拉高，以便观察掩盖在低幅噪声中的周期信号）。 image.png 我们先将其中一帧语音的频谱通过坐标表示出来，如上图左。现在我们将左边的频谱旋转90度。得到中
67410发布于 2021-01-14
来自专栏硬件大熊
浅析硬件“好声音”: 声学器件
音视频硬件中，声学器件是必不可少的基础元件，声学器件主要包括麦克风和喇叭，麦克风拾取声音，喇叭播放声音。所以归麦克风凭借其良好的性能，迅速成为消费类产品的首选声学元器件。如下图所示为两种类型麦克风的示例图。
1.6K20编辑于 2022-06-23
来自专栏音乐与健康
解析声音“疗伤”的密码（音波声学）
他们往往是早8点半之前到，晚上10点以后才离开。　　研究人员首先给爪子发炎的小鼠播放3种不同类型的声音，分别是舒缓的音乐、不协调的音符及白噪音。柏林声学实验室更发现。低频段（60-80Hz）音波能像物理按摩般刺激副交感神经。古琴大师龚一演奏的《流水》。每个泛音间隔0.8秒。恰好匹配深度呼吸的黄金节奏。
37110编辑于 2025-10-25
来自专栏全栈程序员必看
基于Speex的声学回声消除
所谓声学回声消除，是为了解决VoIP（网络电话）中这样一个问题：即A与B进行通话，A端有麦克风和扬声器分别用来采集A的声音和播放B的声音，B端有麦克风和扬声器分别用来采集B的声音和播放声学回声消除一般可以通过硬件和软件分别实现，目前来说，硬件实现比较简单，软件实现较难，这里的难并不是说回声消除算法很难，而是在应用算法时的实时同步问题很难，目前软件实现较好的应该是微软，但似乎也对硬件配置和操作系统有要求而Speex提供了声学回声消除算法库，本文就简单用Speex对一段录音进行回声消除，当然这不是实时处理的。 NearEnd1-8kHz.pcm out1-8kHz.pcm 从上图及听力结果来看上图的结果是在采样率为8kHz下进行的，一个有趣的现象是，若提高采样率，效果似乎变好了。
4.6K20编辑于 2022-11-16
来自专栏深度学习|机器学习|歌声合成|语音合成
语音合成-声学概念和变声变调
声学概念声音是靠波来传播的，区别任何的声音需要依据三个来区分：响度、音高和音色响度音高:声音具有确定的音高，声音就可以使空气以笃定的方式运行。低音就是频率低。频谱：描述各种波的振幅的大小的图叫做频谱图，这在声学中是相当的重要的。
1.7K10发布于 2021-01-14
来自专栏进击的多媒体开发
声学工程师应知道的150个声学基础知识（全篇）
和大家分享一下声学工程师应知道的150个声学基础知识。注意，声学工程师和音频工程师可不是同一岗位，前者会更侧重于硬件，后者侧重于软件层面。但是关于声音的一些基础内容还是相同的，可以多多了解！！！以下是全部的基础知识，内容来源于声学楼论坛。 1、人耳能听到的频率范围是20Hz—20KHz。 2、把声能转换成电能的设备是传声器。 3、把电能转换成声能的设备是扬声器。 8、讲话时出现声音混浊，可能原因是加了混响效果。 9、声音三要素是指音强、音高、音色。 10、音强对应的客观评价尺度是振幅。 11、音高对应的客观评价尺度是频率。 30、人耳对100Hz以下，8K以上的声音感觉较迟钝。 31、舞台两侧的早期反射声对原发声起加重和加厚作用，属有益反射声作用。 32、观众席后侧的反射声对原发声起回声作用，属有害反射作用。 83、均衡器按63、125、250、500、1K、2K、4K、8K、16K划分频段，是1/1倍频程划分。 84、均衡器按50、200、800、3.2K、12K、划分频段，是4倍频程划分。
4.3K20编辑于 2022-10-31
来自专栏音视频技术
非线性声学回声消除技术
非线性的声学回声消除问题，在实际声学系统里面非常普遍也非常棘手，到目前为止还没有特别有效的办法来解决。目前介绍非线性声学回声消除的公开文献也少之又少。 1.非线性声学回声 1.1 什么是非线性声学回声？ 1.1.1 什么是非线性的声学回声下面我们直接进入到第一个部分，什么是非线性的声学回声？非线性声学回声产生的原因非线性声学回声产生的原因，我一共列了两条原因。原因之一，声学器件的小型化与廉价化，这里所指的声学器件就是前面B里面提到的功率放大器和喇叭。这就是声学器件小型化容易产生非线性失真的一个主要的原因。这里廉价化比较好理解了，就不多说了。原因之二，就是声学结构设计的不合理。最典型的一个实例就是声学系统的隔振设计不合理。非线性声学回声系统建模继续回到前面的这个声学回声路径图。我们对这个模型进行了简化。
2.5K30发布于 2020-11-10
来自专栏音乐与健康
我们为什么选择“声学神经调控”这条路？
2024年哈佛大学医学院在《Nature Neuroscience》的研究证实，特定模式的声学信号能调节神经振荡同步性，且这种调节具有长期稳定性；2025年斯坦福大学医学院的临床数据更显示，声学干预的不良反应发生率比电 /磁刺激低82%——安全性与长效性，正是鲸倍尔选择声学神经调控路径的核心依据。骨声纹正是基于这些研究，捕捉与神经张力、应激水平、生理节律相关的声学特征集合。结合大量的数据积累与权威研究，我们明确了不同频率区间的核心调节作用：· 偏低频段（0.5-4Hz，对应delta波）：同步大脑深度慢波，辅助改善睡眠结构与生理恢复；；· 中低频段（4-8Hz，对应theta 波）：调节杏仁核与前额叶皮层连接，帮助平复情绪、缓解压力；· 中频段（8-13Hz，对应alpha波）：增强皮层同步性，提升注意力与信息处理效率；· 更高频段（30-80Hz，对应gamma波）：激活前额叶
10100编辑于 2026-04-22
AI模型Perch助力生物声学保护濒危物种
AI如何推动生物声学科学发展以拯救濒危物种某机构旗下的Perch新模型帮助保护主义者更快分析音频，从而保护从夏威夷旋蜜雀到珊瑚礁等濒危物种。它能够解耦数千甚至数百万小时音频数据中的复杂声学场景。该模型用途广泛，能帮助回答多种不同类型的问题，从“有多少幼崽出生”到“给定区域内存在多少只动物”。此外，Perch正在帮助某机构和某声学观测站为多个独特的澳大利亚物种构建分类器。例如，相关工具帮助发现了一个新的、难以捉摸的平原游荡鸟种群。近期论文《寻找叫声：生物声学中的敏捷建模》表明，该方法在鸟类和珊瑚礁场景中均有效，能够在不到一小时内创建出高质量的分类器。展望未来：生物声学的前景这些模型和方法共同助力最大化保护工作的影响力，为有意义的实地工作留出更多时间和资源。
9000编辑于 2026-05-27
来自专栏黄成甲
声学相机：用“眼睛”看见声音的奥秘
测量中同步记录设备的可见光图像，以其为背景，通过几何配准将声场分布彩色等高线云图与可见光图像叠加显示，获得声学成像结果。声学成像结果中直观显示了声源空间位置、强度和频谱等特征。声学相机的“视觉”如何形成？硬件基础：麦克风阵列的奥秘说到声学相机的视觉形成，这里就不得不提到麦克风阵列设计。智能城市：体育场球迷互动声学相机在智能城市的体育场球迷互动与建筑声学优化中展现出多模态感知与精准溯源的核心能力。技术升级方面，AI深度学习算法与声学相机深度融合，实现数据驱动的声学优化。更值得期待的是，量子计算与生物声学模型的融合，或将开启跨物种声波通信的探索。当前，声学可视化技术标准化进程亟待加速。
2.3K12编辑于 2025-07-29
来自专栏AI研习社
一文详解 DNN 在声学应用中的模型训练
本文通过简单kaldi源码，分析DNN训练声学模型时神经网络的输入与输出。 self-loop] Transition-id = 6 p = 0.01 [1 -> 2] Transition-id = 7 p = 0.01 [1 -> 3] Transition-id = 8
1.7K60发布于 2018-03-19
语音情感分析技术解析：声学与词汇信息融合
混合架构与两阶段训练传统语音情感分析方法通常包含两个步骤：提取预定义的声学特征（如音高和频谱能量波动），再基于这些特征进行分类。这类方法对短时情感表达有效，但对自然对话场景的性能有限。某中心的语音语调分析采用混合方案：结合声学特征与语言信息，采用编码器-解码器结构的自动语音识别（ASR）模型。模型同时接受情感识别和语音识别训练，随后冻结编码器作为情感分类前端。技术架构特点深度学习前端通过自监督预训练提取语音信号特征ASR分支编码器对应声学模型，将声学特征映射为词块抽象表示解码器对应语言模型，将词块组合成有意义词汇异构数据集训练策略传统模型使用小规模短语句数据集实际部署中：处理5秒语音片段，每2.5秒更新一次实时计算语音存在概率和情感概率基于短期情感概率计算过去30秒及全程的情感估计测试表明，该混合模型性能优于仅依赖文本或声学数据的传统方法。
37410编辑于 2025-09-13
来自专栏VoiceVista语音智能
语音识别与声纹识别 - 来自声学楼电声技术网络交流平台
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
91730发布于 2019-12-05
来自专栏数据派THU
你的声音作为一种“武器”：人类战争中声学活动
《一战的结束》是根据第一次世界大战期间发明的众多声学防御方法中的一种创作的。在一战开始时，基本上是没有声学防御的概念的。没有一支主要的军队有效地通过敌人发出的声音来追踪它的位置。历史上曾经有一些声学反射器的例子，但是第一个专门为军事用途设计的抛物面声学反射器是在 1915 年由 René Baillaud 发明的，它的外形类似盘子或者碗。军事监听员通常不会像声学传感器那样解释声音的含义，而他的角色基本上是观察和报告物理声学数据。从这个意义上说，军事监听本质上是一项机械任务，预示着当代形式的机器监听。在一些声学防御方法中，声音的视觉表示以及与声学活动相关的计算取代了听觉，例如确定风和温度等大气条件对特定日期声音传播的影响。换句话说，在声学防御中，声音 “听起来” 的方式并不总是很重要。虽然这与关于声音的成熟想法是一致的，但声学防御技术使我们能够以一种有形的方式体验声音，就像 “物质的振动运动” 一样。声学防御同样使 “声音传播” 的概念具体化。
76010编辑于 2023-03-29
声纹克隆 vs 声学版权：Voice Cloning 技术的“合法边界”在哪里
然而，这一技术的发展也带来了诸多法律和伦理问题，特别是关于声学版权的问题。本文将深入探讨声纹克隆技术的原理、应用以及其在法律上的“合法边界”。特征提取：从语音样本中提取声学特征。模型训练：使用深度学习模型（如Tacotron或WaveNet）进行训练。语音合成：生成与目标声音相似的合成语音。总结本文深入探讨了声纹克隆 vs 声学版权：Voice Cloning 技术的“合法边界”在哪里的相关技术，从原理到实践，从基础到进阶，希望能够帮助读者全面掌握这一技术。
38410编辑于 2026-01-06
语音识别技术前沿：自监督学习与声学表征新突破
新型声学表征传统梅尔频谱基于信号处理和人耳听觉机制，而新型表征不假设信号特定结构，在语音识别和合成中表现更优。最有效的表征基于自监督学习，通过无标注输入定义辅助任务生成伪标注训练数据。
37410编辑于 2025-09-24
来自专栏FreeBuf
利用声学密码分析攻击破译4096位RSA加密算法
令人惊奇的结果是，攻击者利用“声学密码分析攻击”能够在不到一个小时内发现获得一个很长的RSA密钥。这篇论文中总结： “在这里,我们描述了一种新的声学密码分析提取攻击,适用于GnuPG最新提出实现的RSA。此外,声学频谱通常具有关键的依赖性，那么密钥便可以通过在电脑加密解密过程中的声音进行区分识别。这同样也适用于ElGamal解密。” 研究人员观察到的声学密码分析攻击使用高质量的抛物型麦克风的攻击距离范围超过4米，同时如果不使用这种接收装置的攻击距离范围可达一米。 ? 使用GnuPG的一些机器可以做到: 区分不同的声学特征 RSA密钥 (签名或解密), 完全提取解密密钥，通过测量分析的机器解密时的声音。
2.6K60发布于 2018-02-01
来自专栏音乐与健康
用于改善声学黑洞低频性能的多模态局域谐振器
文章导读：声学黑洞 (Acoustic Black Hole, ABH) 是对力学领域中天体物理学中的黑洞概念的一个声学类比。板上的 ABH 可以非常有效地减少高频振动。关键词：声学；黑瞳；曲波；力学；频率；低频；谐波器；谐振；振动；速度；多模态本文提出了一种由双层 ABH 板和局域谐振器组成的 MMABH 板，并对其进行了研究和分析。总体而言，本研究设计的 D-MMABH 板具有优异的宽带阻尼效应和承载性能，展示出局域共振声学超材料的前景和潜力。
18210编辑于 2026-03-09

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

声学简介

·主流声学模型对比

声学特征提取and WORLD Using

浅析硬件“好声音”: 声学器件

解析声音“疗伤”的密码（音波声学）

基于Speex的声学回声消除

语音合成-声学概念和变声变调

声学工程师应知道的150个声学基础知识（全篇）

非线性声学回声消除技术

我们为什么选择“声学神经调控”这条路？

AI模型Perch助力生物声学保护濒危物种

声学相机：用“眼睛”看见声音的奥秘

一文详解 DNN 在声学应用中的模型训练

语音情感分析技术解析：声学与词汇信息融合

语音识别与声纹识别 - 来自声学楼电声技术网络交流平台

你的声音作为一种“武器”：人类战争中声学活动

声纹克隆 vs 声学版权：Voice Cloning 技术的“合法边界”在哪里

语音识别技术前沿：自监督学习与声学表征新突破

利用声学密码分析攻击破译4096位RSA加密算法

用于改善声学黑洞低频性能的多模态局域谐振器

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐