搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏知识点分享
声学简介
什么是声学？声学是研究声音的物理学，研究内容包括声信号的产生、传输和检测等所有与之相关的多物理学科。这样的解是一个传播的正弦波（4）其中为波幅。对于最后一个表达式，通常可以方便地定义波的角频率（SI 单位：rad/s），即，并将频率与完整的 360° 相移关联起来。有关基本声学的更多详细信息，请参见参考资料 1-4 和下面的“控制方程的详细推导”一节。声学范围下载LMS Virtual.Lab 声学手册在声学中，声音由传播介质产生、在其中传播并受其影响，最终被人们检测、感知并进行分析。显而易见，声学在本质上涉及多个学科和多个物理场。在这里，我们主要讨论与工程和地球科学相关的声学物理原理。
1.2K20编辑于 2022-06-01
来自专栏深度应用
·主流声学模型对比
主流声学模型对比目录概述基础概念语音帧语音识别系统主流声学建模技术 HMM DNN-HMM FFDNN CNN RNN及LSTM CTC 其他建模技术语言建模技术语音唤醒技术关于未来识别的公式如图4所示，可见声学模型主要描述发音模型下特征的似然概率；语言模型主要描述词间的连接概率；发音词典主要是完成词和音之间的转换，其中声学模型建模单元一般选择三音素模型，以“搜狗语音为例”， sil-s 图4 语音识别原理需要注意的是，输入特征矢量X代表语音的特征。主流声学建模技术近年来，随着深度学习的兴起，使用了接近30年的语音识别声学模型HMM(隐马尔科夫模型)逐渐被DNN(泛指深度神经网络)所替代，模型精度也有了突飞猛进的变化，整体来看声学建模技术从建模单元尽管语音识别建模能力取得了较大的提升，但是远场、噪声、口音、发音习惯（吞音）等问题仍然存在，很赞成吴恩达的说法，由95%的准确率发展到99%，尽管只有4%的差距，但是可能会改变人们的交互方式，将实现很少用到经常使用的转变
4K22发布于 2019-06-27
来自专栏深度学习|机器学习|歌声合成|语音合成
声学特征提取and WORLD Using
声谱图（Spectrogram） image.png 这段语音被分为很多帧，每帧语音都对应于一个频谱（通过短时FFT计算），频谱表示频率与能量的关系。在实际使用中，频谱图有三种，即线性振幅谱、对数振幅谱、自功率谱（对数振幅谱中各谱线的振幅都作了对数计算，所以其纵坐标的单位是dB（分贝）。这个变换的目的是使那些振幅较低的成分相对高振幅成分得以拉高，以便观察掩盖在低幅噪声中的周期信号）。 image.png 我们先将其中一帧语音的频谱通过坐标表示出来，如上图左。现在我们将左边的频谱旋转90度。得到中
67410发布于 2021-01-14
来自专栏硬件大熊
浅析硬件“好声音”: 声学器件
音视频硬件中，声学器件是必不可少的基础元件，声学器件主要包括麦克风和喇叭，麦克风拾取声音，喇叭播放声音。所以归麦克风凭借其良好的性能，迅速成为消费类产品的首选声学元器件。如下图所示为两种类型麦克风的示例图。又应平行板电容器的计算公式为C=εS/4πkd，其中ε为介电常数，S为极板的面积，k为常数，所以： U=4πkdQ/εS Δd∝ ΔU 当声音变化产生一个变动的声压，麦克风振膜检测到变动的声压后产生振动
1.6K20编辑于 2022-06-23
来自专栏音乐与健康
解析声音“疗伤”的密码（音波声学）
经过4个月努力，研究人员将声音的强度与环境因素有机结合，建立了声音镇痛的小鼠模型。　　“我们低声耳语和大声争吵时，给人带来的体验是完全不同的，在嘈杂环境中不得不提高音量来交流。柏林声学实验室更发现。低频段（60-80Hz）音波能像物理按摩般刺激副交感神经。古琴大师龚一演奏的《流水》。每个泛音间隔0.8秒。恰好匹配深度呼吸的黄金节奏。
37110编辑于 2025-10-25
来自专栏全栈程序员必看
基于Speex的声学回声消除
所谓声学回声消除，是为了解决VoIP（网络电话）中这样一个问题：即A与B进行通话，A端有麦克风和扬声器分别用来采集A的声音和播放B的声音，B端有麦克风和扬声器分别用来采集B的声音和播放声学回声消除一般可以通过硬件和软件分别实现，目前来说，硬件实现比较简单，软件实现较难，这里的难并不是说回声消除算法很难，而是在应用算法时的实时同步问题很难，目前软件实现较好的应该是微软，但似乎也对硬件配置和操作系统有要求而Speex提供了声学回声消除算法库，本文就简单用Speex对一段录音进行回声消除，当然这不是实时处理的。
4.6K20编辑于 2022-11-16
来自专栏深度学习|机器学习|歌声合成|语音合成
语音合成-声学概念和变声变调
声学概念声音是靠波来传播的，区别任何的声音需要依据三个来区分：响度、音高和音色响度音高:声音具有确定的音高，声音就可以使空气以笃定的方式运行。低音就是频率低。频谱：描述各种波的振幅的大小的图叫做频谱图，这在声学中是相当的重要的。
1.7K10发布于 2021-01-14
来自专栏进击的多媒体开发
声学工程师应知道的150个声学基础知识（全篇）
和大家分享一下声学工程师应知道的150个声学基础知识。注意，声学工程师和音频工程师可不是同一岗位，前者会更侧重于硬件，后者侧重于软件层面。但是关于声音的一些基础内容还是相同的，可以多多了解！！！以下是全部的基础知识，内容来源于声学楼论坛。 1、人耳能听到的频率范围是20Hz—20KHz。 2、把声能转换成电能的设备是传声器。 3、把电能转换成声能的设备是扬声器。 4、声频系统出现声反馈啸叫，通常调节均衡器。 5、房间混响时间过长，会出现声音混浊。 6、房间混响时间过短，会出现声音发干。 7、唱歌感觉声音太干，当调节混响器。 78、50HZ非正弦周期信号，其4次谐波为200HZ。 79、100HZ非正弦周期信号的3次谐波为300HZ。 80、300HZ非正弦周期信号的5次谐波为1500HZ。 83、均衡器按63、125、250、500、1K、2K、4K、8K、16K划分频段，是1/1倍频程划分。 84、均衡器按50、200、800、3.2K、12K、划分频段，是4倍频程划分。
4.3K20编辑于 2022-10-31
来自专栏音视频技术
非线性声学回声消除技术
非线性的声学回声消除问题，在实际声学系统里面非常普遍也非常棘手，到目前为止还没有特别有效的办法来解决。目前介绍非线性声学回声消除的公开文献也少之又少。 1.非线性声学回声 1.1 什么是非线性声学回声？ 1.1.1 什么是非线性的声学回声下面我们直接进入到第一个部分，什么是非线性的声学回声？接下来的四个维度对应4个问题，它们是线性回声消除领域普遍存在的4个难点问题，这些问题在非线性领域也同样存在。将这两个滤波器结合起来，就可以实现对整个声学回声路径的变化进行有效跟踪。这里只是给出了一个示例，实际情况往往要复杂很多。接下来我们对这2个滤波器做了特性比较，主要是从4个不同的维度。 4.总结最后我再来简单总结一下，今天主要是介绍了三个方面的内容，第一个就是认识了非线性声学回声、产生的原因、研究现状以及技术难点。
2.5K30发布于 2020-11-10
来自专栏音乐与健康
我们为什么选择“声学神经调控”这条路？
2024年哈佛大学医学院在《Nature Neuroscience》的研究证实，特定模式的声学信号能调节神经振荡同步性，且这种调节具有长期稳定性；2025年斯坦福大学医学院的临床数据更显示，声学干预的不良反应发生率比电 /磁刺激低82%——安全性与长效性，正是鲸倍尔选择声学神经调控路径的核心依据。结合大量的数据积累与权威研究，我们明确了不同频率区间的核心调节作用：· 偏低频段（0.5-4Hz，对应delta波）：同步大脑深度慢波，辅助改善睡眠结构与生理恢复；；· 中低频段（4-8Hz，对应theta （需引用具体卷期页码，此处为示例格式）4. Chanda, M. L., & Levitin, D. J. The neurochemistry of music. Trends in Cognitive Sciences, 17(4), 179-193 (2013).5. 《科技日报》. 声音如何“按摩”大脑？
10100编辑于 2026-04-22
AI模型Perch助力生物声学保护濒危物种
AI如何推动生物声学科学发展以拯救濒危物种某机构旗下的Perch新模型帮助保护主义者更快分析音频，从而保护从夏威夷旋蜜雀到珊瑚礁等濒危物种。它能够解耦数千甚至数百万小时音频数据中的复杂声学场景。该模型用途广泛，能帮助回答多种不同类型的问题，从“有多少幼崽出生”到“给定区域内存在多少只动物”。此外，Perch正在帮助某机构和某声学观测站为多个独特的澳大利亚物种构建分类器。例如，相关工具帮助发现了一个新的、难以捉摸的平原游荡鸟种群。近期论文《寻找叫声：生物声学中的敏捷建模》表明，该方法在鸟类和珊瑚礁场景中均有效，能够在不到一小时内创建出高质量的分类器。展望未来：生物声学的前景这些模型和方法共同助力最大化保护工作的影响力，为有意义的实地工作留出更多时间和资源。
9000编辑于 2026-05-27
来自专栏黄成甲
声学相机：用“眼睛”看见声音的奥秘
声学相机的“视觉”如何形成？硬件基础：麦克风阵列的奥秘说到声学相机的视觉形成，这里就不得不提到麦克风阵列设计。硬件与算法的“共生关系” 麦克风数量与计算复杂度呈指数级增长：4麦阵列可通过简单延时叠加算法实现基础声源定位，而128麦阵列需结合深度学习模型才能分离多说话人信号。例如128麦克风阵列可实现±1°的声源定位精度，而紧凑型4麦线性阵列则通过算法优化在便携设备中实现基础声源追踪。这三者如同声学系统的“三原色”，共同绘制出从声波捕捉到故障诊断的完整技术图谱。智能城市：体育场球迷互动声学相机在智能城市的体育场球迷互动与建筑声学优化中展现出多模态感知与精准溯源的核心能力。技术升级方面，AI深度学习算法与声学相机深度融合，实现数据驱动的声学优化。
2.3K12编辑于 2025-07-29
来自专栏AI研习社
一文详解 DNN 在声学应用中的模型训练
本文通过简单kaldi源码，分析DNN训练声学模型时神经网络的输入与输出。不妨查看对齐后的结果： $ copy-int-vector "ark:gunzip -c ali.1.gz|" ark,t:- | head -n 1 speaker001_00003 4 1 1 1 Transition-state 5: phone = sil hmm-state = 4 pdf = 4 Transition-id = 17 p = 0.923332 [self-loop] 观察前两帧，结合文章一开始，transition-id 分别为4和1，而对应的pdf均为0。 -3 -2 -1 0 1 2 3 4 5 ] <!
1.7K60发布于 2018-03-19
语音情感分析技术解析：声学与词汇信息融合
混合架构与两阶段训练传统语音情感分析方法通常包含两个步骤：提取预定义的声学特征（如音高和频谱能量波动），再基于这些特征进行分类。这类方法对短时情感表达有效，但对自然对话场景的性能有限。某中心的语音语调分析采用混合方案：结合声学特征与语言信息，采用编码器-解码器结构的自动语音识别（ASR）模型。模型同时接受情感识别和语音识别训练，随后冻结编码器作为情感分类前端。技术架构特点深度学习前端通过自监督预训练提取语音信号特征ASR分支编码器对应声学模型，将声学特征映射为词块抽象表示解码器对应语言模型，将词块组合成有意义词汇异构数据集训练策略传统模型使用小规模短语句数据集实际部署中：处理5秒语音片段，每2.5秒更新一次实时计算语音存在概率和情感概率基于短期情感概率计算过去30秒及全程的情感估计测试表明，该混合模型性能优于仅依赖文本或声学数据的传统方法。
37410编辑于 2025-09-13
来自专栏VoiceVista语音智能
语音识别与声纹识别 - 来自声学楼电声技术网络交流平台
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
91730发布于 2019-12-05
来自专栏数据派THU
你的声音作为一种“武器”：人类战争中声学活动
《一战的结束》是根据第一次世界大战期间发明的众多声学防御方法中的一种创作的。在一战开始时，基本上是没有声学防御的概念的。没有一支主要的军队有效地通过敌人发出的声音来追踪它的位置。历史上曾经有一些声学反射器的例子，但是第一个专门为军事用途设计的抛物面声学反射器是在 1915 年由 René Baillaud 发明的，它的外形类似盘子或者碗。军事监听员通常不会像声学传感器那样解释声音的含义，而他的角色基本上是观察和报告物理声学数据。从这个意义上说，军事监听本质上是一项机械任务，预示着当代形式的机器监听。在一些声学防御方法中，声音的视觉表示以及与声学活动相关的计算取代了听觉，例如确定风和温度等大气条件对特定日期声音传播的影响。换句话说，在声学防御中，声音 “听起来” 的方式并不总是很重要。虽然这与关于声音的成熟想法是一致的，但声学防御技术使我们能够以一种有形的方式体验声音，就像 “物质的振动运动” 一样。声学防御同样使 “声音传播” 的概念具体化。
76010编辑于 2023-03-29
声纹克隆 vs 声学版权：Voice Cloning 技术的“合法边界”在哪里
然而，这一技术的发展也带来了诸多法律和伦理问题，特别是关于声学版权的问题。本文将深入探讨声纹克隆技术的原理、应用以及其在法律上的“合法边界”。特征提取：从语音样本中提取声学特征。模型训练：使用深度学习模型（如Tacotron或WaveNet）进行训练。语音合成：生成与目标声音相似的合成语音。总结本文深入探讨了声纹克隆 vs 声学版权：Voice Cloning 技术的“合法边界”在哪里的相关技术，从原理到实践，从基础到进阶，希望能够帮助读者全面掌握这一技术。
38310编辑于 2026-01-06
语音识别技术前沿：自监督学习与声学表征新突破
新型声学表征传统梅尔频谱基于信号处理和人耳听觉机制，而新型表征不假设信号特定结构，在语音识别和合成中表现更优。最有效的表征基于自监督学习，通过无标注输入定义辅助任务生成伪标注训练数据。
37410编辑于 2025-09-24
来自专栏FreeBuf
利用声学密码分析攻击破译4096位RSA加密算法
令人惊奇的结果是，攻击者利用“声学密码分析攻击”能够在不到一个小时内发现获得一个很长的RSA密钥。这篇论文中总结： “在这里,我们描述了一种新的声学密码分析提取攻击,适用于GnuPG最新提出实现的RSA。我们通过实验证明了这种攻击的可实现性，通过一个放在电脑附近的普通手机，或者在距离电脑4米处放一个高品质的麦克风成功提取了解密密钥。” 此外,声学频谱通常具有关键的依赖性，那么密钥便可以通过在电脑加密解密过程中的声音进行区分识别。这同样也适用于ElGamal解密。” 研究人员观察到的声学密码分析攻击使用高质量的抛物型麦克风的攻击距离范围超过4米，同时如果不使用这种接收装置的攻击距离范围可达一米。 ?
2.6K60发布于 2018-02-01
来自专栏音乐与健康
用于改善声学黑洞低频性能的多模态局域谐振器
文章导读：声学黑洞 (Acoustic Black Hole, ABH) 是对力学领域中天体物理学中的黑洞概念的一个声学类比。板上的 ABH 可以非常有效地减少高频振动。关键词：声学；黑瞳；曲波；力学；频率；低频；谐波器；谐振；振动；速度；多模态本文提出了一种由双层 ABH 板和局域谐振器组成的 MMABH 板，并对其进行了研究和分析。图 4. UNI 和 D-MMABH 板的 MSV 曲线研究总结：本文介绍了一种能够抑制宽频谱上弯曲振动的 MMABH 板的设计。该板由双层 ABH 板和谐振器组成。总体而言，本研究设计的 D-MMABH 板具有优异的宽带阻尼效应和承载性能，展示出局域共振声学超材料的前景和潜力。
18210编辑于 2026-03-09

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

声学简介

·主流声学模型对比

声学特征提取and WORLD Using

浅析硬件“好声音”: 声学器件

解析声音“疗伤”的密码（音波声学）

基于Speex的声学回声消除

语音合成-声学概念和变声变调

声学工程师应知道的150个声学基础知识（全篇）

非线性声学回声消除技术

我们为什么选择“声学神经调控”这条路？

AI模型Perch助力生物声学保护濒危物种

声学相机：用“眼睛”看见声音的奥秘

一文详解 DNN 在声学应用中的模型训练

语音情感分析技术解析：声学与词汇信息融合

语音识别与声纹识别 - 来自声学楼电声技术网络交流平台

你的声音作为一种“武器”：人类战争中声学活动

声纹克隆 vs 声学版权：Voice Cloning 技术的“合法边界”在哪里

语音识别技术前沿：自监督学习与声学表征新突破

利用声学密码分析攻击破译4096位RSA加密算法

用于改善声学黑洞低频性能的多模态局域谐振器

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐