首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏知识点分享

    声学简介

    什么是声学声学是研究声音的物理学,研究内容包括声信号的产生、传输和检测等所有与之相关的多物理学科。 这样的解是一个传播的正弦波 (4) 其中   为波幅。 对于最后一个表达式,通常可以方便地定义波的角频率  (SI 单位:rad/s),即  ,并将频率与完整的 360° 相移关联起来。 有关基本声学的更多详细信息,请参见参考资料 1-4 和下面的“控制方程的详细推导”一节。 声学范围 下载LMS Virtual.Lab 声学手册在声学中,声音由传播介质产生、在其中传播并受其影响,最终被人们检测、感知并进行分析。 显而易见,声学在本质上涉及多个学科和多个物理场。在这里,我们主要讨论与工程和地球科学相关的声学物理原理。

    1.1K20编辑于 2022-06-01
  • 来自专栏深度学习|机器学习|歌声合成|语音合成

    声学特征提取and WORLD Using

    声谱图(Spectrogram) image.png 这段语音被分为很多帧,每帧语音都对应于一个频谱(通过短时FFT计算),频谱表示频率与能量的关系。在实际使用中,频谱图有三种,即线性振幅谱、对数振幅谱、自功率谱(对数振幅谱中各谱线的振幅都作了对数计算,所以其纵坐标的单位是dB(分贝)。这个变换的目的是使那些振幅较低的成分相对高振幅成分得以拉高,以便观察掩盖在低幅噪声中的周期信号)。 image.png 我们先将其中一帧语音的频谱通过坐标表示出来,如上图左。现在我们将左边的频谱旋转90度。得到中

    63510发布于 2021-01-14
  • 来自专栏深度应用

    ·主流声学模型对比

    主流声学模型对比 目录 概述 基础概念 语音帧 语音识别系统 主流声学建模技术 HMM DNN-HMM FFDNN CNN RNN及LSTM CTC 其他建模技术 语言建模技术 语音唤醒技术 关于未来 识别的公式如图4所示,可见声学模型主要描述发音模型下特征的似然概率;语言模型主要描述词间的连接概率;发音词典主要是完成词和音之间的转换,其中声学模型建模单元一般选择三音素模型,以“搜狗语音为例”, sil-s 图4 语音识别原理 需要注意的是,输入特征矢量X代表语音的特征。 主流声学建模技术 近年来,随着深度学习的兴起,使用了接近30年的语音识别声学模型HMM(隐马尔科夫模型)逐渐被DNN(泛指深度神经网络)所替代,模型精度也有了突飞猛进的变化,整体来看声学建模技术从建模单元 尽管语音识别建模能力取得了较大的提升,但是远场、噪声、口音、发音习惯(吞音)等问题仍然存在,很赞成吴恩达的说法,由95%的准确率发展到99%,尽管只有4%的差距,但是可能会改变人们的交互方式,将实现很少用到经常使用的转变

    3.8K22发布于 2019-06-27
  • 来自专栏硬件大熊

    浅析硬件“好声音”: 声学器件

    音视频硬件中,声学器件是必不可少的基础元件,声学器件主要包括麦克风和喇叭,麦克风拾取声音,喇叭播放声音。 所以归麦克风凭借其良好的性能,迅速成为消费类产品的首选声学元器件。如下图所示为两种类型麦克风的示例图。 又应平行板电容器的计算公式为C=εS/4πkd,其中ε为介电常数,S为极板的面积,k为常数,所以: U=4πkdQ/εS Δd∝ ΔU 当声音变化产生一个变动的声压,麦克风振膜检测到变动的声压后产生振动

    1.5K20编辑于 2022-06-23
  • 来自专栏音乐与健康

    解析声音“疗伤”的密码(音波声学

    经过4个月努力,研究人员将声音的强度与环境因素有机结合,建立了声音镇痛的小鼠模型。  “我们低声耳语和大声争吵时,给人带来的体验是完全不同的,在嘈杂环境中不得不提高音量来交流。 柏林声学实验室更发现。低频段(60-80Hz)音波能像物理按摩般刺激副交感神经。古琴大师龚一演奏的《流水》。每个泛音间隔0.8秒。恰好匹配深度呼吸的黄金节奏。

    27910编辑于 2025-10-25
  • 来自专栏全栈程序员必看

    基于Speex的声学回声消除

    所谓声学回声消除,是为了解决VoIP(网络电话)中这样一个问题:即A与B进行通话,A端有麦克风和扬声器分别用来采集A的声音和播放B的声音,B端有麦克风和扬声器分别用来采集B的声音和播放 声学回声消除一般可以通过硬件和软件分别实现,目前来说,硬件实现比较简单,软件实现较难,这里的难并不是说回声消除算法很难,而是在应用算法时的实时同步问题很难,目前软件实现较好的应该是微软,但似乎也对硬件配置和操作系统有要求 而Speex提供了声学回声消除算法库,本文就简单用Speex对一段录音进行回声消除,当然这不是实时处理的。

    4.5K20编辑于 2022-11-16
  • 来自专栏深度学习|机器学习|歌声合成|语音合成

    语音合成-声学概念和变声变调

    声学概念 声音是靠波来传播的,区别任何的声音需要依据三个来区分:响度、音高和音色 响度 音高:声音具有确定的音高,声音就可以使空气以笃定的方式运行。低音就是频率低。 频谱:描述各种波的振幅的大小的图叫做频谱图,这在声学中是相当的重要的。

    1.6K10发布于 2021-01-14
  • 来自专栏进击的多媒体开发

    声学工程师应知道的150个声学基础知识(全篇)

    和大家分享一下声学工程师应知道的150个声学基础知识。 注意,声学工程师和音频工程师可不是同一岗位,前者会更侧重于硬件,后者侧重于软件层面。但是关于声音的一些基础内容还是相同的,可以多多了解!!! 以下是全部的基础知识,内容来源于 声学楼论坛 。 1、 人耳能听到的频率范围是20Hz—20KHz。 2、 把声能转换成电能的设备是传声器。 3、 把电能转换成声能的设备是扬声器。 4、 声频系统出现声反馈啸叫,通常调节均衡器。 5、 房间混响时间过长,会出现声音混浊。 6、 房间混响时间过短,会出现声音发干。 7、 唱歌感觉声音太干,当调节混响器。 78、50HZ非正弦周期信号,其4次谐波为200HZ。 79、100HZ非正弦周期信号的3次谐波为300HZ。 80、300HZ非正弦周期信号的5次谐波为1500HZ。 83、均衡器按63、125、250、500、1K、2K、4K、8K、16K划分频段,是1/1倍频程划分。 84、均衡器按50、200、800、3.2K、12K、划分频段,是4倍频程划分。

    3.9K20编辑于 2022-10-31
  • 来自专栏音视频技术

    非线性声学回声消除技术

    非线性的声学回声消除问题,在实际声学系统里面非常普遍也非常棘手,到目前为止还没有特别有效的办法来解决。目前介绍非线性声学回声消除的公开文献也少之又少。 1.非线性声学回声 1.1 什么是非线性声学回声? 1.1.1 什么是非线性的声学回声 下面我们直接进入到第一个部分,什么是非线性的声学回声? 接下来的四个维度对应4个问题,它们是线性回声消除领域普遍存在的4个难点问题,这些问题在非线性领域也同样存在。 将这两个滤波器结合起来,就可以实现对整个声学回声路径的变化进行有效跟踪。这里只是给出了一个示例,实际情况往往要复杂很多。 接下来我们对这2个滤波器做了特性比较,主要是从4个不同的维度。 4.总结 最后我再来简单总结一下,今天主要是介绍了三个方面的内容,第一个就是认识了非线性声学回声、产生的原因、研究现状以及技术难点。

    2.4K30发布于 2020-11-10
  • 来自专栏黄成甲

    声学相机:用“眼睛”看见声音的奥秘

    声学相机的“视觉”如何形成? 硬件基础:麦克风阵列的奥秘 说到声学相机的视觉形成,这里就不得不提到麦克风阵列设计。 硬件与算法的“共生关系”​ 麦克风数量与计算复杂度呈指数级增长:4麦阵列可通过简单延时叠加算法实现基础声源定位,而128麦阵列需结合深度学习模型才能分离多说话人信号。 例如128麦克风阵列可实现±1°的声源定位精度,而紧凑型4麦线性阵列则通过算法优化在便携设备中实现基础声源追踪。这三者如同声学系统的“三原色”,共同绘制出从声波捕捉到故障诊断的完整技术图谱。 智能城市:体育场球迷互动 声学相机在智能城市的体育场球迷互动与建筑声学优化中展现出多模态感知与精准溯源的核心能力。 技术升级方面,AI深度学习算法与声学相机深度融合,实现数据驱动的声学优化。

    1.9K12编辑于 2025-07-29
  • 来自专栏AI研习社

    一文详解 DNN 在声学应用中的模型训练

    本文通过简单kaldi源码,分析DNN训练声学模型时神经网络的输入与输出。 不妨查看对齐后的结果: $ copy-int-vector "ark:gunzip -c ali.1.gz|" ark,t:- | head -n 1 speaker001_00003 4 1 1 1 Transition-state 5: phone = sil hmm-state = 4 pdf = 4 Transition-id = 17 p = 0.923332 [self-loop] 观察前两帧,结合文章一开始,transition-id 分别为4和1,而对应的pdf均为0。 -3 -2 -1 0 1 2 3 4 5 ] <!

    1.7K60发布于 2018-03-19
  • 语音情感分析技术解析:声学与词汇信息融合

    混合架构与两阶段训练传统语音情感分析方法通常包含两个步骤:提取预定义的声学特征(如音高和频谱能量波动),再基于这些特征进行分类。这类方法对短时情感表达有效,但对自然对话场景的性能有限。 某中心的语音语调分析采用混合方案:结合声学特征与语言信息,采用编码器-解码器结构的自动语音识别(ASR)模型。模型同时接受情感识别和语音识别训练,随后冻结编码器作为情感分类前端。 技术架构特点深度学习前端通过自监督预训练提取语音信号特征ASR分支编码器对应声学模型,将声学特征映射为词块抽象表示解码器对应语言模型,将词块组合成有意义词汇异构数据集训练策略传统模型使用小规模短语句数据集 实际部署中:处理5秒语音片段,每2.5秒更新一次实时计算语音存在概率和情感概率基于短期情感概率计算过去30秒及全程的情感估计测试表明,该混合模型性能优于仅依赖文本或声学数据的传统方法。

    32210编辑于 2025-09-13
  • 来自专栏FreeBuf

    利用声学密码分析攻击破译4096位RSA加密算法

    令人惊奇的结果是,攻击者利用“声学密码分析攻击”能够在不到一个小时内发现获得一个很长的RSA密钥。 这篇论文中总结: “在这里,我们描述了一种新的声学密码分析提取攻击,适用于GnuPG最新提出实现的RSA。 我们通过实验证明了这种攻击的可实现性,通过一个放在电脑附近的普通手机,或者在距离电脑4米处放一个高品质的麦克风成功提取了解密密钥。” 此外,声学频谱通常具有关键的依赖性,那么密钥便可以通过在电脑加密解密过程中的声音进行区分识别。这同样也适用于ElGamal解密。” 研究人员观察到的声学密码分析攻击使用高质量的抛物型麦克风的攻击距离范围超过4米,同时如果不使用这种接收装置的攻击距离范围可达一米。 ?

    2.5K60发布于 2018-02-01
  • 来自专栏VoiceVista语音智能

    语音识别与声纹识别 - 来自声学楼电声技术网络交流平台

    ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

    85830发布于 2019-12-05
  • 来自专栏数据派THU

    你的声音作为一种“武器”:人类战争中声学活动

    《一战的结束》是根据第一次世界大战期间发明的众多声学防御方法中的一种创作的。 在一战开始时,基本上是没有声学防御的概念的。没有一支主要的军队有效地通过敌人发出的声音来追踪它的位置。 历史上曾经有一些声学反射器的例子,但是第一个专门为军事用途设计的抛物面声学反射器是在 1915 年由 René Baillaud 发明的,它的外形类似盘子或者碗。 军事监听员通常不会像声学传感器那样解释声音的含义,而他的角色基本上是观察和报告物理声学数据。 从这个意义上说,军事监听本质上是一项机械任务,预示着当代形式的机器监听。 在一些声学防御方法中,声音的视觉表示以及与声学活动相关的计算取代了听觉,例如确定风和温度等大气条件对特定日期声音传播的影响。 换句话说,在声学防御中,声音 “听起来” 的方式并不总是很重要。 虽然这与关于声音的成熟想法是一致的,但声学防御技术使我们能够以一种有形的方式体验声音,就像 “物质的振动运动” 一样。 声学防御同样使 “声音传播” 的概念具体化。

    67610编辑于 2023-03-29
  • 声纹克隆 vs 声学版权:Voice Cloning 技术的“合法边界”在哪里

    然而,这一技术的发展也带来了诸多法律和伦理问题,特别是关于声学版权的问题。本文将深入探讨声纹克隆技术的原理、应用以及其在法律上的“合法边界”。 特征提取:从语音样本中提取声学特征。模型训练:使用深度学习模型(如Tacotron或WaveNet)进行训练。语音合成:生成与目标声音相似的合成语音。 总结本文深入探讨了声纹克隆 vs 声学版权:Voice Cloning 技术的“合法边界”在哪里的相关技术,从原理到实践,从基础到进阶,希望能够帮助读者全面掌握这一技术。

    25410编辑于 2026-01-06
  • 语音识别技术前沿:自监督学习与声学表征新突破

    新型声学表征传统梅尔频谱基于信号处理和人耳听觉机制,而新型表征不假设信号特定结构,在语音识别和合成中表现更优。最有效的表征基于自监督学习,通过无标注输入定义辅助任务生成伪标注训练数据。

    32010编辑于 2025-09-24
  • 来自专栏音乐与健康

    用于改善声学黑洞低频性能的多模态局域谐振器

    文章导读:声学黑洞 (Acoustic Black Hole, ABH) 是对力学领域中天体物理学中的黑洞概念的一个声学类比。板上的 ABH 可以非常有效地减少高频振动。 关键词:声学;黑瞳;曲波;力学;频率;低频;谐波器;谐振;振动;速度;多模态本文提出了一种由双层 ABH 板和局域谐振器组成的 MMABH 板,并对其进行了研究和分析。 图 4. UNI 和 D-MMABH 板的 MSV 曲线研究总结:本文介绍了一种能够抑制宽频谱上弯曲振动的 MMABH 板的设计。该板由双层 ABH 板和谐振器组成。 总体而言,本研究设计的 D-MMABH 板具有优异的宽带阻尼效应和承载性能,展示出局域共振声学超材料的前景和潜力。

    12610编辑于 2026-03-09
  • 来自专栏腾讯多媒体实验室

    DCASE 2020权威声学比赛:腾讯多媒体实验室斩获双项指标国内第一

    腾讯多媒体实验室天籁音频研究团队首次参加了声学场景识别 (Acoustic Scene Classification,Task 1) 任务竞赛,并从47支来自全球顶尖学术界和工业界的声学研究队伍中脱颖而出 本次DCASE 2020比赛,共设置六个任务,包括声学场景识别、异常机器声音的非监督识别、声学事件检测、声学事件分离、城市声音标记和自动为音频生成标题纪要,吸引了包括亚马逊、英特尔、高通骁龙等国际公司和清华大学 子任务task 1b的声学场景识别系统限制性的将模型大小压缩在500k以内,在此条件下,需要场景识别系统尽可能高效的识别“室内”、“室外”、“交通”这三种常见的声学大场景。 图二 本次声学场景识别任务,涵盖机场、室内购物、地铁站台、街道行人、公共广场等10个通用声学场景。在现实生活中,这些通用声学场景,通常同时存在多个声音,并且会被环境噪声干扰。 现实生活中的声学场景识别应用     实际上,DCASE2020的声学场景识别任务,与多媒体实验室自研的音视频实时通信产品——“腾讯会议”中的声学场景识别落地应用最为贴近。

    1.9K2216发布于 2020-07-06
  • 来自专栏腾讯AI实验室的专栏

    腾讯 AI Lab 副主任俞栋:过去两年基于深度学习的声学模型进展

    4 节中,我们讨论了可以提升稳健性的技术,并重点关注了自适应技术、语音增强和分离技术、稳健训练技术。 声学模型真正应该关心的是输出的词或音素序列,而不是在传统的交叉熵(CE)训练中优化的一帧一帧的标注。 CTC 提供了一种以端到端的方式优化声学模型的途径。 4 声学模型稳健性 当测试集和训练集匹配时,尤其是当两者处在相当接近的对话条件下时,当前最佳的系统能够得到很出色的识别准确度。 对于 DNN 或 CNN 而言,这可以通过使用跳帧(frame-skipping)策略完成,即每隔几帧才计算一次声学分数,并在解码时将该分数复制到没有评估声学分数的帧 149。

    7K90发布于 2018-01-15
领券