首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何处理不同音频格式的音频分类?

如何处理不同音频格式的音频分类?
EN

Data Science用户
提问于 2020-06-29 19:58:26
回答 1查看 237关注 0票数 1

我正在做一个音频分类问题陈述来分类两个音频类。我从jotform收集了示例,他们提供音频小部件来收集.wav音频,但事实证明小部件正在.mp3格式中存储数据:

在我的问题陈述中,分类类来自不同的格式:

代码语言:javascript
复制
class A : all the 100 samples are in .mp3 format ( jot form collection )
class B : all the samples are in .wav format

我在这里添加两种类型的类的示例:

一个类音频样本:它是.wav格式的

详情:

代码语言:javascript
复制
General
Complete name                            : count_class_1.wav
Format                                   : Wave
File size                                : 1.41 MiB
Duration                                 : 15 s 445 ms
Overall bit rate mode                    : Constant
Overall bit rate                         : 768 kb/s

Audio
Format                                   : PCM
Format settings                          : Little / Signed
Codec ID                                 : 1
Duration                                 : 15 s 445 ms
Bit rate mode                            : Constant
Bit rate                                 : 768 kb/s
Channel(s)                               : 1 channel
Sampling rate                            : 48.0 kHz
Bit depth                                : 16 bits
Stream size                              : 1.41 MiB (100%)

B类样本音频 Jotform说它是.wav格式,但只有扩展名是.wav,文件是.mp3格式。

详情:

代码语言:javascript
复制
General
Complete name                            : count.wav
Format                                   : MPEG Audio
File size                                : 183 KiB
Duration                                 : 9 s 360 ms
Overall bit rate mode                    : Constant
Overall bit rate                         : 160 kb/s
Writing library                          : LAME3.99.5
FileExtension_Invalid                    : m1a mpa mpa1 mp1 m2a mpa2 mp2 mp3

Audio
Format                                   : MPEG Audio
Format version                           : Version 1
Format profile                           : Layer 3
Format settings                          : Joint stereo / MS Stereo
Duration                                 : 9 s 360 ms
Bit rate mode                            : Constant
Bit rate                                 : 160 kb/s
Channel(s)                               : 2 channels
Sampling rate                            : 48.0 kHz
Frame rate                               : 41.667 FPS (1152 SPF)
Compression mode                         : Lossy
Stream size                              : 183 KiB (100%)
Writing library                          : LAME3.99.5

我在给它喂食神经网络之前所做的事情:

  1. 下采样到16 the,信号的电平被归一化。
  2. 在音频段中分割,通过消除信号中的静音
  3. 高过滤(预强调滤波器)。然后,音频片段被划分为不重叠的汉明加窗帧,25 of。

现在,从每个帧中提取各种特征,包括MFCC、零交叉率(ZCR)、Formants (前4)等,最后将这些特征输入到简单的密集层神经网络或CNN (谱图格式)中。

但问题是两类的音频文件格式不同,A类音频样本在.wav中,B类音频样本在.mp3中,网络很有可能偏向格式或音频编码。

我想过的解决办法:

  1. 将所有文件降级为16 all频率(但格式问题仍然存在)
  2. 或者将所有文件转换为一种通用格式,例如,我正在将所有.mp3文件转换为.wav文件,然后所有文件都将具有相同的格式,我可以将它们转换为另一种格式,但我担心转换后的文件将失去质量。

我怀疑,如果我将两个类音频样本(.wav和mp3都)降到16 mp3,我的神经网络是否仍然有格式偏差?

当音频文件是不同的格式时,对我来说,音频分类的好策略是什么?

EN

回答 1

Data Science用户

发布于 2021-01-01 13:43:14

如果项目的目标是对组进行分类,那么只需使用文件格式信息。在机器学习中,使用元数据信息作为特性是很常见的.

如果您想通过不使用元数据来解决这个问题,那么将它们转换为音频质量不太重要的格式,例如谱图或傅里叶变换。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/76870

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档