我正在做一个音频分类问题陈述来分类两个音频类。我从jotform收集了示例,他们提供音频小部件来收集.wav音频,但事实证明小部件正在.mp3格式中存储数据:
在我的问题陈述中,分类类来自不同的格式:
class A : all the 100 samples are in .mp3 format ( jot form collection )
class B : all the samples are in .wav format我在这里添加两种类型的类的示例:
一个类音频样本:它是.wav格式的
详情:
General
Complete name : count_class_1.wav
Format : Wave
File size : 1.41 MiB
Duration : 15 s 445 ms
Overall bit rate mode : Constant
Overall bit rate : 768 kb/s
Audio
Format : PCM
Format settings : Little / Signed
Codec ID : 1
Duration : 15 s 445 ms
Bit rate mode : Constant
Bit rate : 768 kb/s
Channel(s) : 1 channel
Sampling rate : 48.0 kHz
Bit depth : 16 bits
Stream size : 1.41 MiB (100%)B类样本音频 Jotform说它是.wav格式,但只有扩展名是.wav,文件是.mp3格式。
详情:
General
Complete name : count.wav
Format : MPEG Audio
File size : 183 KiB
Duration : 9 s 360 ms
Overall bit rate mode : Constant
Overall bit rate : 160 kb/s
Writing library : LAME3.99.5
FileExtension_Invalid : m1a mpa mpa1 mp1 m2a mpa2 mp2 mp3
Audio
Format : MPEG Audio
Format version : Version 1
Format profile : Layer 3
Format settings : Joint stereo / MS Stereo
Duration : 9 s 360 ms
Bit rate mode : Constant
Bit rate : 160 kb/s
Channel(s) : 2 channels
Sampling rate : 48.0 kHz
Frame rate : 41.667 FPS (1152 SPF)
Compression mode : Lossy
Stream size : 183 KiB (100%)
Writing library : LAME3.99.5我在给它喂食神经网络之前所做的事情:
现在,从每个帧中提取各种特征,包括MFCC、零交叉率(ZCR)、Formants (前4)等,最后将这些特征输入到简单的密集层神经网络或CNN (谱图格式)中。
但问题是两类的音频文件格式不同,A类音频样本在.wav中,B类音频样本在.mp3中,网络很有可能偏向格式或音频编码。
我想过的解决办法:
我怀疑,如果我将两个类音频样本(.wav和mp3都)降到16 mp3,我的神经网络是否仍然有格式偏差?
当音频文件是不同的格式时,对我来说,音频分类的好策略是什么?
发布于 2021-01-01 13:43:14
如果项目的目标是对组进行分类,那么只需使用文件格式信息。在机器学习中,使用元数据信息作为特性是很常见的.
如果您想通过不使用元数据来解决这个问题,那么将它们转换为音频质量不太重要的格式,例如谱图或傅里叶变换。
https://datascience.stackexchange.com/questions/76870
复制相似问题