文章/答案/技术大牛

发布

社区首页 >问答首页 >如何处理不同音频格式的音频分类？

问如何处理不同音频格式的音频分类？
EN

Data Science用户

提问于 2020-06-29 19:58:26

回答 1查看 237关注 0票数 1

我正在做一个音频分类问题陈述来分类两个音频类。我从jotform收集了示例，他们提供音频小部件来收集.wav音频，但事实证明小部件正在.mp3格式中存储数据：

在我的问题陈述中，分类类来自不同的格式：

class A : all the 100 samples are in .mp3 format ( jot form collection )
class B : all the samples are in .wav format

我在这里添加两种类型的类的示例：

一个类音频样本：它是.wav格式的

详情：

General
Complete name                            : count_class_1.wav
Format                                   : Wave
File size                                : 1.41 MiB
Duration                                 : 15 s 445 ms
Overall bit rate mode                    : Constant
Overall bit rate                         : 768 kb/s

Audio
Format                                   : PCM
Format settings                          : Little / Signed
Codec ID                                 : 1
Duration                                 : 15 s 445 ms
Bit rate mode                            : Constant
Bit rate                                 : 768 kb/s
Channel(s)                               : 1 channel
Sampling rate                            : 48.0 kHz
Bit depth                                : 16 bits
Stream size                              : 1.41 MiB (100%)

B类样本音频 Jotform说它是.wav格式，但只有扩展名是.wav，文件是.mp3格式。

详情：

General
Complete name                            : count.wav
Format                                   : MPEG Audio
File size                                : 183 KiB
Duration                                 : 9 s 360 ms
Overall bit rate mode                    : Constant
Overall bit rate                         : 160 kb/s
Writing library                          : LAME3.99.5
FileExtension_Invalid                    : m1a mpa mpa1 mp1 m2a mpa2 mp2 mp3

Audio
Format                                   : MPEG Audio
Format version                           : Version 1
Format profile                           : Layer 3
Format settings                          : Joint stereo / MS Stereo
Duration                                 : 9 s 360 ms
Bit rate mode                            : Constant
Bit rate                                 : 160 kb/s
Channel(s)                               : 2 channels
Sampling rate                            : 48.0 kHz
Frame rate                               : 41.667 FPS (1152 SPF)
Compression mode                         : Lossy
Stream size                              : 183 KiB (100%)
Writing library                          : LAME3.99.5

我在给它喂食神经网络之前所做的事情：

下采样到16 the，信号的电平被归一化。
在音频段中分割，通过消除信号中的静音
高过滤(预强调滤波器)。然后，音频片段被划分为不重叠的汉明加窗帧，25 of。

现在，从每个帧中提取各种特征，包括MFCC、零交叉率(ZCR)、Formants (前4)等，最后将这些特征输入到简单的密集层神经网络或CNN (谱图格式)中。

但问题是两类的音频文件格式不同，A类音频样本在.wav中，B类音频样本在.mp3中，网络很有可能偏向格式或音频编码。

我想过的解决办法：

将所有文件降级为16 all频率(但格式问题仍然存在)
或者将所有文件转换为一种通用格式，例如，我正在将所有.mp3文件转换为.wav文件，然后所有文件都将具有相同的格式，我可以将它们转换为另一种格式，但我担心转换后的文件将失去质量。

我怀疑，如果我将两个类音频样本(.wav和mp3都)降到16 mp3，我的神经网络是否仍然有格式偏差？

当音频文件是不同的格式时，对我来说，音频分类的好策略是什么？

machine-learning

classification

dataset

feature-selection

audio-recognition

回答 1

Data Science用户

发布于 2021-01-01 13:43:14

如果项目的目标是对组进行分类，那么只需使用文件格式信息。在机器学习中，使用元数据信息作为特性是很常见的.

如果您想通过不使用元数据来解决这个问题，那么将它们转换为音频质量不太重要的格式，例如谱图或傅里叶变换。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/76870

复制

相似问题

问如何处理不同音频格式的音频分类？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何处理不同音频格式的音频分类？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何处理不同音频格式的音频分类？
EN