我正在尝试学习cnn网络来识别语音中的情感。为此,我使用了mel倒谱系数( mfcc ),它将每个音频文件表示为二维数组(帧数*mfcc系数数)。我想有一个三维数组作为我的cnn卷积层的输入,其中第三维是音频文件的数量。怎样才能得到这样的数组呢?
for i in range(len(audio_list)):
(rate,sig) = wav.read(source_folder + audio_list[i])
inputs = mfcc(sig, rate, nfft=1300)
# Transform in 3D array
train_inputs[i] = (np.asarray(inputs[np.newaxis, :]))发布于 2019-05-25 19:25:16
如果您numpy是一个列表,则通过np.array(inputs)将其转换为inputs数组
我认为你想要做的是:
train_inputs[i] = inputs.reshape((1,inputs.shape[0],inputs.shape[1]))这一行基本上是将整个矩阵放到另一个矩阵中,给它多一个维度。
https://stackoverflow.com/questions/56303853
复制相似问题