文章/答案/技术大牛

发布

社区首页 >问答首页 >附加音频特征提取提示

问附加音频特征提取提示
EN

Stack Overflow用户

提问于 2019-04-13 21:20:05

回答 1查看 252关注 0票数 1

我正在尝试使用Keras创建一个语音情感识别模型，我已经完成了所有的代码并对模型进行了训练。它的验证率约为50%，并且过度拟合。

当我使用model.predict()处理看不见的数据时，它似乎很难区分“中性”、“平静”、“高兴”和“惊讶”，但在大多数情况下似乎能够正确预测“愤怒”-我认为这是因为音调或其他方面的明显差异。

我在想，可能是我没有从这些情绪中获得足够的特征，这将有助于模型区分它们。

目前我正在使用Librosa并将音频转换为MFCC，有没有其他方法可以为模型提取特征，帮助它更好地区分“中立”、“平静”、“快乐”、“惊讶”等？

一些特征提取代码：

wav_clip, sample_rate = librosa.load(file_path, duration=3, mono=True, sr=None)     
mfcc = librosa.feature.mfcc(wav_clip, sample_rate)

另外，这是1400个样本。

python

machine-learning

feature-extraction

回答 1

Stack Overflow用户

发布于 2019-04-14 00:54:22

可能你的样本太少了，无法有效地使用神经网络。使用一个简单的算法让初学者很好地理解你的模型是如何让prediction.
Make确保你有足够的(30%或更多)来自不同演讲者的样本来进行最终测试。您只能使用此测试集一次，因此请考虑构建一个管道来生成训练集、验证集和测试集。请确保您不要将同一扬声器放入多个扬声器集合中。来自librosa的
First系数会给出一个偏移量。我建议绘制你的特征如何与标签相关，以及它们重叠的程度，我想有些可能很容易混淆。找出是否有任何特性可以区分您的类。不要通过运行模型来执行此操作，请先进行目视检查。

你的假设是正确的，音调应该起到至关重要的作用。我建议你去看看aubio --它有Python绑定。

Yaafe还提供了出色的功能选择。

您可能想要降低问题的维度，甚至将其压缩到2维，看看是否可以以某种方式将类分开。

最后但并非最不重要的是，一些从音频中提取频率的基本代码。在这种情况下，我还试图找到三个峰值频率。

import numpy as np

def spectral_statistics(y: np.ndarray, fs: int, lowcut: int = 0) -> dict:
    """
    Compute selected statistical properties of spectrum
    :param y: 1-d signsl
    :param fs: sampling frequency [Hz]
    :param lowcut: lowest frequency [Hz]
    :return: spectral features (dict)
    """
    spec = np.abs(np.fft.rfft(y))
    freq = np.fft.rfftfreq(len(y), d=1 / fs)
    idx = int(lowcut / fs * len(freq) * 2)
    spec = np.abs(spec[idx:])
    freq = freq[idx:]

    amp = spec / spec.sum()
    mean = (freq * amp).sum()
    sd = np.sqrt(np.sum(amp * ((freq - mean) ** 2)))
    amp_cumsum = np.cumsum(amp)
    median = freq[len(amp_cumsum[amp_cumsum <= 0.5]) + 1]
    mode = freq[amp.argmax()]
    Q25 = freq[len(amp_cumsum[amp_cumsum <= 0.25]) + 1]
    Q75 = freq[len(amp_cumsum[amp_cumsum <= 0.75]) + 1]
    IQR = Q75 - Q25
    z = amp - amp.mean()
    w = amp.std()
    skew = ((z ** 3).sum() / (len(spec) - 1)) / w ** 3
    kurt = ((z ** 4).sum() / (len(spec) - 1)) / w ** 4

    top_peaks_ordered_by_power = {'stat_freq_peak_by_power_1': 0, 'stat_freq_peak_by_power_2': 0, 'stat_freq_peak_by_power_3': 0}
    top_peaks_ordered_by_order = {'stat_freq_peak_by_order_1': 0, 'stat_freq_peak_by_order_2': 0, 'stat_freq_peak_by_order_3': 0}
    amp_smooth = signal.medfilt(amp, kernel_size=15)
    peaks, height_d = signal.find_peaks(amp_smooth, distance=100, height=0.002)
    if peaks.size != 0:
        peak_f = freq[peaks]
        for peak, peak_name in zip(peak_f, top_peaks_ordered_by_order.keys()):
            top_peaks_ordered_by_order[peak_name] = peak

        idx_three_top_peaks = height_d['peak_heights'].argsort()[-3:][::-1]
        top_3_freq = peak_f[idx_three_top_peaks]
        for peak, peak_name in zip(top_3_freq, top_peaks_ordered_by_power.keys()):
            top_peaks_ordered_by_power[peak_name] = peak

    specprops = {
        'stat_mean': mean,
        'stat_sd': sd,
        'stat_median': median,
        'stat_mode': mode,
        'stat_Q25': Q25,
        'stat_Q75': Q75,
        'stat_IQR': IQR,
        'stat_skew': skew,
        'stat_kurt': kurt
    }
    specprops.update(top_peaks_ordered_by_power)
    specprops.update(top_peaks_ordered_by_order)
    return specprops

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55665911

复制

相似问题

问附加音频特征提取提示
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问附加音频特征提取提示EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问附加音频特征提取提示
EN