我想知道是否有人尝试过使用三维矩阵进行逻辑回归?我正在做一个涉及音频的项目,其中对于矩阵X,n维是每个音频样本的特征,m维是我相互比较的音频文件的数量。我面临的问题是,对于每个音频文件,都有大量的音频样本(每44100个样本,我将其作为"1个样本“),每个样本包括每个不同的特征。我不是简单地取每个音频样本的每个特征的平均值,而是考虑如上所述向矩阵中添加第三个维度,即音频样本。问题是,我不知道这在逻辑回归中如何成立/我可以期望我的输出变量y是什么。有没有人有这方面的经验?
我正在寻找的结果是一种方法,从每个音频样本中提取所有特征,并比较几个音频文件,以提出一个算法,可以从“坏”音频混合中确定“好”音频混合,所以我相信(尽管我不确定)我在这里只处理两个输出类(好与坏)。
谢谢你的建议
发布于 2018-12-24 14:57:14
由于您正在处理音频输入,因此您可能应该使用设计用于处理序列(audio=sequence of frames)的模型。
我期望(比方说)在音频信号上训练LSTM的性能至少与在平均帧上训练的逻辑回归一样好。然而,它可能需要更长的时间来训练。
您可能想要从以下列出的github项目开始:https://github.com/topics/audio-classification (我从未使用过这些项目)。
https://stackoverflow.com/questions/53904827
复制相似问题