我有被采访人的音频片段,我试图用python来分割音频片段,这样所有受访者的语音片段都被输出在一个音频文件中(如.wav格式),即面试官的音频片段在另一个音频文件中。说话人识别需要使用无监督学习。
到目前为止,我已经找到了一些执行扬声器数字化任务(pyAudioAnalysis,阿尔托语)的库,但是没有一个库将不同的扬声器片段组合在一起并将其输出到单独的音频文件中。如何分割音频文件,并根据扬声器组合它们?
发布于 2020-01-21 10:17:31
最初,我使用了沉默检测,但后来转到了pyAudioAnalsis,这更好。
检查单组分分析中的分割中的“说话人二次化”部分
发布于 2020-09-10 14:41:07
我假设您使用wavfile.read从scipy.io读取音频文件。
我的方法是使N数组(每个扬声器一个)具有与原始音频数组相同的大小,但是填充了零(=静默)。对于每一个被二次化检测到的说话人,将他们的所有片段分配给说话者阵列中的相应片段。
最后,您可以将每个扬声器的数组保存在一个单独的文件中。
https://datascience.stackexchange.com/questions/33291
复制相似问题