我感兴趣的是可以使用哪些技术和算法来解决以下问题:
我有一个音频样本数据库,特别是各种歌曲的现场表演。我有十几首歌,每首歌我都有十几首歌的表演样本。
我希望每首歌有一个以上的样本,就有可能更好地“锁定”歌曲的一般特征,滤除噪音和不同的表演。这些都是现场表演,每个样本都有点不同,有些被拍到的质量比其他(直接从有声人和人群中的电话录音),有些歌曲有插曲,假开始(吉他手忘记打开安培),开始太晚,结束太早…。
现在,除了这个数据库之外,接下来是一个当前正在播放的歌曲的实时提要,我感兴趣的是使用ML来找出哪首歌是最有可能的实时提要。在我看来,可能是继续捕获活动提要,从而使其与现有示例数据库的功能匹配的变化增加,或者如果无法使用这样的活动提要,定期分割固定大小的块可能更实用。
我感兴趣的是找出什么是最常见的/最可靠的方法,以找出哪首歌曲最有可能是现场音频,以及最上面的位置,在歌曲中是当前的实况提要。
发布于 2019-09-17 18:51:50
在第一步中,我认为您应该先对歌曲波动进行离散化,然后对每个块进行傅里叶变换(例如,在numpy中,可以使用numpy.fft())。这个链接可能会有帮助。之后,您可以尝试序列模式识别模型。
https://datascience.stackexchange.com/questions/60347
复制相似问题