首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在较长的音频样本中,要使用什么技术来识别音频样本所处的位置?

在较长的音频样本中,要使用什么技术来识别音频样本所处的位置?
EN

Data Science用户
提问于 2019-09-17 18:41:01
回答 1查看 51关注 0票数 1

我感兴趣的是可以使用哪些技术和算法来解决以下问题:

我有一个音频样本数据库,特别是各种歌曲的现场表演。我有十几首歌,每首歌我都有十几首歌的表演样本。

我希望每首歌有一个以上的样本,就有可能更好地“锁定”歌曲的一般特征,滤除噪音和不同的表演。这些都是现场表演,每个样本都有点不同,有些被拍到的质量比其他(直接从有声人和人群中的电话录音),有些歌曲有插曲,假开始(吉他手忘记打开安培),开始太晚,结束太早…。

现在,除了这个数据库之外,接下来是一个当前正在播放的歌曲的实时提要,我感兴趣的是使用ML来找出哪首歌是最有可能的实时提要。在我看来,可能是继续捕获活动提要,从而使其与现有示例数据库的功能匹配的变化增加,或者如果无法使用这样的活动提要,定期分割固定大小的块可能更实用。

我感兴趣的是找出什么是最常见的/最可靠的方法,以找出哪首歌曲最有可能是现场音频,以及最上面的位置,在歌曲中是当前的实况提要。

EN

回答 1

Data Science用户

回答已采纳

发布于 2019-09-17 18:51:50

在第一步中,我认为您应该先对歌曲波动进行离散化,然后对每个块进行傅里叶变换(例如,在numpy中,可以使用numpy.fft())。这个链接可能会有帮助。之后,您可以尝试序列模式识别模型。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/60347

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档