首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >将音频与文本匹配

将音频与文本匹配
EN

Stack Overflow用户
提问于 2022-03-19 20:05:41
回答 1查看 116关注 0票数 0

我有一个音频文件和一个与这个音频文件中的演讲相对应的文本。

我正在收集的音频文件是从志愿者那里收集的,他们正在阅读提供给他们的文本。我想要做一个算法,以匹配他们记录的音频与文本,以确保他们确实阅读了文本。

我还没有决定语言,但我很好奇它是否可以在网络上实现?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-03-19 21:56:39

使用预先训练过的自动语音识别( ASR )模型,例如使用Python和hugging面,比如Facebook的Wav2vec 2.0模型(https://huggingface.co/facebook/wav2vec2-base-960h)或任何其他ASR模型(标记=自动语音识别)来获取演讲的文本记录。它们通常依赖于语言,所以您必须找到适合您的目标的模型。

将您已经拥有的文本处理成与音频记录更相似的形式(设置为小写,删除标点符号等)。

那就看你如何比较这两篇课文了。这也取决于文本的长度。如果它只是一个句子,那么你就可以比较它们是否完全相同。如果它再长一点,你可以从一个单词匹配开始,看看它得到正确/错误的单词的百分比(单词错误率)。由于许多受过训练的ASR模型使用上下文来确定抄本,一些更高级的(但仍然是基于字符或基于单词的)文本相似性度量(如BLEULevenshtein距离 )可能更适合,特别是因为它解决了额外的或遗漏的单词的问题,这在自己创建的度量中可能很难处理。

通常,您可以使用相同的方法来评估自动语音识别模型,因为您做的是相同的事情(将文本与预期文本进行比较)。这里有存储库和包,例如这一个这一个

无论如何,你需要意识到,一个模型的语音识别永远不会完美,所以分数低于完美并不意味着你的志愿者没有遵循脚本。但是,如果你比较志愿者之间的分数,你就会知道他们对剧本的依恋程度,以及他们说话的清晰程度。

你还应该记住,诸如口音、背景噪音、音频质量以及志愿者记录方式和模型训练数据记录方式之间的一般相似性都会影响分数。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71541651

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档