有人能给我指点如何处理交换机数据集,以便使用RETURNN进行培训吗?我确实看到了BlissDataset类,它似乎是为交换机设计的,但我不清楚在示例中给出的路径中应该包括哪些内容:
Example:
./tools/dump-dataset.py "
{'class':'BlissDataset',
'path': '/u/tuske/work/ASR/switchboard/corpus/xml/train.corpus.gz',
'bpe_file': '/u/zeyer/setups/switchboard/subwords/swb-bpe-codes',
'vocab_file': '/u/zeyer/setups/switchboard/subwords/swb-vocab'}"交换机数据集有几个带有音频的文件夹,即swb 1_d2/data/*..sph和转录本swb 1_LDC97S62/swb_ be 98_转录/**/*,我不太确定如何继续这样做,以获得可用于训练RETURNN的数据集。
发布于 2018-12-05 22:15:12
在我们的小组(RWTH大学),我们使用配置,因为它是在GitHub上发布的。正如您所看到的,这一个使用ExternSprintDataset。dataset使用Sprint (公开称为RWTH,参见这里)作为外部工具(在子进程中运行)来处理数据(特征提取等)。Sprint获得了一个Bliss文件,该文件描述了带有音频和音频偏移和转录路径的所有片段,并且还可以进一步了解特征提取和其他内容。RASR有一个开源版本,它应该可以工作,但是要让它工作起来可能需要一些时间。
BlissDataset原本计划成为一个更简单的替代品。然而,执行工作不完整。另外,您还需要以某种方式自己生成Bliss (我们已经使用了一些自己的内部脚本来根据官方的最不发达国家数据编写该脚本)。
因此,不幸的是,目前还没有简单的方法。实际上,我认为最简单的方法是想出另一种自定义格式,它可能类似于LibriSpeechDataset实现,或者完全相同,然后您就可以重用LibriSpeechDataset,或者至少部分重用它。dataset实现以某种zip格式接收数据,其中包含txt文件中的转录本和ogg或wav文件中的音频。它使用librosa进行MFCC特征提取(或其他特征类型)。我计划在交换机上实现这一点,然后再复制结果,但是我还没有时间,也不确定什么时候能做到这一点。但是如果你想自己去尝试,我会很乐意帮助你的。首先要看一下LibriSpeechDataset,了解它的格式。
https://stackoverflow.com/questions/53633494
复制相似问题