DNNs是一种巨大的数据需求算法,尤其是双向LSTM算法.对于语音识别模型,对于特定的语言/口音,缺少语音语料库。然而,YouTube也是一个巨大的库。
我需要使用一些脚本/软件,它可以自动下载YouTube视频(可能只有音频)和相关的字幕,然后将其分割成20秒的片段,这样就可以用作训练语音语料库。
有没有任何方式可以下载来自Youtube的字幕?给出一个音频和脚本,我如何将一个音频分割成20秒的片段,并在文字记录中做同样的剪辑?
发布于 2022-03-02 22:07:24
--write-subs Write subtitle file
--no-write-subs Do not write subtitle file (default)
--write-auto-subs Write automatically generated subtitle file
(Alias: --write-automatic-subs)
--no-write-auto-subs Do not write auto-generated subtitles
(default) (Alias: --no-write-automatic-subs)
--list-subs List available subtitles of each video.
Simulate unless --no-simulate is used
--sub-format FORMAT Subtitle format, accepts formats
preference, for example: "srt" or
"ass/srt/best"
--sub-langs LANGS Languages of the subtitles to download (can
be regex) or "all" separated by commas.
(Eg: --sub-langs "en.*,ja") You can prefix
the language code with a "-" to exempt it
from the requested languages. (Eg:
--sub-langs all,-live_chat) Use --list-subs
for a list of available language tags这个问题已经有三年了,所以我想OP已经找到了很多选择。但是也许这会对其他人有所帮助。
https://softwarerecs.stackexchange.com/questions/53834
复制相似问题