首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >srt字幕解析

srt字幕解析
EN

Stack Overflow用户
提问于 2010-04-11 10:54:32
回答 6查看 17.7K关注 0票数 11

我想解析srt字幕:

代码语言:javascript
复制
    1
    00:00:12,815 --> 00:00:14,509
    Chlapi, jak to jde s
    těma pracovníma světlama?.

    2
    00:00:14,815 --> 00:00:16,498
    Trochu je zesilujeme.

    3
    00:00:16,934 --> 00:00:17,814
    Jo, sleduj.

每一件物品都有了结构。通过这个regexs:

答:

代码语言:javascript
复制
RE_ITEM = re.compile(r'(?P<index>\d+).'
    r'(?P<start>\d{2}:\d{2}:\d{2},\d{3}) --> '
    r'(?P<end>\d{2}:\d{2}:\d{2},\d{3}).'
    r'(?P<text>.*?)', re.DOTALL)

B:

代码语言:javascript
复制
RE_ITEM = re.compile(r'(?P<index>\d+).'
    r'(?P<start>\d{2}:\d{2}:\d{2},\d{3}) --> '
    r'(?P<end>\d{2}:\d{2}:\d{2},\d{3}).'
    r'(?P<text>.*)', re.DOTALL)

这个代码是:

代码语言:javascript
复制
    for i in Subtitles.RE_ITEM.finditer(text):
    result.append((i.group('index'), i.group('start'), 
             i.group('end'), i.group('text')))

对于代码B,我在数组中只有一个项(因为贪婪的.*),而对于代码A,由于没有贪婪的.*,我有空的'text‘。

怎么治好这个?

谢谢

EN

回答 6

Stack Overflow用户

回答已采纳

发布于 2010-04-11 11:15:59

文本后面是空行,或者是文件的末尾。所以你可以使用:

代码语言:javascript
复制
r' .... (?P<text>.*?)(\n\n|$)'
票数 9
EN

Stack Overflow用户

发布于 2010-04-11 11:15:52

为什么不使用比斯特

票数 22
EN

Stack Overflow用户

发布于 2016-05-05 17:28:56

我对用于Python的srt库感到非常沮丧(通常是因为它们是重量级的,并且避免使用语言标准类型来支持自定义类),所以我花了大约一年的时间来开发我自己的srt库。你可以在https://github.com/cdown/srt买到。

我试着在类中保持简单和轻巧(除了核心字幕类,它或多或少只是存储SRT块数据)。它可以读写SRT文件,并将不兼容的SRT文件转换为兼容的SRT文件。

下面是一个使用示例输入的示例:

代码语言:javascript
复制
>>> import srt, pprint
>>> gen = srt.parse('''\
... 1
... 00:00:12,815 --> 00:00:14,509
... Chlapi, jak to jde s
... těma pracovníma světlama?.
... 
... 2
... 00:00:14,815 --> 00:00:16,498
... Trochu je zesilujeme.
... 
... 3
... 00:00:16,934 --> 00:00:17,814
... Jo, sleduj.
... 
... ''')
>>> pprint.pprint(list(gen))
[Subtitle(start=datetime.timedelta(0, 12, 815000), end=datetime.timedelta(0, 14, 509000), index=1, proprietary='', content='Chlapi, jak to jde s\ntěma pracovníma světlama?.'),
 Subtitle(start=datetime.timedelta(0, 14, 815000), end=datetime.timedelta(0, 16, 498000), index=2, proprietary='', content='Trochu je zesilujeme.'),
 Subtitle(start=datetime.timedelta(0, 16, 934000), end=datetime.timedelta(0, 17, 814000), index=3, proprietary='', content='Jo, sleduj.')]
票数 15
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/2616766

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档