我有一个pdf文件,其内容格式化如下:
00:12曾经住过一个人. 00:18被认为有.
这个列表也遵循同样的模式。现在,我正在尝试编写一个Regex程序,它将读取文件并删除所有时间戳,并将行跳转替换为空格。换句话说。我想用它写一大段。
这就是我对reg表达式的看法:
transcript.replace(transcript.matches("^[0-9:]+$"),"")这样就可以去掉任何数字和冒号,也就是时间戳。现在我不知道如何替换跳过的行,我会做这样的事情吗?
transcript.replace(transcript.matches("^[\n]+$"), " ")任何帮助都将不胜感激。谢谢!
发布于 2016-11-22 10:26:31
您不能检查空行,跳过(或删除)这些行,并使用您的transcript代码来处理时间戳吗?
for line in file:
if line == "": #test that this is how a blank line is read
line.delete
else:
transcript.replace(transcript.matches("^[0-9:]+$"),"")这可能会返回具有以下外观的文本块
曾经住过一个人. 被认为有.
你仍然需要把它概括成连续的段落。这三个点是否像你引用的文本一样出现在每一行的末尾?
https://stackoverflow.com/questions/40739117
复制相似问题