我对蟒蛇不熟悉,我有个问题。我有几个文本文件,我想提取每个文件的结论部分。
文本文件如下所示:
结果:在调整后的分析中,每小时PAC计数增加一倍,AF风险显著增加(风险比1.17 95% CI,1.13至1.22 )。
局限性:这项研究没有建立PACs和AF之间的因果关系。
结论:在有效的AF风险算法中加入PAC计数提供了更好的AF风险识别,并显著改善了风险再分类。需要进一步的研究,以确定PAC修饰是否可以前瞻性地降低AF的风险。
主要资金来源:美国心脏协会、约瑟夫溺水基金会和美国国立卫生研究院。
我在同一个文件夹中有多个文件,如何处理这个文件夹中的所有文件?
提前谢谢你!
发布于 2014-03-19 19:12:53
我不擅长regex,也不太确定这是否是最好的方法,但它有效:)
import os
import re
path = 'path/to/your/files/'
for i in os.listdir(path):
with open(path+i) as f:
content = f.read()
pattern = re.compile('CONCLUSION:\s*([\s\w.]*)\n[A-Z\s]*:')
print pattern.findall(content)[0]发布于 2014-03-19 19:28:23
您应该使用正则表达式提取所需的数据:
import re
import os, os.path
PATH = 'path/to/your/files/'
conclusions = []
for file in os.listdir(path):
with open(os.path.join(PATH, file)) as f:
data = f.read()
conclusion = re.search('CONCLUSION: (.*?)([A-Z]{2,})', data).group(1)
conclusions.append(conclusion)这将查找'CONCLUSION: '头,然后扫描之后的数据,在下一个标题之后停止,这将始终是您指定的大写单词。
发布于 2014-03-19 19:02:33
https://stackoverflow.com/questions/22515564
复制相似问题