我有一个PDF文档,我目前正在使用Tika-Python解析它。我想把文档分成几段。
我的想法是将文档拆分为段落,然后使用isspace()函数创建段落列表
我也尝试过使用\n\n进行拆分,但是都不起作用。
这是我当前的代码:
file_data = (parser.from_file('/Users/graziellademartino/Desktop/UNIBA/Research Project/UK cases/file1.pdf'))
file_data_content = file_data['content']
paragraph = ''
for line in file_data_content:
if line.isspace():
if paragraph:
yield paragraph
paragraph = ''
else:
continue
else:
paragraph += ' ' + line.strip()
yield paragraph发布于 2019-10-29 20:36:49
我不能确定file_data_content现在是什么样子,因为我不知道你用什么来处理你的PDF数据,以及它返回了什么。但是,如果它返回一个基本的字符串,比如Line1\nLine2\netc.,那么下面的代码应该是有效的。当你说:
for line in file_data_content:而file_data_content是一个字符串,您是逐字符处理字符串,而不是逐行处理字符串,这显然是一个问题。因此,您需要将文本拆分为一个行列表,并处理该列表中的每个元素:
def create_paragraphs(file_data_content):
lines = file_data_content.splitlines(True)
paragraph = []
for line in lines:
if line.isspace():
if paragraph:
yield ''.join(paragraph)
paragraph = []
else:
paragraph.append(line)
if paragraph:
yield ''.join(paragraph)
text="""Line1
Line2
Line3
Line4
Line5"""
print(list(create_paragraphs(text)))打印:
['Line1\nLine2\n', 'Line3\nLine4\n', 'Line5']发布于 2020-05-03 18:50:18
paragraphs = file_data_content.split('.\n\n')https://stackoverflow.com/questions/58606054
复制相似问题