我正在尝试使用pdftables python库解析pdf表。但它正在组合列并忽略空格。
下面是我的代码:
pdf_page = get_pdf_page(fileobj, page)
tables = page_to_tables(pdf_page)pdf文件中表格的结构:

输出:

发布于 2018-08-10 18:34:46
如果你意识到它是%,你可以轻松地读取超过9和低于100的任何数字:阅读数字直到你有2位(11到99)组合或1位组合(0到9)或10。如果你有10,那么你可以在字符串的第三位添加0,但不能添加除0以外的任何其他数字。
我用python比用英语xD表达得更好,我希望这能对你有所帮助:
def split(str):
number = '0'
numbers = []
for char in str:
if int(char) == 0 and int(number) == 10:
numbers.append(int(number + char))
number = '0'
elif int(number) > 9 and int(number) < 100 and int(char) != 0:
numbers.append(int(number))
number = char
elif int(number) >= 0 and int(number) < 10:
number = number + char
if int(number) > 0:
numbers.append(int(number))
return numbers例如,如果我使用以下代码调用:
split('25106387100')它返回
[25, 10, 63, 87, 100]然后用这段代码你可以把任何字符串拆分成大于10到100的数字,现在的问题是如果你需要拆分一个数字,在这种情况下,你可以在0-9内部添加一个条件来检测pdf中的'isdigit()‘是否有数字的位置,将pdf的处理减少到最小
https://stackoverflow.com/questions/49623051
复制相似问题