首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python- PDFTables解析忽略列之间的空格

Python- PDFTables解析忽略列之间的空格
EN

Stack Overflow用户
提问于 2018-04-03 13:46:48
回答 1查看 257关注 0票数 0

我正在尝试使用pdftables python库解析pdf表。但它正在组合列并忽略空格。

下面是我的代码:

代码语言:javascript
复制
pdf_page = get_pdf_page(fileobj, page)
tables = page_to_tables(pdf_page)

pdf文件中表格的结构:

输出:

EN

回答 1

Stack Overflow用户

发布于 2018-08-10 18:34:46

如果你意识到它是%,你可以轻松地读取超过9和低于100的任何数字:阅读数字直到你有2位(11到99)组合或1位组合(0到9)或10。如果你有10,那么你可以在字符串的第三位添加0,但不能添加除0以外的任何其他数字。

我用python比用英语xD表达得更好,我希望这能对你有所帮助:

代码语言:javascript
复制
def split(str):
    number = '0'
    numbers = []
    for char in str:
        if int(char) == 0 and int(number) == 10:
            numbers.append(int(number + char))
            number = '0'
        elif int(number) > 9 and int(number) < 100 and int(char) != 0:
            numbers.append(int(number))
            number = char
        elif int(number) >= 0 and int(number) < 10:
            number = number + char
    if int(number) > 0:
        numbers.append(int(number))
    return numbers

例如,如果我使用以下代码调用:

代码语言:javascript
复制
split('25106387100')

它返回

代码语言:javascript
复制
[25, 10, 63, 87, 100]

然后用这段代码你可以把任何字符串拆分成大于10到100的数字,现在的问题是如果你需要拆分一个数字,在这种情况下,你可以在0-9内部添加一个条件来检测pdf中的'isdigit()‘是否有数字的位置,将pdf的处理减少到最小

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49623051

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档