文章/答案/技术大牛

发布

社区首页 >问答首页 >Python- PDFTables解析忽略列之间的空格

问Python- PDFTables解析忽略列之间的空格
EN

Stack Overflow用户

提问于 2018-04-03 13:46:48

回答 1查看 257关注 0票数 0

我正在尝试使用pdftables python库解析pdf表。但它正在组合列并忽略空格。

下面是我的代码：

pdf_page = get_pdf_page(fileobj, page)
tables = page_to_tables(pdf_page)

pdf文件中表格的结构：

输出：

pdf-parsing

python

parsing

pdf

回答 1

Stack Overflow用户

发布于 2018-08-10 18:34:46

如果你意识到它是%，你可以轻松地读取超过9和低于100的任何数字:阅读数字直到你有2位(11到99)组合或1位组合(0到9)或10。如果你有10，那么你可以在字符串的第三位添加0，但不能添加除0以外的任何其他数字。

我用python比用英语xD表达得更好，我希望这能对你有所帮助：

def split(str):
    number = '0'
    numbers = []
    for char in str:
        if int(char) == 0 and int(number) == 10:
            numbers.append(int(number + char))
            number = '0'
        elif int(number) > 9 and int(number) < 100 and int(char) != 0:
            numbers.append(int(number))
            number = char
        elif int(number) >= 0 and int(number) < 10:
            number = number + char
    if int(number) > 0:
        numbers.append(int(number))
    return numbers

例如，如果我使用以下代码调用：

split('25106387100')

它返回

[25, 10, 63, 87, 100]

然后用这段代码你可以把任何字符串拆分成大于10到100的数字，现在的问题是如果你需要拆分一个数字，在这种情况下，你可以在0-9内部添加一个条件来检测pdf中的'isdigit()‘是否有数字的位置，将pdf的处理减少到最小

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/49623051

复制

相似问题

问Python- PDFTables解析忽略列之间的空格
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python- PDFTables解析忽略列之间的空格EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python- PDFTables解析忽略列之间的空格
EN