文章/答案/技术大牛

发布

社区首页 >问答首页 >将合并的pdf分割成原始文件

问将合并的pdf分割成原始文件
EN

Stack Overflow用户

提问于 2022-02-08 11:46:54

回答 1查看 89关注 0票数 1

是否有一种方法可以在一个合并的pdf中识别单个文档并相应地将其分割？

我正在工作的pdf包含单独文档的组合扫描(主要是OCR )。我想把它分给原来的文件。

这些原始文档的长度和大小是不标准化的(因此，adobe被“页数”或“文件大小”分割不是一个选项)。“顶级书签”似乎与单个文档不同，因此在它们上拆分也不能提供有用的结果。

我已经创建了该文件的xml版本。我不太熟悉它，但看了它之后，我无法识别一个标准化的标记或类似的标志新文档的开始。

这个问题的答案需要控制合并过程(我没有)，而这个问题的答案不起作用，因为我没有要分割的标准化关键字。

最后，我想为几百个pdfs做这个拆分。在这里可以找到一个被分割的pdf的示例。

xml

pdf

split

python

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-02-09 01:46:30

根据注释中的讨论，一个操作过程是通过python解析页面信息(MediaBox)。然而，我更喜欢一些快速cmd行命令，而不是在这个轻量级上网本上编写和测试更重的解决方案。

因此，我将构建一个脚本来处理一个文件循环，并使用Xpdf命令行工具将文件传递到windows控制台。

编辑实际上大多数Python都倾向于包含pdfinfo的poppler (2022-01)，因此您应该能够通过libs调用或请求来自该变体的反馈。

对您的文件使用PDFinfo并将其限制在前20页进行快速测试是

pdfinfo -f 1 -l 20 yourfile.pdf和响应将是一个适合比较的文本输出：-

Title:          Microsoft Word - 20190702_Revision_CO2_Verordnung_Detailkommenta
re_SWISS_final
Subject:
Keywords:
Author:         heim
Creator:        PDF24 Creator
Producer:       GPL Ghostscript 9.25
CreationDate:   Thu Jul 18 17:36:26 2019
ModDate:        Thu Jul 18 17:36:26 2019
Tagged:         no
Form:           none
Pages:          223
Encrypted:      no
Page    1 size: 595 x 842 pts (A4) (rotated 0 degrees)
Page    2 size: 595 x 842 pts (A4) (rotated 0 degrees)
Page    3 size: 595.32 x 841.92 pts (A4) (rotated 0 degrees)
Page    4 size: 595.44 x 842.04 pts (A4) (rotated 0 degrees)
Page    5 size: 595.44 x 842.04 pts (A4) (rotated 0 degrees)
Page    6 size: 595.2 x 841.9 pts (A4) (rotated 0 degrees)
Page    7 size: 595.45 x 841.9 pts (A4) (rotated 0 degrees)
Page    8 size: 595.45 x 841.9 pts (A4) (rotated 0 degrees)
Page    9 size: 595.2 x 841.44 pts (rotated 0 degrees)
Page   10 size: 595.2 x 841.44 pts (rotated 0 degrees)
Page   11 size: 595.2 x 841.68 pts (rotated 0 degrees)
Page   12 size: 594.54 x 840.78 pts (rotated 0 degrees)
Page   13 size: 591.85 x 835.45 pts (rotated 0 degrees)
Page   14 size: 593.75 x 835.45 pts (rotated 0 degrees)
Page   15 size: 595.2 x 841.44 pts (rotated 0 degrees)
Page   16 size: 595.32 x 841.92 pts (A4) (rotated 0 degrees)
Page   17 size: 593.5 x 840.7 pts (rotated 0 degrees)
Page   18 size: 594.72 x 840.96 pts (rotated 0 degrees)
Page   19 size: 596 x 842 pts (A4) (rotated 0 degrees)
Page   20 size: 595.2 x 841.68 pts (rotated 0 degrees)
File size:      33926636 bytes
Optimized:      no
PDF version:    1.4

在命令行中，我可能只使用所需的页面###和size: values (舍弃版本)来使逐行匹配分析更容易。

我们可以看到，在这种情况下，正如@mkl所怀疑的，顺序页面中有一些共性。

以上小于10%的样本，可能不代表完整的图片，但它的前景足以配对的X或Y值的顺序页。我运行了200页(在这个缓慢的机器上几秒钟)，输出缓慢闪烁有足够的相似之处，表明这是一个可行的部分答案的基础上。

大多数配对在第一值匹配，但奇性为13 & 14，与第二值匹配，而注6与第二值和第7&8匹配，但不是同一文档，因此可能需要对此类情况进行交叉核对。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/71033352

复制

相似问题

问将合并的pdf分割成原始文件
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将合并的pdf分割成原始文件EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将合并的pdf分割成原始文件
EN