我在一个地方工作,我的任务是扫描大量的指令,以便它们可以被数字化(大约10k页)。扫描仪,我有,可以采取约50-60PDF页面在同一时间,它保存为一个“大”的A4文件。问题是,我的老板希望每个页面本身就是PDF,而且它必须命名为它内部所说的页码。不只是1,因为它是文档中的第一页。这些指令在编号中跳来跳去,所以这并不容易。
我需要帮助的是:
1:如何从PDF内部检索页码
2:如何多次执行此操作(针对每个PDF文档)?
我已经将我的程序设置为每页创建一个PDF ...我希望有人能帮上忙:)
发布于 2021-07-09 16:49:55
要获得页码,可以使用OpenCV提取页码所在的部分,然后使用pytesseract读取页码(当然,如果页码不总是在相同的位置,它就不起作用)。
否则,如果您一次放入扫描仪的50-60页在页码中有相关性(例如,按良好的顺序排列150到200页),那么您可以在扫描一批页时指定起始页码,并在每次读取一页时增加此页码。
如果有帮助,请告诉我。
https://stackoverflow.com/questions/68313703
复制相似问题