对于一个合同工作,我需要数字化的许多旧的,扫描-图形的全体辩论协议PDF来自德国联邦议会。
问题是,这些文件大多采用两列格式:
样本协议http://sert.homedns.org/img/btp12001.png
我很想看看你对我以下问题的回答:
请注意,任何工具,编程语言,框架等都是好的。不要犹豫,推荐深奥的产品,图书馆,如果你认为他们是为朱布^__^!
更新:这些文档已经被议会o_O:示例 (与上面的图像相同)扫描了,并且有很多文件,我想尽快交付合同,所以我不能去拿同样的文件的打印副本,自己剪切和扫描它们。他们太多了。
诚挚的问候,
塞廷塞特
发布于 2009-07-09 15:12:31
扫描前把中间的页码切下来。
发布于 2009-07-09 15:17:15
这取决于您正在使用的OCR软件。几年前,我用OCR做了一些工作,我不太记得它的名字,但我认为有很多替代方案。无论如何,这个API允许我将页面上的区域定义为OCR,如果您总是大致知道列在哪里,可以使用SDK来映射页面的部分内容。
发布于 2009-07-09 17:27:35
我用Omnipage 17来做这样的事情。它也有一个批处理模式,您可以将文档放在文件夹中,在文件夹中抓取文档,并将结果放入另一个文件夹。它自动识别布局、包含列,或者可以将默认布局设置为列。您可以设置输出应该是什么样的许多选项。但是尝试一个演示,如果它是正确的。我目前在一些文件中遇到了一些结束语的问题。所以像"fliegen“这样的词是"fl iegen”,所以你必须拼写它们。
https://stackoverflow.com/questions/1104439
复制相似问题