首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >议会辩论中PDF的光学字符识别

议会辩论中PDF的光学字符识别
EN

Stack Overflow用户
提问于 2009-07-09 14:59:44
回答 4查看 452关注 0票数 0

对于一个合同工作,我需要数字化的许多旧的,扫描-图形的全体辩论协议PDF来自德国联邦议会。

问题是,这些文件大多采用两列格式:

样本协议http://sert.homedns.org/img/btp12001.png

我很想看看你对我以下问题的回答:

  1. 在输入OCR之前,我如何分割这两列?
  2. 您推荐哪种商业开放源码的OCR软件或框架?为什么?

请注意,任何工具,编程语言,框架等都是好的。不要犹豫,推荐深奥的产品,图书馆,如果你认为他们是为朱布^__^!

更新:这些文档已经被议会o_O:示例 (与上面的图像相同)扫描了,并且有很多文件,我想尽快交付合同,所以我不能去拿同样的文件的打印副本,自己剪切和扫描它们。他们太多了。

诚挚的问候,

塞廷塞特

EN

回答 4

Stack Overflow用户

发布于 2009-07-09 15:12:31

扫描前把中间的页码切下来。

票数 0
EN

Stack Overflow用户

发布于 2009-07-09 15:17:15

这取决于您正在使用的OCR软件。几年前,我用OCR做了一些工作,我不太记得它的名字,但我认为有很多替代方案。无论如何,这个API允许我将页面上的区域定义为OCR,如果您总是大致知道列在哪里,可以使用SDK来映射页面的部分内容。

票数 0
EN

Stack Overflow用户

发布于 2009-07-09 17:27:35

我用Omnipage 17来做这样的事情。它也有一个批处理模式,您可以将文档放在文件夹中,在文件夹中抓取文档,并将结果放入另一个文件夹。它自动识别布局、包含列,或者可以将默认布局设置为列。您可以设置输出应该是什么样的许多选项。但是尝试一个演示,如果它是正确的。我目前在一些文件中遇到了一些结束语的问题。所以像"fliegen“这样的词是"fl iegen”,所以你必须拼写它们。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/1104439

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档