文章/答案/技术大牛

发布

社区首页 >问答首页 >C#解决方案用于绘制PDF和OCRing生成的图像？

问C#解决方案用于绘制PDF和OCRing生成的图像？
EN

Stack Overflow用户

提问于 2012-05-31 10:38:50

回答 2查看 6.4K关注 0票数 4

我正在寻找一种C#解决方案，将数据从PDF文档导入到我们的数据库中，在一个商业应用程序中。我们的客户将期待进口任何任意文件。通常，我认为这是完全不可能的，但是他们正在导入的文档将在他们自己的设置布局中。

我的计划是让PDF呈现为静态图像，然后允许用户设置自己的模板，这基本上是在PDF中的预定义像素偏移提取文本，使用OCR。对于表，它们定义表的位置以及列和行大小的进一步值。然后，我们可以将模板应用于该文档类型。

所以，我真正要找的是两个库:一个把PDF转换成图像，另一个转换到OCR --这些图像。

要求：

是纯C#，或者在本机DLL上有一个受支持的C#包装器。
不分进程--在本例中不允许只创建命令行参数并启动外部可执行文件的包装程序。
在自由和开放源码软件的情况下，允许我们通过支付许可证费用来免除正常的自由和开放源码软件许可要求(即发布源代码)。

我们当然不介意为一个商业解决方案付费，但我们不想为软件的每个发行版支付费用。

我知道这是一个非常具体的要求--也许对某些人来说，这已经足够让一些人认为这个问题过于本土化了，但我希望有人能提出一种方法和一些图书馆，这些方法和图书馆对我和其他人都有帮助。

我看过的PDF方面的东西：

iTextSharp -文档是一本你必须买的书，不是一个好的开始。对于将PDF转换成公共域中的图像，似乎不是很多有用的文档。授权是不透明的，看起来我们必须支付每个客户，我们分发给。
Docotic.Pdf -只发短信，对我们没有任何用处。
pdftohtml -再说一遍，不会产生图像。把它移植到C#也会很混乱。
PdfFileParser --仍然不是我们所需要的。
GhostScript --差不多就是我们想要的，但需要分叉到一个程序中。

对于OCR方面，我可能最终会使用Tesseract，因为Apache许可证是允许的，并且得到了很好的评价。如果有别的选择，我也会对此感兴趣的。

pdf

ocr

pdf-rendering

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-05-31 17:58:06

我想你可能想再给Docotic.Pdf一次机会。

该库可以提取文本块、单词，甚至是单个字符的边界矩形。请看一下从PDF中提取单词的样品。

此外，Docotic.Pdf还可以从PDF创建图像并在System.Drawing.Graphics上绘制页面。请看一看绘制和打印Pdf的样品组。

免责声明:我是图书馆的开发人员之一。

票数 0

Stack Overflow用户

发布于 2012-05-31 13:30:51

我想为这项任务推荐Amyuni创造者.Net。

第一种场景：

如果您的PDF文件定义良好(没有缺少字体信息等)，则可以通过在方法GetObjectsInRectangle中指定矩形区域直接从PDF中提取文本。您还应该使用选项acGetRectObjectsOptimize

在返回文本对象之前对它们进行优化。也就是说，将彼此相近的文本对象组合成一个文本对象。

第二个场景：

如果涉及的图像也包含文本，则将整个页面呈现为图像，然后应用OCR可能是一个更好的选择。您可以使用Amyuni .Net使用ExportToTiff、ExportToJPeg或RasterizePageRange方法来完成此操作。

从文件中：

IacDocument.RasterizePageRange法 RasterizePageRange方法将页面内容转换为颜色或灰度图像。在归档文档或执行OCR时，有时最好将所有页面存储为图像，而不是复杂的文本和图形操作。

然后，您可以使用与Tesseract OCR集成的OCR加件，最后我们再次进入第一个场景(GetObjectsInRectangle)。为了将OCR应用于您的文件，您可以使用OCRPageRange方法。

void OCRPageRange(int startPage，int EndPage，string Language，acOCROptions选项)

关于许可，Amyuni .Net提供(每个应用程序)免费许可。

通常免责声明适用

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/10831963

复制

相似问题

问C#解决方案用于绘制PDF和OCRing生成的图像？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问C#解决方案用于绘制PDF和OCRing生成的图像？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问C#解决方案用于绘制PDF和OCRing生成的图像？
EN