首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从pdf图像文件中提取文本

从pdf图像文件中提取文本
EN

Stack Overflow用户
提问于 2019-08-27 22:05:03
回答 1查看 71关注 0票数 2

我有一个图像文件,我想从给定的图像中提取文本,我尝试了各种OCR引擎,但我无法找到左侧实体和右侧实体之间的关系,因为OCR引擎只是提取没有实体之间关系的文本。例如事务(公司借款),account#1: Cash account#2: Loan payable

我尝试过使用各种OCR引擎和PyPDF2和pdftotextI have attached an image file for which I am trying extract text and trying to find the relationship between the left entity and right side entity 进行文本提取。

EN

回答 1

Stack Overflow用户

发布于 2019-08-29 18:45:49

所有要分析的图像都是这样的吗? analyzing?

  • Will

  • 这个例子是否反映了你将要分析的图像的真实情况每列的限制总是在相同的位置?

由于您没有指定这一点,我将假定所有这些都是肯定的。

主要问题是,在获得OCR字符串之后,您将无法确定空格是单词之间的空格还是列之间的空格。

要解决此问题,请在每列上裁剪图像,并在每列上单独执行OCR,因此最终应该有3个字符串,每列一个。

将每个字符串拆分为'\n',您应该有3个数组,其中包含每列中的行

比较数组的大小,如果3个数组中的任何一个具有不同的大小,则提取失败,您应该重试/清理映像。

迭代第二个和/或第三个数组上的元素,寻找只有"\n“的元素,假设这里不能有空字段,如果一行只是一个"\n",这一定意味着第一列上的字段使用了2行或更多行,所以在第一和第二个数组上删除这个元素,并在第一个数组上连接这个元素和下一个元素。

如果所有三个数组都有相同数量的元素,并且您连接了使用多行的条目,那么就可以开始了,并且知道关系是由数组的位置设置的。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57676454

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档