我正在开发发票解析器,它从pdf中的发票中提取数据,或者图像format.It用非表格数据处理简单的pdf,但是给出了大量的输出数据,用包含表格的pdf处理。我无法找到一个通用的解决方案。
Invoice2Data:它基于templates.It,在json格式下给出了相当好的结果,直到包含动态表的复杂pdfs的now.But模板创建才变得复杂。
Tabula:表提取基于表的坐标为extracted.If,表中的数据增加了表的长度,因此坐标changes.So在这种情况下给出了错误的结果。
Pdftotext:它将任何pdfs转换为文本,但格式需要大量解析,而我们不想要这种格式。
Aws_Textract和Elis_Rossum_Ai:给出json format.But中的所有数据,如果表列包含多行,那么json解析就变成difficult.Even,json给出的解析规模很大。
Tesseract:与pdftotext.Complex相同,pdfs是不可解析的。
除了所有这些或以上库的组合,任何人都能解析复杂的pdf数据,请帮助。
发布于 2020-08-13 17:59:56
我正在处理一个类似的商业问题。由于发票没有固定的格式,所以不能直接使用任何文本解析方法。
要解决这个问题,必须使用计算机视觉(深度学习)进行现场检测,使用Pytesseract OCR将图像转换为文本。为了更好地理解以下步骤:

希望我的回答对你有帮助!向上投票的答案,使它达到最大的人。
https://stackoverflow.com/questions/56278094
复制相似问题