问如何从PDF文件中正确提取日文txt
EN

Stack Overflow用户

提问于 2022-02-22 16:19:04

回答 1查看 220关注 0票数 1

我需要从pdf文件中提取文本。

问题是，一些页面的文件是扫描的pdf，而文本无法检索使用PyPDF或PDFMiner。所以文字是空的。

谁能给我一个如何处理的提示？

python

algorithm

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-02-22 16:33:32

我不认为有一个快速的解决方案来处理Unicode，尤其是日本人。

我们可以采取的解决办法之一是：

在页面上进行迭代，确定页面是否扫描pdf。这可以使用PyMUPDF来完成，看看这个回答。
如果页面没有扫描pdf，我们可以像往常一样从pdf中提取文本。
对于没有扫描的pdf页面，我们可以使用.png将pdf转换成pdf2image图像，而不是使用青蒿琥酯提取数据。这里由示例代码介绍如何从图像中读取数据。
您可能需要做一些额外的数据工作，以获得正确的单词。

import cv2
import pytesseract
from pytesseract import Output

img = cv2.imread('invoice-sample.jpg')

d = pytesseract.image_to_data(img, output_type=Output.DICT)
print(d.keys())

关于tesseract，您可以在这篇文章。中找到更多

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/71224718

复制

相似问题

问如何从PDF文件中正确提取日文txt
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从PDF文件中正确提取日文txtEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从PDF文件中正确提取日文txt
EN