首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何从PDF文件中正确提取日文txt

如何从PDF文件中正确提取日文txt
EN

Stack Overflow用户
提问于 2022-02-22 16:19:04
回答 1查看 220关注 0票数 1

我需要从pdf文件中提取文本。

问题是,一些页面的文件是扫描的pdf,而文本无法检索使用PyPDF或PDFMiner。所以文字是空的。

谁能给我一个如何处理的提示?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-02-22 16:33:32

我不认为有一个快速的解决方案来处理Unicode,尤其是日本人。

我们可以采取的解决办法之一是:

  • 在页面上进行迭代,确定页面是否扫描pdf。这可以使用PyMUPDF来完成,看看这个回答。
  • 如果页面没有扫描pdf,我们可以像往常一样从pdf中提取文本。
  • 对于没有扫描的pdf页面,我们可以使用.png将pdf转换成pdf2image图像,而不是使用青蒿琥酯提取数据。这里由示例代码介绍如何从图像中读取数据。
  • 您可能需要做一些额外的数据工作,以获得正确的单词。
代码语言:javascript
复制
import cv2
import pytesseract
from pytesseract import Output

img = cv2.imread('invoice-sample.jpg')

d = pytesseract.image_to_data(img, output_type=Output.DICT)
print(d.keys())

关于tesseract,您可以在这篇文章。中找到更多

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71224718

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档