首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >将HOCR输出转换为字符串(用于正则表达式目的)的策略是什么?

将HOCR输出转换为字符串(用于正则表达式目的)的策略是什么?
EN

Stack Overflow用户
提问于 2019-08-09 23:40:26
回答 1查看 688关注 0票数 2

我正在使用Pytesseract,并希望将HOCR输出转换为字符串。当然,这样的函数是在Pytesseract中实现的,但我想了解更多关于如何实现它的可能策略。

代码语言:javascript
复制
from pytesseract import image_to_pdf_or_hocr
hocr_output = image_to_pdf_or_hocr(image, extension='hocr')
EN

回答 1

Stack Overflow用户

发布于 2019-11-18 07:37:30

因为hOCR是一种.xml,所以我们可以使用.xml解析器。

但首先我们需要将tesseract的二进制输出转换为str:

代码语言:javascript
复制
from pytesseract import image_to_pdf_or_hocr

hocr_output = image_to_pdf_or_hocr(image, extension='hocr')
hocr = hocr_output.decode('utf-8')

现在我们可以使用xml.etree来解析它:

代码语言:javascript
复制
import xml.etree.ElementTree as ET

root = ET.fromstring(hocr)

xml.etree为我们提供了一个text iterator,我们可以将其结果连接到一个字符串中:

代码语言:javascript
复制
text = ''.join(root.itertext())
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57433342

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档