搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

Tesseract hOCR iOS

我正在学习如何使用Tesseract API，我对hOCR输出函数感兴趣。目前，我正在使用此代码扫描图像。-():" forKey:@"tessedit_char_whitelist"];一切都很好，但是我想知道

浏览 7提问于2014-02-04得票数 2

回答已采纳

0回答

用Python将hOCR解析为JSON

我正在使用tesseract-ocr并获得hOCR格式的输出。我需要将这个hOCR输出存储到数据库中(在我的例子中是PostgreSQL)。既然我可能需要这个hOCR中的每一条信息(80% )，那么哪种方法是正确的呢？应该将其存储为XML数据类型还是解析为JSON并存储？在JSON的情况下，如何使用Python将此hOCR解析为JSON。

浏览 15修改于2018-07-19得票数 1

1回答

如何从PDF中提取hocr文件？

我正在通过tesseract创建一个OCR编辑的PDF：但我也需要hocr和txt文件。我可以使用pdftotext提取文本文件，但我似乎找不到从PDF中提取hocr的方法。

浏览 0修改于2016-04-19得票数 6

回答已采纳

1回答

Tesseract hocr字符输出

我正在使用Tesseract可移植版本3.02，并希望获得hocr输出的字符。问题是hocr输出只显示单词的购买框，而不显示字符，如果有人知道是否有一个选项可以更改tessdata/config，请告诉我。否则，让我知道，如果有另一种方法来解决这个问题。

浏览 1提问于2015-11-11得票数 1

回答已采纳

2回答

将hOCR转换为HTML

我正在寻找一个在python中实现的工具或想法，它将hOCR文件(由应用程序在tesseract中生成)转换为html表。其思想是利用hOCR文件中的文本位置信息(在bbox属性中提供)来创建基于所提供位置的表。我举一个例子来解释上述观点： <div class='ocr_page' id='pa

浏览 5修改于2017-03-15得票数 12

1回答

从tika-server获取hocr输出

在本例中，我使用的是X-Tika-OCRoutputType: hocr header，但是我获得了纯文本输出或没有HOCR标记的html输出。 -H "Content-Type: application/pdf" \ -H "X-Tika-OCRoutputType: hocr/tika-server:8081/

浏览 5提问于2020-01-09得票数 2

回答已采纳

1回答

c#使用charlesw tesseract生成hocr文件

如何使用tesseract包装器生成hocr？ string argsPdf = "\"" + inputImg + "\"" + " " + "\"" + hocrLocation + "\"" + " hocr如何使用包装器生成hocr文件？我找不到怎样

浏览 0修改于2017-06-10得票数 0

回答已采纳

3回答

因此，我决定检索hocr输出，而不是纯text.But;there似乎不是使用pytessearct指定配置文件的任何方式。那么，是否可以使用pytesseract指定cofiguration文件，或者是否有一些默认的配置文件可以更改以获得hocr输出？command += shlex.split(config) #command+=['C:\\Program Files (x86)\\Tesseract-OCR\\tessdata\\configs\\hocr

浏览 4提问于2015-12-13得票数 5

3回答

HOCR转HTML以实现可视化

如果您打开原始hOCR文件，则其仅呈现为纯文本(元素未定位)

浏览 5修改于2016-07-14得票数 11

1回答

XSLT将多个输入文件从hocr转换为alto xml Saxon。

在使用Saxon将多个输入文件从hocr转换为alto (每个输入文件需要一个xml输出)时遇到了困难，所以当我尝试对多个文件使用collection()命令时，我能够一次转换一个文件，但得到错误消息‘(Hocr))‘。因此，我知道我所使用的路径存在问题，但不确定在本例中如何正确使用集合()。任何帮助都将不胜感激。我一直在尝试的命令是： File:///c:/?select=*.(hocr))-xsl:hocr-to-ALTO- \hocr_ALTO 2.0.xs

浏览 5提问于2020-07-14得票数 1

1回答

在android中输出用于tesseract OCR的HOCR输出

我想在tesseract中打开hocr输出，在这个中，我尝试将变量tessedit_create_hocr设置为true，但在输出中看不到hocr。FileUtil.getAppFolder(), "eng", TessBaseAPI.OEM_TESSERACT_CUBE_COMBINED); baseApi.setImage(bitmap); Strin

浏览 4修改于2014-01-22得票数 4

回答已采纳

2回答

在哪里可以找到HOCR文件的样本？

在哪里可以找到hocr格式的文件的示例或示例？( OCR提取的文本与页面坐标一起存储的格式。)谢谢!

浏览 0提问于2011-11-25得票数 3

1回答

使用Tesseract hOCR提取文本属性

因此，下面的所有行(在hOCR输出中)都具有相同的字体系列和大小： <span class='ocrx_word' id='word_6' title="bbox 1177 491 1637 549">

浏览 2提问于2013-11-16得票数 3

回答已采纳

1回答

Tesseract CLI hocr和tessdata-dir选项不一起工作

我在尝试运行这个命令时出错read_params_file: Can't openhocr tesseract orig.jpg stdout -oem 4 hocr tesseract orig.jpg stdout

浏览 3提问于2017-09-14得票数 0

回答已采纳

2回答

Pytessaract image_to_pdf_or_hocr函数在AWS中不工作

但是，当我尝试像这样使用image_to_pdf_or_hocr时：File "/var/task/pytesseract/pytesseract.py", line 432, in image_to_pdf_or_<e

浏览 3提问于2021-03-15得票数 3

1回答

将HOCR输出转换为字符串(用于正则表达式目的)的策略是什么？

我正在使用Pytesseract，并希望将HOCR输出转换为字符串。当然，这样的函数是在Pytesseract中实现的，但我想了解更多关于如何实现它的可能策略。from pytesseract import image_to_pdf_or_hocr hocr_output = image_to_pdf_or_hocr(image, extension='hocr

浏览 18提问于2019-08-09得票数 2

1回答

从tesseract hocr xhtml文件中提取数据

我试图使用Python从Tesseract的hocr输出文件中提取数据。我们仅限于tesseact版本3.04，因此没有image_to_data函数或tsv输出可用。

浏览 1提问于2018-06-05得票数 4

回答已采纳

1回答

Tesseract:在hOCR文件中获取word置信度(x_wconf)

我目前使用Java通过命令行调用Tesseract，输出模式设置为hOCR。我几乎不知道任何与C编程相关的东西，虽然我能读懂源代码，但仅此而已。我希望能够在hOCR文件中获得单词置信度信息。

浏览 0修改于2013-12-02得票数 2

1回答

Windows Tesseract OCR得到分散的HOCR输出，而不是干净的标准格式

我正在寻找is.HOCR (HTML)的输出。在内容方面，我得到了完美的输出，但是格式看起来非常混乱。但同样，当我打开记事本++时，它给出了一种清晰的格式。下面给出了windows命令行需要您的帮助，以获得有组织的hocr格式的记事本作为附件。

浏览 10提问于2022-02-09得票数 0

1回答

使用Tesseract的hOCR文件/确定是否有高质量的文本层

2)是否可以将已经包含文本层的hOCR分解为单独的每页PDF文件，以便可以使用边界框突出显示这些页面的特定区域，并使用从相应hOCR文件中检索到的该区域的文本？3)当使用Tesseract将OCR文本保存为hOCR格式时，这是否提供了足够的信息，以便能够从hOCR文件中检索与创建hOCR文件的PNG上的确切区域相对应的任意文本块？提前感谢

浏览 11提问于2018-02-14得票数 2

第 2 页第 3 页第 4 页第 5 页第 6 页

点击加载更多

Tesseract hOCR iOS

用Python将hOCR解析为JSON

如何从PDF中提取hocr文件？

Tesseract hocr字符输出

将hOCR转换为HTML

从tika-server获取hocr输出

c#使用charlesw tesseract生成hocr文件

如何使用python-tesseract获取Hocr输出

HOCR转HTML以实现可视化

XSLT将多个输入文件从hocr转换为alto xml Saxon。

在android中输出用于tesseract OCR的HOCR输出

在哪里可以找到HOCR文件的样本？

使用Tesseract hOCR提取文本属性

Tesseract CLI hocr和tessdata-dir选项不一起工作

Pytessaract image_to_pdf_or_hocr函数在AWS中不工作

将HOCR输出转换为字符串(用于正则表达式目的)的策略是什么？

从tesseract hocr xhtml文件中提取数据

Tesseract:在hOCR文件中获取word置信度(x_wconf)

Windows Tesseract OCR得到分散的HOCR输出，而不是干净的标准格式

使用Tesseract的hOCR文件/确定是否有高质量的文本层

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐