首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从tika-server获取hocr输出

从tika-server获取hocr输出
EN

Stack Overflow用户
提问于 2020-01-09 10:40:25
回答 1查看 479关注 0票数 2

我正在使用对PDF文件执行OCR操作。

我对hOCR输出感兴趣,但只成功地获得了纯文本格式的输出。

维基代码之后,我尝试使用X-Tika-OCR... headers配置Tesseract。在本例中,我使用的是X-Tika-OCRoutputType: hocr header,但是我获得了纯文本输出或没有HOCR标记的html输出。

我尝试了/tika/rmeta端点。

我使用的curl命令:

代码语言:javascript
复制
curl -v -X PUT --data-binary @file.pdf \
     "http://tika-server:8081/tika" \
     -H "Content-Type: application/pdf" \
     -H "X-Tika-OCRoutputType: hocr"

curl -v -X PUT --data-binary @file.pdf \
     "http://tika-server:8081/rmeta" \
     -H "Content-Type: application/pdf" \
     -H "X-Tika-OCRoutputType: hocr"

我还尝试将Accept头设置为text/纯文本、text/html文本/xhtml和text/hocr。都不管用。最后一个错误。

我正在使用:

  • Apache Tika 1.22
  • Tesseract 4.1.0-3.1.x86_64
  • RedHat 7
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-02-06 07:08:36

通过检查TikaResourceTest的集成测试代码,我发现缺少了一个header。正确的命令应该包括X-Tika-PDFOcrStrategy: ocr_only header。请参阅ocr & pdf解析器文档中的更多内容

因此,该命令如下:

代码语言:javascript
复制
curl -v -X PUT \
     --data-binary @file.pdf \
     -H "Content-Type: application/pdf" \
     -H "X-Tika-PDFOcrStrategy: ocr_only" \
     -H "X-Tika-OCROutputType: hocr" \
     "http://tika-server:8081/tika"
票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59662119

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档