我正在使用对PDF文件执行OCR操作。
我对hOCR输出感兴趣,但只成功地获得了纯文本格式的输出。
在维基和代码之后,我尝试使用X-Tika-OCR... headers配置Tesseract。在本例中,我使用的是X-Tika-OCRoutputType: hocr header,但是我获得了纯文本输出或没有HOCR标记的html输出。
我尝试了/tika和/rmeta端点。
我使用的curl命令:
curl -v -X PUT --data-binary @file.pdf \
"http://tika-server:8081/tika" \
-H "Content-Type: application/pdf" \
-H "X-Tika-OCRoutputType: hocr"
curl -v -X PUT --data-binary @file.pdf \
"http://tika-server:8081/rmeta" \
-H "Content-Type: application/pdf" \
-H "X-Tika-OCRoutputType: hocr"我还尝试将Accept头设置为text/纯文本、text/html文本/xhtml和text/hocr。都不管用。最后一个错误。
我正在使用:
发布于 2020-02-06 07:08:36
通过检查TikaResourceTest的集成测试代码,我发现缺少了一个header。正确的命令应该包括X-Tika-PDFOcrStrategy: ocr_only header。请参阅ocr & pdf解析器文档中的更多内容
因此,该命令如下:
curl -v -X PUT \
--data-binary @file.pdf \
-H "Content-Type: application/pdf" \
-H "X-Tika-PDFOcrStrategy: ocr_only" \
-H "X-Tika-OCROutputType: hocr" \
"http://tika-server:8081/tika"https://stackoverflow.com/questions/59662119
复制相似问题