问Tesseract:在hOCR文件中获取word置信度(x_wconf)
EN

Stack Overflow用户

提问于 2013-09-23 19:21:51

回答 1查看 2.5K关注 0票数 2

我目前使用Java通过命令行调用Tesseract，输出模式设置为hOCR。我几乎不知道任何与C编程相关的东西，虽然我能读懂源代码，但仅此而已。

我希望能够在hOCR文件中获得单词置信度信息。我在网上找到了一些“答案”。从在设置文件中设置值到更改和重新编译源文件。

我使用的是最新版本的Tesseract，如何从Java中获取单词置信度(x_wconf)？

发布于 2013-09-24 07:35:25

hOCR是超文本标记语言，所以你需要一个超文本标记语言解析器来提取你想要的属性。尝试使用jsoup、HtmlCleaner或HTML Parser。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/18957993

复制

相似问题

问Tesseract:在hOCR文件中获取word置信度(x_wconf)EN