我目前使用Java通过命令行调用Tesseract,输出模式设置为hOCR。我几乎不知道任何与C编程相关的东西,虽然我能读懂源代码,但仅此而已。
我希望能够在hOCR文件中获得单词置信度信息。我在网上找到了一些“答案”。从在设置文件中设置值到更改和重新编译源文件。
我使用的是最新版本的Tesseract,如何从Java中获取单词置信度(x_wconf)?
发布于 2013-09-24 07:35:25
hOCR是超文本标记语言,所以你需要一个超文本标记语言解析器来提取你想要的属性。尝试使用jsoup、HtmlCleaner或HTML Parser。
https://stackoverflow.com/questions/18957993
复制相似问题