首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Tesseract:在hOCR文件中获取word置信度(x_wconf)

Tesseract:在hOCR文件中获取word置信度(x_wconf)
EN

Stack Overflow用户
提问于 2013-09-23 19:21:51
回答 1查看 2.5K关注 0票数 2

我目前使用Java通过命令行调用Tesseract,输出模式设置为hOCR。我几乎不知道任何与C编程相关的东西,虽然我能读懂源代码,但仅此而已。

我希望能够在hOCR文件中获得单词置信度信息。我在网上找到了一些“答案”。从在设置文件中设置值到更改和重新编译源文件。

我使用的是最新版本的Tesseract,如何从Java中获取单词置信度(x_wconf)?

EN

回答 1

Stack Overflow用户

发布于 2013-09-24 07:35:25

hOCR是超文本标记语言,所以你需要一个超文本标记语言解析器来提取你想要的属性。尝试使用jsoupHtmlCleanerHTML Parser

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/18957993

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档