首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在android中输出用于tesseract OCR的HOCR输出

在android中输出用于tesseract OCR的HOCR输出
EN

Stack Overflow用户
提问于 2014-01-21 02:58:16
回答 1查看 2.3K关注 0票数 4

我试着使用苔丝-2,这是一种用于Android的Tesseract工具的分支。我想在tesseract中打开hocr输出,在这个链接中,我尝试将变量tessedit_create_hocr设置为true,但在输出中看不到hocr。以下是我的尝试:

代码语言:javascript
复制
  baseApi.init(FileUtil.getAppFolder(), "eng", TessBaseAPI.OEM_TESSERACT_CUBE_COMBINED);
  baseApi.setVariable("tessedit_create_hocr", "1")
  baseApi.setImage(bitmap);
  String recognizedText = baseApi.getUTF8Text();

有人告诉hocr输出应该在config文件夹或包含图像的文件夹中,但是我没有看到任何东西。我不知道如何配置hocr输出的文件名和位置。

另一件事:有没有方法将配置文件应用到Android的Tesseract工具中?我将配置文件放入tessdata/config文件夹中,但没有发生任何事情。如何告诉tesseract应该读取这些配置文件?似乎他们没有足够的文件供android使用。

Update:多亏了@nguyenq,现在我可以获得HOCR数据了。以下是我的尝试:

代码语言:javascript
复制
  jstring Java_com_googlecode_tesseract_android_TessBaseAPI_nativeGetHOCRText(JNIEnv *env,
                                                                        jobject thiz,    jint page) {

 native_data_t *nat = get_native_data(env, thiz);

 char *text = nat->api.GetHOCRText(page);

 jstring result = env->NewStringUTF(text);

 free(text);

 return result;
 }
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-01-21 04:10:15

显然,tess-two没有实现所有的TessBaseAPI,因为它不包括对本机GetHOCRText方法的支持。您可能需要自己扩展包装器来访问所需的函数。

配置文件用于命令行执行.或者,您可以通过公开的API方法setVariable设置必要的变量。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/21248288

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档