首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >OCR测试脚本配置

OCR测试脚本配置
EN

Stack Overflow用户
提问于 2016-10-11 20:52:20
回答 1查看 316关注 0票数 0

我正在使用Tesseract从图像中提取词汇表。

这些列表由两种不同的语言组成。不幸的是,lang1和lang2之间只有空格(可能有3到4个空白字符)。

有没有一种方法来定义,用哪个字符串来将两者分开。

该列表可能如下所示:

房子,建筑豪斯,盖伯德树鲍姆..。

另外,在每对单词后换行符也有问题。

谢谢!

编辑:我运行这个命令

代码语言:javascript
复制
tesseract bilder/screenshot1.png output/screenshot1 -l swe+deu

从该图片中提取所有条目

如您所见,值之间没有清晰的分隔符。作为输出,我得到以下内容

代码语言:javascript
复制
nej nein

jaha aha

Vad talar du för språk? Welche Sprachen sprichst du?
vad för welche, was für

tala (talar, talade, talat) sprechen

språk (-et, —, -en) Sprache

japanska japanisch

engelska englisch

Du då? Und du?

då da, dann, damals, als

bara nur

lite ein bisschen

verb (-et, —, en) Verb

position (—en, -er, -erna) Stellung, Position
OBS (= observera) NB, Achtung!

fråga (-n, -or, -orna) Frage

这是相当好的。但是我不知道如何将每行的字符串分成两个字符串,因为缺少可用的分隔符。

EN

回答 1

Stack Overflow用户

发布于 2016-10-21 20:02:19

您可以使用Tesseract API,并尝试通过调用类ResultIteratorWordFontAttributes方法来分隔单词,以确定某个单词是否为粗体。This GitHub gist展示了如何使用该方法。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/39977694

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档