文章/答案/技术大牛

发布

社区首页 >问答首页 >OCR测试脚本配置

问OCR测试脚本配置
EN

Stack Overflow用户

提问于 2016-10-11 20:52:20

回答 1查看 316关注 0票数 0

我正在使用Tesseract从图像中提取词汇表。

这些列表由两种不同的语言组成。不幸的是，lang1和lang2之间只有空格(可能有3到4个空白字符)。

有没有一种方法来定义，用哪个字符串来将两者分开。

该列表可能如下所示：

房子，建筑豪斯，盖伯德树鲍姆..。

另外，在每对单词后换行符也有问题。

谢谢!

编辑:我运行这个命令

tesseract bilder/screenshot1.png output/screenshot1 -l swe+deu

从该图片中提取所有条目

如您所见，值之间没有清晰的分隔符。作为输出，我得到以下内容

nej nein

jaha aha

Vad talar du för språk? Welche Sprachen sprichst du?
vad för welche, was für

tala (talar, talade, talat) sprechen

språk (-et, —, -en) Sprache

japanska japanisch

engelska englisch

Du då? Und du?

då da, dann, damals, als

bara nur

lite ein bisschen

verb (-et, —, en) Verb

position (—en, -er, -erna) Stellung, Position
OBS (= observera) NB, Achtung!

fråga (-n, -or, -orna) Frage

这是相当好的。但是我不知道如何将每行的字符串分成两个字符串，因为缺少可用的分隔符。

ocr

tesseract

回答 1

Stack Overflow用户

发布于 2016-10-21 20:02:19

您可以使用Tesseract API，并尝试通过调用类ResultIterator的WordFontAttributes方法来分隔单词，以确定某个单词是否为粗体。This GitHub gist展示了如何使用该方法。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/39977694

复制

相似问题

问OCR测试脚本配置
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问OCR测试脚本配置EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问OCR测试脚本配置
EN