我正在使用Tesseract从图像中提取词汇表。
这些列表由两种不同的语言组成。不幸的是,lang1和lang2之间只有空格(可能有3到4个空白字符)。
有没有一种方法来定义,用哪个字符串来将两者分开。
该列表可能如下所示:
房子,建筑豪斯,盖伯德树鲍姆..。
另外,在每对单词后换行符也有问题。
谢谢!
编辑:我运行这个命令
tesseract bilder/screenshot1.png output/screenshot1 -l swe+deu从该图片中提取所有条目

如您所见,值之间没有清晰的分隔符。作为输出,我得到以下内容
nej nein
jaha aha
Vad talar du för språk? Welche Sprachen sprichst du?
vad för welche, was für
tala (talar, talade, talat) sprechen
språk (-et, —, -en) Sprache
japanska japanisch
engelska englisch
Du då? Und du?
då da, dann, damals, als
bara nur
lite ein bisschen
verb (-et, —, en) Verb
position (—en, -er, -erna) Stellung, Position
OBS (= observera) NB, Achtung!
fråga (-n, -or, -orna) Frage这是相当好的。但是我不知道如何将每行的字符串分成两个字符串,因为缺少可用的分隔符。
发布于 2016-10-21 20:02:19
您可以使用Tesseract API,并尝试通过调用类ResultIterator的WordFontAttributes方法来分隔单词,以确定某个单词是否为粗体。This GitHub gist展示了如何使用该方法。
https://stackoverflow.com/questions/39977694
复制相似问题