文章/答案/技术大牛

发布

社区首页 >问答首页 >不从图像中获取印地语文本

问不从图像中获取印地语文本
EN

Stack Overflow用户

提问于 2018-05-07 05:24:23

回答 1查看 2.3K关注 0票数 2

我想使用pytesseract库从图像中识别印地语文本。

我试过的

下面的脚本可以识别整个文本，但我不会使用印地语。它只识别典型的欧洲/美国字符：

# -*- coding: utf-8 -*-
from PIL import Image
import pytesseract


pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'
#im = Image.open("/tesserocr/hindisample.png")

#im = Image.open("C:/shubhamprojectwork/ocr/tesseract-python-master/sample1.jpg")
im = Image.open("C:/shubhamprojectwork/ocr/tesseract-python-master/hindisample.png")


text = pytesseract.image_to_string(im, lang = 'hin')

print(len(text))
import codecs
f = codecs.open('bla.txt', encoding='utf-8', mode='w')
f.write(text)
f.close()
file1 = open("bla.txt", encoding='utf-8',mode="r+")
file1.seek(0) 

print ("Output of Readline function is ")
print (file1.readline())

我想要的图片就在这里

。

它正在生成这些文本

Wﬁﬁﬁriﬁlﬁaﬁiaﬂmtﬁmﬁ

WWﬁRWWEIB-‘E

ﬁaﬁimﬁiﬁmﬁaﬁtw

ﬁﬁéﬁﬁﬁmﬁaﬁamﬁﬁw

machine-learning

computer-vision

ocr

tesseract

hindi

回答 1

Stack Overflow用户

发布于 2020-07-30 18:57:31

你可能没有印地语训练数据。尝试使用以下命令sudo apt-get install tesseract-ocr-hin重新安装tesseract库

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50207531

复制

相似问题

问不从图像中获取印地语文本
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问不从图像中获取印地语文本EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问不从图像中获取印地语文本
EN