这个站点上有一些ocr问题,但它们要么只针对Linux,要么只针对PDF。
因此,我正在寻找一个工具,可以将带有文本的图像转换为可编辑文本(.doc / .txt)。
它需要:
发布于 2014-07-30 16:25:08
个人使用的最好的OCR工具是细微差别OmniPage、ABBYY FineReader和XI专业杂技演员。(我没有看过基准,但几年前我在寻找它时就有了这样的印象)。但它们的价格都在20美元以上。
Tesseract通常被认为是最精确的开源OCR引擎。存在多个泰瑟乐图形用户界面。否则,您可以使用一些绑定到它,如下面的例子。
示例:
用ImageMagick将图像转换为tif:# myimage.jpeg --自动转换-compress无-compress myimage.tif代码,从myimage.tif读取数据(Tesseract需要TIFF作为输入):从pytesser.pytesser导入图像* image_file = 'myimage.tif‘im = Image.open(image_file) text = image_to_string(im) text = image_file_to_string(image_file) text = image_file_to_string(image_file,graceful_errors=True)打印"=====output=======\n“打印文本
金融时报:光学字符识别软件的比较
https://softwarerecs.stackexchange.com/questions/10262
复制相似问题