问OCR简介
EN

Stack Overflow用户

提问于 2011-05-01 06:27:33

回答 1查看 4.7K关注 0票数 7

有人给了我一堆令人惊叹的信息。这是扫描公告的200MB .tiff图像，可以追溯到40年代。我想将其数字化，但我对光学字符识别一无所知。一些早期的材料人类几乎无法阅读，更不用说机器了。它也是希伯来语。

我正在寻求关于如何处理这个问题的建议。关于书籍、文章、代码库或软件的好建议(所有这些都应该在web上免费获得)。我精通C++和Python，如果需要的话，我可以选择另一种语言。

谢谢。

回答已采纳

发布于 2011-05-01 06:32:46

对于Python来说，这听起来像是一项伟大的任务，使用的是OCR库。在谷歌上快速搜索一下，就找到了pytesser

PyTesser是一个用于Python的光学字符识别模块。它接受图像或图像文件作为输入，并输出一个字符串。

PyTesser使用Tesseract OCR engine，将图像转换为可接受的格式，并将Tesseract可执行文件作为外部脚本调用。随Python脚本一起提供的是Windows可执行文件。这些脚本应该也可以在其他操作系统上运行。

..。

用法Example

from pytesser导入* >>> fnord

= Image.open('fnord.tif') #使用PIL >>>打印图像(Image_to_string)打开图像对象#对图像运行tesseract.exe fnord >>> print image_file_to_string('fnord.tif') fnord

票数 6

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5845033

复制

相似问题

问OCR简介EN