有人给了我一堆令人惊叹的信息。这是扫描公告的200MB .tiff图像,可以追溯到40年代。我想将其数字化,但我对光学字符识别一无所知。一些早期的材料人类几乎无法阅读,更不用说机器了。它也是希伯来语。
我正在寻求关于如何处理这个问题的建议。关于书籍、文章、代码库或软件的好建议(所有这些都应该在web上免费获得)。我精通C++和Python,如果需要的话,我可以选择另一种语言。
谢谢。
发布于 2011-05-01 06:32:46
对于Python来说,这听起来像是一项伟大的任务,使用的是OCR库。在谷歌上快速搜索一下,就找到了pytesser
PyTesser是一个用于Python的光学字符识别模块。它接受图像或图像文件作为输入,并输出一个字符串。
PyTesser使用Tesseract OCR engine,将图像转换为可接受的格式,并将Tesseract可执行文件作为外部脚本调用。随Python脚本一起提供的是Windows可执行文件。这些脚本应该也可以在其他操作系统上运行。
..。
用法Example
from pytesser导入* >>> fnord
= Image.open('fnord.tif') #使用PIL >>>打印图像(Image_to_string)打开图像对象#对图像运行tesseract.exe fnord >>> print image_file_to_string('fnord.tif') fnord
https://stackoverflow.com/questions/5845033
复制相似问题