我正在做一个项目,使用ImageMagick和ghostscript将OCR'd PDf转换为png,并在浏览器中显示,这样我就可以通过让用户查询单词来选择图像中的单词。Imagemagick和ghostscript一起工作得很好。
我有一个ps2text实用程序的问题,在那里它不能与pdf的可靠工作。有没有人能推荐一个好的工具来将postscript转换成Linux中的文本,这样我就可以将其存储在数据库中。然后,我使用一个自定义的编写搜索类来找出每个单词的坐标,并在浏览器中突出显示文本。
谢谢
发布于 2010-05-27 03:45:16
对于postscript,您应该使用ps2text。对于PDF,您可以pdftotext。
https://stackoverflow.com/questions/2914449
复制相似问题