我正在寻找一个工具,可以搜索扫描PDF文档和图像中的文本。我试过Evernote,我真的很喜欢它,但是我不想在别人的云上有个人文档。
我是一个开发人员,所以我可以自己做一些小事情,但解析PDF文件的文本是远远超出我的范围。
不是每年50欧元左右,就是一次大约200欧元。
发布于 2017-05-24 05:47:30
您可能可以在python pdfminer/pdfminer3k方面取得一些进展,但最大的问题是扫描的pdf文件只包含由扫描仪执行的任何OCR (光学字符识别)的文本。这在质量上差别很大,取决于原始文档的字体和质量以及扫描仪。
如果文本在pdf中显示并具有良好的质量,您可以使用pdfminer提取它并从它中索引您的文件,但否则,您必须首先使用诸如Aprise (都收费)或特塞尔 (免费的,并带有包括pyTesseract在内的一些前端)之类的东西对页面的图像执行OCR。
如果你的pdf文件包括手写或差扫描质量的文件,你可能会挣扎。
https://softwarerecs.stackexchange.com/questions/42531
复制相似问题