有人能推荐一些软件来管理数以千计的扫描文档吗?
每个文档都被扫描到一个名为SCANNER_XXXXX.JPG的JPG文件中,其中XXXXX是一个增量计数器。
文件是打印出来的,不是手写的。
我最初的计划是手动打开每个文件,并将其重命名为内容的基本描述。这样做既乏味又费时。
但是,通过这个繁琐的过程,我可以很快找到我需要的任何文件。
是否有Windows软件可以让我实现同样的目标(快速找到任何文档)。重命名这些文件是不必要的(尽管这是一种奖励)。
以下几项要求:
发布于 2017-07-20 02:56:09
Alfresco+Tesseract可以做到这一点。从好的方面来说,它是免费的。不利的一面是,它需要大量的配置,它相当内存沉重,而且它必须一直运行。(老实说,这是相当多的负值,所以我希望有一个更简单的基于Solr的解决方案,只有在需要的时候才能运行)
五年前,我定制了Alfresco,以完成这个精确的任务。
Alfresco是一种文档管理服务器,这意味着您可以将文件(包括JPGs)上传到其中,并在需要时检索它们。每个文档都有元数据(作者、日期、关键字等,您也可以添加自己的元数据字段)。
您可以将Tesseract OCR集成到Alfresco中。以下是技术过程( PDF格式,但您可以适应JPG):http://www.seedim.com.au/content/alfresco-search-pdf-images-using-transformations-and-tesseract-ocr
一旦完成,您就有了一个OCR“操作”。下一步是在上传的任何JPG上执行此操作。您可以通过创建一个Alfresco规则轻松地做到这一点。现在,当有人上传了一个包含单词"hello“的JPG之后,当人们使用Al新鲜Now搜索字段搜索"hello”时,他们会看到JPG出现在结果中。

Alfresco和Tesseract都是免费的和开源的。
https://softwarerecs.stackexchange.com/questions/43602
复制相似问题