首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >扫描PDF文档和图像的搜索工具

扫描PDF文档和图像的搜索工具
EN

Software Recommendation用户
提问于 2017-05-23 17:27:26
回答 1查看 69关注 0票数 2

我正在寻找一个工具,可以搜索扫描PDF文档和图像中的文本。我试过Evernote,我真的很喜欢它,但是我不想在别人的云上有个人文档。

我是一个开发人员,所以我可以自己做一些小事情,但解析PDF文件的文本是远远超出我的范围。

重要特性

  1. 无云服务
  2. 处理扫描PDF文档和图像的能力
  3. 应该能够可靠地处理多达100,000份文件。
  4. 必须在具有8GB RAM的Linux或Windows 10上运行
  5. 最好有一个安全的Web接口,允许我添加文档和搜索文档
  6. 必须支持大型文档>50 Must

不太重要的特性

  1. 支持文档加密(例如,搜索需要身份验证)
  2. 可以处理其他文档类型(原始文档、docx文档、pptx文档等)。
  3. 添加多个用户的能力

预算

不是每年50欧元左右,就是一次大约200欧元。

EN

回答 1

Software Recommendation用户

回答已采纳

发布于 2017-05-24 05:47:30

您可能可以在python pdfminer/pdfminer3k方面取得一些进展,但最大的问题是扫描的pdf文件只包含由扫描仪执行的任何OCR (光学字符识别)的文本。这在质量上差别很大,取决于原始文档的字体和质量以及扫描仪。

如果文本在pdf中显示并具有良好的质量,您可以使用pdfminer提取它并从它中索引您的文件,但否则,您必须首先使用诸如Aprise (都收费)或特塞尔 (免费的,并带有包括pyTesseract在内的一些前端)之类的东西对页面的图像执行OCR。

如果你的pdf文件包括手写或差扫描质量的文件,你可能会挣扎。

票数 1
EN
页面原文内容由Software Recommendation提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://softwarerecs.stackexchange.com/questions/42531

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档