我试图创建一个应用程序,这将基本上是我的PDF收藏目录。我们谈论的是包含数万PDF的15-20 PDFs。我还计划包括一个全文搜索机制.我将使用Lucene.NET进行搜索(实际上是NHibernate.Search),并使用一个库进行PDF->文本转换。哪一个是最好的选择?我在考虑这些:
编辑:其他好的选择似乎是使用iFilters。与这些库相比,他们的表现(速度/质量)有多好(Foxit/Adobe)?
商业库可能是不可能的,因为这是我的私人项目,而且我真的没有商业解决方案的预算--尽管PDFTextStream看起来真的很不错。
据我所知,朗读 pdftotext是,比PDFBox快得多。与pdftotext相比,iTextSharp的性能如何?或者有人可以推荐其他好的解决方案?
发布于 2010-07-22 10:40:48
如果是针对私人项目,这是一个正在进行的转换过程吗?当你转换了15-20 to之后,你还会继续转换吗?
我之所以问这个问题,是因为我想弄清楚速度是否是你的首要问题。例如,如果是我,我主要关心的是转换的质量,而不是转换的速度。如果必要的话,我总是可以在晚上/-周末离开转换的!
发布于 2010-07-22 12:59:30
Foxit的PDF IFilter的桌面版是免费的
http://www.foxitsoftware.com/pdf/ifilter/
它将自动进行索引和搜索,但可能它们的索引也可供您使用。如果您计划在您销售或分发的应用程序中使用它,那么我想这不是一个好的选择,但如果它只是针对您自己,那么它可能是可行的。
Foxit代码是我公司的PDF阅读器/文本提取库的核心,它不适合您的项目,但是我可以保证底层Foxit引擎的结果的速度和质量。
发布于 2010-07-22 10:55:35
我想使用任何库都可以,但是您想在搜索时搜索所有这些20 at文件吗?
对于全文搜索,最好是您可以创建一个数据库,类似sqlite或任何本地数据库在客户端机器上,读取所有pdf并转换成纯文本,并存储在数据库中,当他们首先添加。
您的数据库可以简化如下。
Table: PDFFiles
PDFFileID
PDFFilePath
PDFTitle
PDFAuthor
PDFKeywords
PDFFullText....你可以在你需要的时候搜索这个表,这样你的搜索就会与pdf的类型无关,而且只有当pdf被添加到你的集合或修改的时候,才需要从pdf到数据库的转换。
https://stackoverflow.com/questions/3307861
复制相似问题