首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >.NET项目最快的PDF->文本库

.NET项目最快的PDF->文本库
EN

Stack Overflow用户
提问于 2010-07-22 10:29:13
回答 3查看 2.8K关注 0票数 3

我试图创建一个应用程序,这将基本上是我的PDF收藏目录。我们谈论的是包含数万PDF的15-20 PDFs。我还计划包括一个全文搜索机制.我将使用Lucene.NET进行搜索(实际上是NHibernate.Search),并使用一个库进行PDF->文本转换。哪一个是最好的选择?我在考虑这些:

  • PDFBox
  • 通过c#包装器的pdftotext (来自xpdf)
  • iTextSharp

编辑:其他好的选择似乎是使用iFilters。与这些库相比,他们的表现(速度/质量)有多好(Foxit/Adobe)?

商业库可能是不可能的,因为这是我的私人项目,而且我真的没有商业解决方案的预算--尽管PDFTextStream看起来真的很不错。

据我所知,朗读 pdftotext是,比PDFBox快得多。与pdftotext相比,iTextSharp的性能如何?或者有人可以推荐其他好的解决方案?

EN

回答 3

Stack Overflow用户

发布于 2010-07-22 10:40:48

如果是针对私人项目,这是一个正在进行的转换过程吗?当你转换了15-20 to之后,你还会继续转换吗?

我之所以问这个问题,是因为我想弄清楚速度是否是你的首要问题。例如,如果是我,我主要关心的是转换的质量,而不是转换的速度。如果必要的话,我总是可以在晚上/-周末离开转换的!

票数 3
EN

Stack Overflow用户

发布于 2010-07-22 12:59:30

Foxit的PDF IFilter的桌面版是免费的

http://www.foxitsoftware.com/pdf/ifilter/

它将自动进行索引和搜索,但可能它们的索引也可供您使用。如果您计划在您销售或分发的应用程序中使用它,那么我想这不是一个好的选择,但如果它只是针对您自己,那么它可能是可行的。

Foxit代码是我公司的PDF阅读器/文本提取库的核心,它不适合您的项目,但是我可以保证底层Foxit引擎的结果的速度和质量。

票数 1
EN

Stack Overflow用户

发布于 2010-07-22 10:55:35

我想使用任何库都可以,但是您想在搜索时搜索所有这些20 at文件吗?

对于全文搜索,最好是您可以创建一个数据库,类似sqlite或任何本地数据库在客户端机器上,读取所有pdf并转换成纯文本,并存储在数据库中,当他们首先添加。

您的数据库可以简化如下。

代码语言:javascript
复制
Table: PDFFiles
PDFFileID
PDFFilePath
PDFTitle
PDFAuthor
PDFKeywords
PDFFullText....

你可以在你需要的时候搜索这个表,这样你的搜索就会与pdf的类型无关,而且只有当pdf被添加到你的集合或修改的时候,才需要从pdf到数据库的转换。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3307861

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档