文章/答案/技术大牛

发布

社区首页 >问答首页 >.NET项目最快的PDF->文本库

问.NET项目最快的PDF->文本库
EN

Stack Overflow用户

提问于 2010-07-22 10:29:13

回答 3查看 2.8K关注 0票数 3

我试图创建一个应用程序，这将基本上是我的PDF收藏目录。我们谈论的是包含数万PDF的15-20 PDFs。我还计划包括一个全文搜索机制.我将使用Lucene.NET进行搜索(实际上是NHibernate.Search)，并使用一个库进行PDF->文本转换。哪一个是最好的选择？我在考虑这些：

PDFBox
通过c#包装器的pdftotext (来自xpdf)
iTextSharp

编辑：其他好的选择似乎是使用iFilters。与这些库相比，他们的表现(速度/质量)有多好(Foxit/Adobe)？

商业库可能是不可能的，因为这是我的私人项目，而且我真的没有商业解决方案的预算--尽管PDFTextStream看起来真的很不错。

据我所知，朗读 pdftotext是，比PDFBox快得多。与pdftotext相比，iTextSharp的性能如何？或者有人可以推荐其他好的解决方案？

xpdf

pdf

itextsharp

pdfbox

回答 3

Stack Overflow用户

发布于 2010-07-22 10:40:48

如果是针对私人项目，这是一个正在进行的转换过程吗？当你转换了15-20 to之后，你还会继续转换吗？

我之所以问这个问题，是因为我想弄清楚速度是否是你的首要问题。例如，如果是我，我主要关心的是转换的质量，而不是转换的速度。如果必要的话，我总是可以在晚上/-周末离开转换的！

票数 3

Stack Overflow用户

发布于 2010-07-22 12:59:30

Foxit的PDF IFilter的桌面版是免费的

http://www.foxitsoftware.com/pdf/ifilter/

它将自动进行索引和搜索，但可能它们的索引也可供您使用。如果您计划在您销售或分发的应用程序中使用它，那么我想这不是一个好的选择，但如果它只是针对您自己，那么它可能是可行的。

Foxit代码是我公司的PDF阅读器/文本提取库的核心，它不适合您的项目，但是我可以保证底层Foxit引擎的结果的速度和质量。

票数 1

Stack Overflow用户

发布于 2010-07-22 10:55:35

我想使用任何库都可以，但是您想在搜索时搜索所有这些20 at文件吗？

对于全文搜索，最好是您可以创建一个数据库，类似sqlite或任何本地数据库在客户端机器上，读取所有pdf并转换成纯文本，并存储在数据库中，当他们首先添加。

您的数据库可以简化如下。

Table: PDFFiles
PDFFileID
PDFFilePath
PDFTitle
PDFAuthor
PDFKeywords
PDFFullText....

你可以在你需要的时候搜索这个表，这样你的搜索就会与pdf的类型无关，而且只有当pdf被添加到你的集合或修改的时候，才需要从pdf到数据库的转换。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/3307861

复制

相似问题

问.NET项目最快的PDF->文本库
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问.NET项目最快的PDF->文本库EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问.NET项目最快的PDF->文本库
EN