文章/答案/技术大牛

发布

社区首页 >问答首页 >从PDF中提取文本: PDFLib和PDF对pdf2xml

问从PDF中提取文本: PDFLib和PDF对pdf2xml
EN

Stack Overflow用户

提问于 2010-09-21 10:22:35

回答 2查看 4.6K关注 0票数 3

我正在寻找一个库(如果可能的话，在Java或PHP中可用)，以便从PDF中提取文本。有许多可用的软件，包括：

http://www.pdf-tools.com/pdf/pdf-extract-content-metadata-text.aspx

PDFlib
3-高地™PDF提取 TET -文本提取工具包http://www.pdflib.com/products/tet/
- PDF2XML http://sourceforge.net/projects/pdf2xml/

你会选择哪种工具？你觉得他们怎么样？

非常感谢您的帮助！

java

php

pdf

text-extraction

回答 2

Stack Overflow用户

回答已采纳

发布于 2010-09-23 11:12:49

我最喜欢的是iText (java)，但是从PDF中提取文本可能充满困难，因为PDF中的文本并不总是按照显示的顺序存储。

票数 3

Stack Overflow用户

发布于 2013-11-03 03:26:11

itext在正确提取irs i1040.pdf中的文本时遇到了问题，如下文所述：

<1> article.gmane.org/gmane.comp.java.lib.itext.general/65680

据我所知，当字体被嵌入时，并不总是能够提取出正确的文本。见: www.verypdf.com/wordpress/201109/pdf-to-text-converter-cant-extract-text-which-render-by-embedded-fonts-2452.html <2> <3>第9.10.1节: www.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/PDF32000_2008.pdf

<3>说：

如果字体不是以下列方式之一定义的.如果没有其他信息，则无法将字符转换为Unicode值。

我假设“转换到unicode值”对于文本提取是必不可少的。

票数 -1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/3759352

复制

相似问题

问从PDF中提取文本: PDFLib和PDF对pdf2xml
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从PDF中提取文本: PDFLib和PDF对pdf2xmlEN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从PDF中提取文本: PDFLib和PDF对pdf2xml
EN