首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从PDF中提取文本: PDFLib和PDF对pdf2xml

从PDF中提取文本: PDFLib和PDF对pdf2xml
EN

Stack Overflow用户
提问于 2010-09-21 10:22:35
回答 2查看 4.6K关注 0票数 3

我正在寻找一个库(如果可能的话,在Java或PHP中可用),以便从PDF中提取文本。有许多可用的软件,包括:

http://www.pdf-tools.com/pdf/pdf-extract-content-metadata-text.aspx

  • PDFlib
  • 3-高地™PDF提取 TET -文本提取工具包http://www.pdflib.com/products/tet/
    • PDF2XML http://sourceforge.net/projects/pdf2xml/

你会选择哪种工具?你觉得他们怎么样?

非常感谢您的帮助!

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2010-09-23 11:12:49

我最喜欢的是iText (java),但是从PDF中提取文本可能充满困难,因为PDF中的文本并不总是按照显示的顺序存储。

票数 3
EN

Stack Overflow用户

发布于 2013-11-03 03:26:11

itext在正确提取irs i1040.pdf中的文本时遇到了问题,如下文所述:

<1> article.gmane.org/gmane.comp.java.lib.itext.general/65680

据我所知,当字体被嵌入时,并不总是能够提取出正确的文本。见: www.verypdf.com/wordpress/201109/pdf-to-text-converter-cant-extract-text-which-render-by-embedded-fonts-2452.html <2> <3>第9.10.1节: www.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/PDF32000_2008.pdf

<3>说:

如果字体不是以下列方式之一定义的.如果没有其他信息,则无法将字符转换为Unicode值。

我假设“转换到unicode值”对于文本提取是必不可少的。

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3759352

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档